In [1]:
import pandas as pd
import numpy as np
import sqlite3
import scipy.stats as st

connection = sqlite3.connect('german_credit.db')
cursor = connection.cursor()

def select(query):
    try:
        return pd.read_sql_query(query, connection)
    except:
        cursor.executescript(query)
        connection.commit()

from IPython.display import Markdown as md

In [2]:
german_credit = pd.read_csv('../german_credit_augmented.csv')
german_credit.head()

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358


In [3]:
german_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   age               1000 non-null   int64 
 1   sex               1000 non-null   object
 2   job               1000 non-null   int64 
 3   housing           1000 non-null   object
 4   saving_accounts   817 non-null    object
 5   checking_account  606 non-null    object
 6   credit_amount     1000 non-null   int64 
 7   duration          1000 non-null   int64 
 8   purpose           1000 non-null   object
 9   default           1000 non-null   int64 
 10  contract_dt       1000 non-null   object
 11  client_id         1000 non-null   int64 
dtypes: int64(6), object(6)
memory usage: 93.9+ KB


### Difference between expected destribution and observed destribution of categorical var 
 |   |  heads  |   tails   |   total | 
 |:-:| :-:     |   :-:     |   :-:   |
O |  20  |       40     |   60  |
E | 30    |     30       |  60  |


`O - observed` <br/> `E - expected`

<div class="alert alert-block alert-info">

-  $H_0$ =>  $ P_{heads} = 0.5 $

-  $H_1$ =>  $ P_{heads} \neq 0.5 $
</div>


$$
F =  \frac {(20 - 30)^2} {30} + \frac {(40 - 30^2)}{30} \approx 6.7
$$


<div class="alert alert-block alert-warning">
<b>Example:</b> Use yellow boxes for examples that are not 
inside code cells, or use for mathematical formulas if needed.
</div>
<div class="alert alert-block alert-success">
<b>Up to you:</b> Use green boxes sparingly, and only for some specific 
purpose that the other boxes can't cover. For example, if you have a lot 
of related content to link to, maybe you decide to use green boxes for 
related links from each section of a notebook.
</div>
<div class="alert alert-block alert-danger">
<b>Just don't:</b> In general, avoid the red boxes. These should only be
used for actions that might cause data loss or another major issue.
</div>



## Formula of $\chi^2$:

$$  
\chi^2 = \sum_{n=1} ^{n} {\frac{(O_i - E_i)^2} {E_i}}
$$

### Calculating chi-squared (from scipy.stats)
```
    import scipy.stats as st
    chi_squared, p_value = st.chisquare([1220, 1240])
```

In [4]:
chi_squared, p_value = st.chisquare([1220, 1240])
print(f'chi_squared = {chi_squared}, p_value = {p_value}')

chi_squared = 0.16260162601626016, p_value = 0.6867724711187833


_____
##### Task
> Эмпирическое распределение частот некоторого номинативного признака с тремя градациями приняло вид
18,55,2718,55,27. Предполагаемое теоретическое распределение — 1:2:1.

Рассчитайте расстояние хи-квадрат

In [5]:
f'p-value = {st.chisquare([18, 55, 27], f_exp=[25, 50, 25])[1]}'

'p-value = 0.26982005638468687'

____
### $\chi$^2 for distribution with degrees of freedom equal 2
```
    from scipy.stats.distributions import chi2
    chi2.ppf(df=2, q=0.95)
```

In [6]:
st.chi2.ppf(df = 2, q = 0.95)

5.991464547107979

In [13]:
st.chisquare([20, 40], [30, 30])

Power_divergenceResult(statistic=6.666666666666667, pvalue=0.009823274507519235)

In [19]:
st.chisquare([11, 10, 10, 12, 8, 9], [10]*6)

Power_divergenceResult(statistic=1.0, pvalue=0.9625657732472964)

# $\chi$^2 for dice
|  | 1 | 2 | 3 | 4 | 5|6|
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|O|10|11|10|9|12|8|
|E|10|10|10|10|10|10|


### <u>Calculating in Python</u>:
```
    import scipy.stats as st
    st.chisquare([10, 11, 10, 9, 12, 8], [10]*6)

# Power_divergenceResult(statistic=1.0, pvalue=0.9625657732472964)
```

_**For dice**_ $\chi^2 = \sum_{n=1} ^{n} {\frac{(O_i - E_i)^2} {E_i}}$     $\sim$     $\chi^2$ with `df = 5`
</br>


#### Task 1
> Какая доля наблюдений лежит в диапазоне от 2 до 4 у распределения хи-квадрат с двумя степенями свободы?

```
    import scipy.stats as st
    st.chi2.cdf(4, df = 2) - st.chi2.cdf(2, df = 2)

# 0.23254415793482963
```

#### Task 2
> Значения наблюдаемых частот (от единички до шестерки):
>
> 10,10,10,5,10,15
>
> Проверьте нулевую гипотезу о том, что эмпирическое распределение частот не отличается 
от равномерного. В поле для ответа введите получившийся p-уровень значимости.


`import scipy.stats as st`</br>
`st.chisquare([10, 10, 10, 5, 10, 15], [10]*6)`

\# Power_divergenceResult(statistic=5.0, pvalue=0.4158801869955079)


#### Task 3 
>Вернемся к нашему примеру с политическими партиями! <br>
>Проверьте гипотезу о том, что в ГС нет никаких различий в предпочтениях трех партий. <br>
>Введите в поле для ответа получившееся значение статистики хи-квадрат <br>
>с точностью хотя бы до одной цифры после запятой.

`import scipy.stats as st`</br>
`st.chisquare([10, 30, 50], [30] * 3)`

\# Power_divergenceResult(statistic=26.666666666666668, pvalue=1.61959679231261e-06)

#### Task 4
>Недавно я пришел на лекцию в Институт биоинформатики и обнаружил, <br>
что в группе различное число студентов женского и мужского пола: <br>
15 юношей и 9 девушек. Возможно, кого-то это и могло бы оставить равнодушным, <br> 
а я вот сразу взял лист бумаги и ручку, чтобы проверить гипотезу о том, что распределение <br>
>частот девушек и юношей не отличается от равномерного в генеральной совокупности биоинформатиков!

`import scipy.stats as st`</br>
`st.chisquare([15, 9], [12] * 2)`

\# Power_divergenceResult(statistic=1.5, pvalue=0.22067136191984324)

#### <u>Task 5
>В 2013 году Эдвард Сноуден передал СМИ секретную информацию АНБ, <br>
>касающуюся слежки американских спецслужб за информационными к <br>
>оммуникациями между гражданами. Однако ﻿его поступок вызвал <br>
>неоднозначную реакцию в обществе. Исследовательский центр USA TODAY <br>
>провел опрос 1500 граждан США с целью выяснить, воспринимают ли они <br>
>поступок Сноудена как положительный или отрицательный. 53% опрошенных р <br>
>еспондентов оценили разоблачение положительно. <br>

>При помощи теста хи-квадрат проверьте нулевую гипотезу о том, что в <br>
>генеральной совокупности распределение отношения к поступку Сноудена является равномерным, то есть 50 на 50. <br>

>Введите в ответ получившийся p-уровень значимости для проверки этой гипотезы. <br>

`import scipy.stats as st`</br>
`st.chisquare([53, 47], [50] * 2)`

\# Power_divergenceResult(statistic=0.36, pvalue=0.5485062355001471)


In [28]:
st.chisquare([0.53 * 1500, 0.47 * 1500], [750] * 2)

Power_divergenceResult(statistic=5.4, pvalue=0.02013675155034633)

In [9]:
pd.get_dummies(german_credit.iloc[:,0:5], columns = ['housing'])

Unnamed: 0,age,sex,job,saving_accounts,housing_free,housing_own,housing_rent
0,33,male,2,,False,True,False
1,43,male,1,little,False,True,False
2,52,male,2,quite rich,False,True,False
3,35,female,3,little,False,True,False
4,28,male,2,little,False,True,False
...,...,...,...,...,...,...,...
995,65,male,2,little,True,False,False
996,30,male,3,little,False,True,False
997,33,male,2,little,False,True,False
998,29,female,2,,False,True,False
