In [51]:
import pandas as pd
import numpy as np
import scipy.stats as st
import math
import os

pd.set_option('max_colwidth', 200)
pd.set_option('display.width', 400)

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:70% !important; }</style>"))

from pprint import pprint
from pathlib import Path

# Самопроверка (не оценивается)

### 1
Предположим, что у нас есть следующие данные: `X = [23, 3, 11, 35, -3, -10]` и `Y = [29, 1, 20, 3, 0, 0]`. 
Мы хотим проверить нулевую гипотезу о том, что средняя разность между этими показателями равна нулю. Чему в таком случае будет равно t-наблюдаемое? Выберите один верный ответ.

In [84]:
X = np.array([23, 3, 11, 35, -3, -10])
Y = np.array([29, 1, 20, 3, 0, 0])

for s in [X, Y]:
    print(s.var().round(3), end='; ')

st.ttest_ind(a=X, b=Y, equal_var=False)

235.472; 130.472; 

Ttest_indResult(statistic=0.11689001732394605, pvalue=0.9094487485927087)

### 2
Предположим, что у нас есть следующие данные: `X = [13, 0, 6, 9, -1, 0]` и Y = `[4, 1, 5, 1, 20, 0]`. Мы хотим проверить нулевую гипотезу о том, что средние значения этих показателей равны. Чему в таком случае будет равно t-наблюдаемое? Выберите один верный ответ.

In [89]:
X = np.array([13, 0, 6, 9, -1, 0])
Y = np.array([4, 1, 5, 1, 20, 0])

for s in [X, Y]:
    print(s.var(ddof=1).round(3), end='; ')
    
st.ttest_ind(a=X, b=Y, equal_var=False)[0]

33.1; 56.567; 

-0.1724522454236908

### 3
Предположим, что у нас есть следующие данные: X = `[3, 2, 98, 34, 11, 2]`. Мы хотим проверить нулевую гипотезу о том, что среднее значение равно 7. Чему в таком случае будет равно t-наблюдаемое? Выберите один верный ответ.

In [90]:
X = np.array([3, 2, 98, 34, 11, 2])
Y_mean = 7

t = (X.mean() - Y_mean) / (X.std(ddof=1) / math.sqrt(len(X)))
t

1.1661136003542576

### 4
Какой будет критическая область для t-статистики при уровне значимости 0.05 и 20 степенях свободы? Выберите один верный ответ.

In [111]:
CI = st.t.interval(alpha=0.95, df=20) 
[round(c, 3) for c in CI]

[-2.086, 2.086]

### 5
Укажите, верно ли следующее утверждение: если t-значение получилось меньше t-критического, то при одностороннем тесте нулевая гипотеза не отвергается.

# Тест на оценку

In [116]:
df = pd.read_csv('../Data/UrbanizationCensusTract.csv', index_col=0)
df.head(3)

Unnamed: 0,statefips,state,gisjoin,lat_tract,long_tract,population,adj_radiuspop_5,urbanindex,log_pop
0,1,Alabama,G0100010020100,32.47718,-86.49007,1845,44076.0,10.69367,7.520235
1,1,Alabama,G0100010020200,32.47425,-86.47337,2172,43008.0,10.66914,7.683404
2,1,Alabama,G0100010020300,32.47543,-86.46019,3385,38987.0,10.57098,8.127109


## Описание данных


- statefip — намер штата США или территории в ведение США
- state — название штата или территории
- gisjoin — номер переписного района согласно данным переписи 2010 года
- lat_tract, long_tract — широта и долгота центра переписного района
- population — число жителей переписного района
- adj_radiuspop_5 — оцененное значение числа жителей в радиусе пяти миль от переписного пункта
- urbanindex — индекс того, насколько городской или сельской является данный район
- log_pop — логарифм населения переписного пункта

## Задания

### Сравните дисперсии по переменной `log_pop` в штатах Вайоминг (Wyoming) и Южная Дакота (South Dakota). 
Укажите, верно ли следующее утверждение: полученные дисперсии равны.

In [134]:
df

Unnamed: 0,statefips,state,gisjoin,lat_tract,long_tract,population,adj_radiuspop_5,urbanindex,log_pop
0,1,Alabama,G0100010020100,32.47718,-86.49007,1845,44076.0,10.69367,7.520235
1,1,Alabama,G0100010020200,32.47425,-86.47337,2172,43008.0,10.66914,7.683404
2,1,Alabama,G0100010020300,32.47543,-86.46019,3385,38987.0,10.57098,8.127109
3,1,Alabama,G0100010020400,32.47200,-86.44363,4267,43131.0,10.67200,8.358666
4,1,Alabama,G0100010020500,32.45883,-86.42266,9965,43131.0,10.67200,9.206834
...,...,...,...,...,...,...,...,...,...
73275,72,Puerto Rico,G7201530750501,18.03124,-66.86725,6011,52155.0,10.86198,8.701346
73276,72,Puerto Rico,G7201530750502,18.02477,-66.86044,2342,55257.0,10.91975,7.758761
73277,72,Puerto Rico,G7201530750503,18.02527,-66.87763,2218,48423.0,10.78773,7.704361
73278,72,Puerto Rico,G7201530750601,18.01738,-66.83936,4380,50600.0,10.83171,8.384804


In [191]:
X = df.loc[df['state'] == 'South Dakota', 'log_pop']
Y = df.loc[df['state'] == 'Wyoming', 'log_pop']

In [137]:
df.loc[df['state'].isin(['Wyoming', 'South Dakota'])].groupby(by='state').agg({'log_pop': 'var', 'statefips': 'count'})

Unnamed: 0_level_0,log_pop,statefips
state,Unnamed: 1_level_1,Unnamed: 2_level_1
South Dakota,0.247386,219
Wyoming,0.185171,131


### Чему будет равно количество степеней свободы для указанной выше переменной и штатов с поправкой Уэлча? 
Рассчитайте показатель вручную. Выберите один верный ответ.

$
V_1 = \frac{s^2_1}{n_1}
$
$
V_2 = \frac{s^2_2}{n_2}
$

$
\begin{align}
df = \frac{(V_1 + V_2)^2}{\frac{V^2_1}{n_1 - 1} + \frac{V^2_2}{n_2 - 1}}
\end{align}
$

In [174]:
df_f = df \
    .loc[df['state'].isin(['Wyoming', 'South Dakota'])] \
    .groupby(by='state') \
    .agg({'log_pop': ['mean', 'var'], 'statefips': 'count'})

display(df_f)

mean_1, var_1, n_1 = df_f.loc['South Dakota'].values
mean_2, var_2, n_2 = df_f.loc['Wyoming'].values

v_1, v_2 = var_1 / n_1, var_2 / n_2

df_welch = (v_1 + v_2)**2 / (v_1**2 / (n_1 - 1) + v_2**2 / (n_2 - 1))
df_welch

Unnamed: 0_level_0,log_pop,log_pop,statefips
Unnamed: 0_level_1,mean,var,count
state,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
South Dakota,8.135171,0.247386,219
Wyoming,8.313296,0.185171,131


304.74376993186036

### Какой будет критическая область для t-статистики при уровне значимости 0.01 и верно посчитанных выше степенях свободы? 
Выберите один верный ответ.

In [163]:
CI = st.t.interval(alpha=1-0.01, df=int(df_welch)) 
[round(c, 4) for c in CI]

[-2.5921, 2.5921]

### Чему равна стандартная ошибка для выбранных выше штатов и переменной? Выберите один верный ответ.

In [176]:
s_m1_m2 = np.sqrt(var_1 / n_1 + var_2 / n_2)
s_m1_m2.round(4)

0.0504

#### Чему равна разность между средними выборок по указанным выше штатам? Выберите один верный ответ.

In [177]:
a = df \
    .loc[df['state'].isin(['Wyoming', 'South Dakota'])] \
    .groupby(by='state').agg({'log_pop': 'mean'}).T

np.abs(a['South Dakota'] - a['Wyoming'])

log_pop    0.178125
dtype: float64

### Чему получилось равно t-значение для указанных выше штатов и переменной log_pop ? 
Введите ответ в виде модуля десятичной дроби, округлите до двух знаков после запятой.

In [205]:
# Передаем значения статистик
st.ttest_ind_from_stats(
    mean1=mean_1, std1=np.sqrt(var_1), nobs1=n_1,
    mean2=mean_2, std2=np.sqrt(var_2), nobs2=n_2,
    equal_var=False  # False - если дисперсия двую выборок не равна, применяется поправка Уэлча
)[0].round(2)

-3.53

### Чему получилось равно t-критическое для уровня значимости 0.01? Введите ответ в виде десятичной дроби, округлите до двух знаков после запятой.
