In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import seaborn as sns
import re
import scipy.stats as stats

# Задачи по эконометрике. Структурные сдвиги.
## Структурные сдвиги
### Графики

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ryupepa/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
df

#### В этом задании мы с вами знакомимся с методом библиотекм seaborn, который называется lmplot()
#### Данный метод отличает то, что он позволяет обрабатывать категориальные переменные с помощью аргумента 'hue='.
#### Docstring:
'''When thinking about how to assign variables to different facets, a general
rule is that it makes sense to use ``hue`` for the most important
comparison, followed by ``col`` and ``row``. However, always think about
your particular dataset and the goals of the visualization you are
creating.'''

In [None]:
sns.lmplot(x='totwrk', y='sleep', hue='south', data=df);

In [None]:
sns.lmplot(x="age", y="sleep", hue="male", data=df);

In [None]:
# Если необходимо для каждой категории данных построить отдельный график, можно воспользоваться аргументов col=''
# Получаем два графика, разделенные категорией 'male', на каждом из которых изображены категории данных 'south'
sns.lmplot(x="age", y="sleep", hue="south",col='male', data=df);

In [None]:
# Эти же данные можно изобразить на каждом отдельном графике с помощью метода row=''
# Например в каждой строке будет различное значение переменной 'smsa'
sns.lmplot(x="age", y="sleep",hue='south', row="smsa",col='male', data=df);

In [None]:
date_string = '''R2                      0.115          0.126  '''
rest, unrest =np.float_(re.findall(r'([-+]?\d+.\d+)', date_string)) 

$$
F_{nabl} = \frac{R_{ur}^2 - R_{r}^2}{1-R_{un}^2}\cdot \frac{n-m}{q}.
$$
$$
F_{nabl} = \frac{RSS_{r}-RSS_{ur}}{RSS_{ur}}\cdot\frac{n-m}{q}.
$$

In [None]:
F_obs = (unrest - rest)/(1-unrest)*(706-8)/4
F_obs.round(2)

$$
F \sim_{H_0} F_{q,n-m}
$$
$F_{кр} = F(\alpha;q,n-m)$

In [None]:
alpha = 0.05 # Уровень значимости
#stats.f.ppf(alpha, q,df)
F_cr = stats.f.ppf(1-alpha,4,706-8)
F_cr

$F_{obs} < F_{cr}$ - данные согласуются с нулеовой гипотезой при заданном уровне значимости

## Небинарные качественные переменные
### diamond equation

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/ryupepa/Econometrica/master/python-notebooks/data-csv/Diamond.csv')
# Метод .loc[] фильтрует данные таблицы по строкам и столбцам.
# Метод  "df.loc[:,['carat']]" делает срез данных и означает,
# что из датафрейма выбираются все строки(это делается с помощью знака ":") столбца "carat".
df_all = pd.get_dummies(df.loc[:,['carat','colour','certification','price']])
df_all

In [None]:
model_d = smf.ols(formula='np.log(price)~carat+I(carat**2)+colour_E+colour_F+colour_G+colour_H+colour_I+certification_HRD+certification_IGI',data=df_all).fit()
model_d.params

In [None]:
model_d.f_test('colour_E=colour_F=colour_G=colour_H=colour_I=0')

In [None]:
stats.f.ppf(1-0.01,5,len(df_all)-5).round(2)

$F_{cr} < F_{obs} \Rightarrow $ Гипотеза $H_0$ о совместной незначимости коэффициентов отвергается.