<center>
<img src="https://raw.githubusercontent.com/FUlyankin/ekenam_grand_research/master/images/cover.png">
</center>


# <center> Иканам гранд рисёрч </center>
## <center>  Часть седьмая: моделирование </center>


Проект **Иканам гранд рисёрч** реализуется [Иканам стьюдентс коммьюнити,](https://vk.com/ikanam)
в частности [вот этим парнем по имени Филипп.](https://vk.com/ppilif)  Если вы нашли ошибку или у вас есть предложения, замечания, деньги, слава или женщины, можно ему написать. Весь говнокод, использованный в исследовании распостраняется по лицензии [Creative Commons CC BY-NC-SA 4.0.](https://creativecommons.org/licenses/by-nc-sa/4.0/) Его можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала. При наличии технической возможности необходимо также указать активную гиперссылку на [страницу рисёрча.](https://github.com/FUlyankin/ekenam_grand_research) 


In [1]:
import warnings     # Игнорирование варнингов
warnings.filterwarnings("ignore")  

In [2]:
import numpy as np     # Нумпай для векторов 
import pandas as pd    # Пандас для табличек 
# Округлять в табличках значения до второго знака
pd.set_option('precision', 2)           

# Пакеты для графииков
import matplotlib
import matplotlib.pyplot as plt                             
import seaborn as sns
plt.style.use('ggplot')   # Правильный стиль графиков   

# Пакет для красивых циклов. При желании его можно отключить. Тогда из всех циклов придётся 
# удалять команду tqdm_notebook.
from tqdm import tqdm_notebook   # подробнее: https://github.com/tqdm/tqdm

In [3]:
%matplotlib inline  

# 1. Две задачи и одна наука 

Анализ данных — это довольно обширная область знания. Она включает в себя классический матстат, эконометрику, машинное обучение и многие другие более специфические вещи. Анализ данных занимается тем, что ищет ответ на [два великих вопроса:](https://www.coursera.org/learn/ekonometrika/lecture/S7E9y/1-1-1-sut-mietoda-naimien-shikh-kvadratov) 

* Как устроен мир? Как переменная $y$ зависит от переменной $x$? 
* Что будет завтра? Как спрогнозировать переменную $y$? 

Обычно для поиска ответов на эти два вопроса используются модели. Эти модели оцениваются с помощью собранных данных. На работу каждой модели накладываются какие-то ограничения. Оценивая коэффициенты в моделях, мы хотим, чтобы они обладали тремя свойствами: 

1. **Несмещенность** — если мы оцениваем огромное число моделей, то в среднем мы угадываем истиное значение параметра;
2. **Состоятельность** — чем больше данных, тем ближе наши оценки к истине;
3. **Эффективность** — разброс нашей оценки минимален в некотором классе оценок, если данные меняются, наша оценка меняется менее сильно, нежели другие.

В зависимости от того на какой из двух вопросов мы ищем ответ, мы можем приносить некоторые ограничения в жертву. Переформулируем великие вопросы в контексте нашей проблемы и немного подумаем о жертвах, которые мы собираемя принести анализу данных.

## 1.1 Великий вопрос номер один

Интерпретация. Пусть мы хотим знать какие именно переменные увеличивают наши шансы закончить эконом и насколько сильно. 
В нашем распоряжении оказался довольно большой массив данных. От баллов за ЕГЭ до подписок и информации из профилей. Предположим, что мы оценили модель только по баллам ЕГЭ и по наличию олимпиады. Коэффицент перед переменной, отвечающей за наличие олимпиады получился довольно большим. Он равен $42$. 

Означает ли это, что при наличии олимпиады, мои шансы закончить эконом возрастают пропорционально этому коэффициенту?  Заметьте, я не говорю, что вероятность закончить эконом увеличивается на 42 процентных пункта, потому что мы оцениваем логистическую регрессию. В такой модели интерпретация коэффициентов устроена более сложным образом. Значение коэффициента $\hat \beta$ интерпретируется, как величина изменения шансов (смотри 2 том Носко, страницу 205) либо [7 неделю лекций Бориса Борисовича,](https://www.coursera.org/learn/ekonometrika/lecture/JaRpY/7-1-5-loghit-modiel-doska) а лучше и то и то.

Так вот, означат ли это, что мои шансы закончить эконом растут пропорционально 42? Нет, не означает. Почему? Потому что вероятность закончить первый курс, в равной степени как и способность написать олимпиаду или хорошо сдать ЕГЭ, зависят от такой ненаблюдаемой переменной, как уровень умственных способностей. Эта переменная, в нашей ситуации оказалась в ошибке. В конечном счёте, из-за её пропуска возникает корреляция регрессора и ошибки, оценки коэффициентов оказываются смещёнными и несостоятельными, а сама по себе эта ситуация, называется **эндогенностью.** В этом месте я хотел бы передать привет третьему курсу, который, по большей части, не мог сформулировать мне на зачёте по эконометрике, определение эндогенности. 

Так вот, из-за эндогенности, оценки коэффициентов оказываются **смещенными** и **несостоятельными**. Они ни в коей мере не отражают реальность. В связи с этим мы ничерта не можем сказать о влиянии олимпиады на шансы закончить эконом. Для того, чтобы сделать это, нужно добавить в модель какие-то **инструментальные переменные**, которые будут нести в себе информацию об уровне умственных способностей человека. 

В нашем случае, за создание таких переменных отвечает социальная сеть. Мы наблюдаем за тем, на какие паблики подписывается человек, что он пишет у себя в профиле и так далее. Это позволяет собрать какую-то информацию о его складе ума, характере и других, одному процессу порождения данных ведомых, скрытых от нас характеристиках. В конечном счёте, когда мы добавим в модель эти переменные, мы вынесем ненаблюдаемый эффект из ошибки, корреляция между ошибкой и регрессором исчезнет и оценки в модели получатся состоятельными. 

Предположим, что оценка коэффициента после всех этих манипуляций, оказалась равна $5$. Если никаких других источников эндогенности не осталось,и, при этом, объём данных был довольно большим, мы, дейтвительно можем сказать, что наличие олимпиды увеличивает шансы человека закончить эконом пропроционально 5. Конечно же, при условии, если коэффициент оказывается значим. 

Мы боролись за интерпретацию коэффициента перед переменной, отвечающей за олимпиаду и хотели узнать насколько это важно. Можно сказать, что наша борьба закончилась успешно. 

**Но ведь кроме олимпиады у нас в модели куча других переменных!** Например,  в ней есть переменная, которая отвечает за наличие подписки на мдк. И она равна $-3000$. Означает ли это, что если я прямо сейчас отпишусь от мдк, мои шансы закончить эконом так сильно вырастут? 

Если вы знали об исследовании и отписались из-за этого, **ничего у вас не вырсатет,** потому что изменилась не причина, а следствие.  Если вы не знали об исследовании, в вашей жизни произошло какое-то переосмысление ценностей, вы поняли, что там тупые мемы, а ботать очень круто, то да. Ваши шансы закончить эконом возрастут. Возрастут не потому что вы отписались от мдк, а потому что что-то произошло с причиной того, что вы на него были подписаны. Произошло что-то с ненаблюдаемой переменной, которая несёт информацию о вашем характере.

**Ещё раз, ещё раз,** в первой ситуации, просто-напросто, испортился информационный канал, за который отвечала инструментальная переменная "паблик мдк", во втором случае изменилась истиная информация и наш информационный канал в виде инструментальной переменной сообшил нам про это.  Интерпретировать коэффициенты в логистической регрессии можно так и только так. 

## 1.2  Великий вопрос номер два 

Прогнозы. Пусть мы хотим уметь хорошо прогнозировать отчислят ли человека с эконома или нет. Предположим, что мы оценили регрессию из предыдущего пункта. Она хороша, коэффициенты хороши, всё значимо, на улице светит солнце, все гиптезы проверены, вода в ручьях кристально чистая, эндогенности нет и во всём мире мир. Можно ли использовать её для прогнозирования? **Конечно да.** Ура, расходимся!

Секундочку. А что если я скажу вам, что ваши прогнозы можно улучшить? При оценивании логистической регрессии максимизируется логарифм правдоподобия. Этот логарифм можно немного переписать и получить логистическую функцию потерь. 






# 1. Самые простые данные 

Построим логрегрессию по самым простым данным, которые у нас есть. 

In [None]:
data1 = pd.read_csv('data_1_easy.csv',sep='\t',index_col=0)

data1_X = data1[data1.year != 2017].drop(['uids','firstname','lastname','prohodnoy', 'hodit_para','hodit_tusa',
        'target_1','target_2','target_3','target_4','kurs','zima','leto','akadem'],axis=1)

# Нулями залились только недостающие куски в колонке с целевиками
X_tr = data1_X[data1_X.year != 2016].drop('year',axis=1).fillna(0).get_values( )
X_val = data1_X[data1_X.year == 2016].drop('year',axis=1).fillna(0).get_values( )

y_tr = data1[data1.year < 2016]['target_1'].get_values()
y_val = data1[data1.year == 2016]['target_1'].get_values()


print('Всего:', data1_X.shape)
print('Трэйн:', X_tr.shape, y_tr.shape)
print('Тест:', X_val.shape, y_val.shape)

print('\n Метки:', '\n', y_tr[:10], '\n')
print('Переменные: \n', X_tr)

data1_X.head()

In [None]:
from sklearn.metrics import log_loss, accuracy_score, roc_auc_score, roc_curve, auc

n_tr = y_tr.shape[0]
n_val = y_val.shape[0]

print('Трэйн:')
print('accuracy_0 :', accuracy_score(y_tr, [0]*n_tr))
print('accuracy_1 :', accuracy_score(y_tr, [1]*n_tr))
print('roc-auc:', roc_auc_score(y_tr, np.ones(y_tr.shape)))

print( '\n', 'Тест:')
print('accuracy_0 :', accuracy_score(y_val, [0]*n_val))
print('accuracy_1 :', accuracy_score(y_val, [1]*n_val))
print ('roc-auc:', roc_auc_score(y_val, np.ones(y_val.shape)))

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(X_tr, y_tr)

In [None]:
def printer(y_tr, y_val, model):
    y_hat_tr = model.predict_proba(X_tr)[:,1]
    y_hat_val = model.predict_proba(X_val)[:,1]
    print ('Train logloss', log_loss(y_tr, y_hat_tr ))
    print ('Validation logloss', log_loss(y_val,y_hat_val ), '\n')
    print ('Train accuracy', accuracy_score(y_tr, model.predict(X_tr)))
    print ('Validation accuracy', accuracy_score(y_val, model.predict(X_val)), '\n')
    print ('Train roc-auc', roc_auc_score(y_tr, y_hat_tr))
    print ('Validation roc-auc', roc_auc_score(y_val, y_hat_val))
    
def roc_auc_pic(y_tr,y_val,model):
    y_hat_tr = model.predict_proba(X_tr)[:,1]
    y_hat_val = model.predict_proba(X_val)[:,1]
    
    fpr_train, tpr_train, thresholds_train = roc_curve(y_tr, y_hat_tr)
    fpr_test, tpr_test, thresholds_test = roc_curve(y_val, y_hat_val)
    roc_auc_train = roc_auc_score(y_tr, y_hat_tr)
    roc_auc_test = roc_auc_score(y_val, y_hat_val)


    matplotlib.rcParams['figure.figsize'] = (5, 5)
    plt.plot(fpr_train, tpr_train, label='Train ROC AUC {0}'.format(roc_auc_train))
    plt.plot(fpr_test, tpr_test, label='Test ROC AUC {0}'.format(roc_auc_test))
    plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6))
    plt.xlim([0, 1])
    plt.ylim([0, 1])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Logit', size=16)
    plt.legend(loc='lower right')
    plt.show()
    
printer(y_tr, y_val, lr)
roc_auc_pic(y_tr,y_val, lr)

In [None]:
# Качество модели на кросс-валидации 
from sklearn.cross_validation import cross_val_score
scoring = cross_val_score(lr, X_tr, y_tr, scoring = 'accuracy', cv =5)
print(scoring.mean())
scoring

In [None]:
for a,b in zip(data1_X.columns.get_values(), lr.coef_[0]):
    print(a,b)

In [None]:
from sklearn.grid_search import GridSearchCV

parameters_grid = {
    # 'penalty' : ['l1', 'l2'],
    'C' : np.linspace(0.0000000001, 2, num = 200)
}

gridsearch = GridSearchCV(LogisticRegression(penalty = 'l1'), parameters_grid, scoring = 'log_loss', cv = 3)
gridsearch.fit(X_tr, y_tr)

def plot_scores(optimizer):
    print( optimizer.best_params_)
    scores = [[item[0]['C'], 
               item[1], 
               (np.sum((item[2]-item[1])**2)/(item[2].size-1))**0.5] for item in optimizer.grid_scores_]
    scores = np.array(scores)
    plt.semilogx(scores[:,0], scores[:,1])
    plt.fill_between(scores[:,0], scores[:,1]-scores[:,2], 
                                  scores[:,1]+scores[:,2], alpha=0.3)
    plt.show()

plot_scores(gridsearch)

In [None]:
printer(y_tr, y_val, gridsearch.best_estimator_)

In [None]:
for a,b in zip(data1_X.columns.get_values(), gridsearch.best_estimator_.coef_[0]):
    print(a,b)

## 2. Данные по профилю вк 

In [None]:
data2 = pd.read_csv('prof_data.csv',sep='\t')

data2_X = data2[data2.year != 2017].drop(['uids','uid','firstname','lastname','year','prohodnoy', 
                                        'hodit_para','hodit_tusa',
        'target_1','target_2','target_3','target_4','kurs','zima','leto','akadem'],axis=1)

#data2_X.drop(['EGE','lgota','chelevoe','olimp','dogovor','ochko-zaochka','ege_diff','kozko'],axis=1,inplace=True)

data2_X.drop(['profile_first_name', 'profile_last_name'],axis=1,inplace=True)

data2_X.drop([item for item in list(data2_X.columns) if item[-3:] == 'cat'],axis=1,inplace=True)

print(data2_X.shape)
data2_X.head()

In [None]:
data2_X.columns

In [None]:
# Нулями залились только недостающие куски в колонке с целевиками
X = data2_X.fillna(0).get_values( )

y = data2[data2.year != 2017]['target_1'].get_values()
print('Метки:', '\n', y[:10], '\n')
print('Переменные: \n', X)

X_tr, X_val, y_tr, y_val = train_test_split(X, y, test_size=0.15, random_state=42)
print('\n', 'Размеры трэйна и теста:', X_tr.shape, X_val.shape)

In [None]:
lr = LogisticRegression()
lr.fit(X_tr, y_tr)

printer(y_tr, y_val, lr)
roc_auc_pic(y_tr,y_val, lr)

In [None]:
for a,b in zip(data2_X.columns.get_values(), lr.coef_[0]):
    print(a,b)

In [None]:
gridsearch = GridSearchCV(LogisticRegression(penalty = 'l1'), parameters_grid, scoring = 'log_loss', cv = 3)
gridsearch.fit(X_tr, y_tr)
plot_scores(gridsearch)

In [None]:
printer(y_tr, y_val, gridsearch.best_estimator_)
roc_auc_pic(y_tr,y_val, lr)

In [None]:
for a,b in zip(data2_X.columns.get_values(), gridsearch.best_estimator_.coef_[0]):
    print(a,b)

In [None]:
# Качество модели на кросс-валидации 
from sklearn.cross_validation import cross_val_score
scoring = cross_val_score(lr, X_tr, y_tr, scoring = 'accuracy', cv =5)
print(scoring.mean())
scoring

In [None]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=10,max_features='sqrt')
rf.fit(X_tr, y_tr)

printer(y_tr, y_val, rf)
roc_auc_pic(y_tr,y_val, rf)

In [None]:
scoring = cross_val_score(rf, X_tr, y_tr, scoring = 'accuracy', cv =5)
print(scoring.mean())
scoring

# 3. Только фотки 



In [None]:
df_ph = pd.read_csv('../1.Download_vk_data/vk_photo_data_v18-12-17.csv', sep = '\t', index_col=0)
df_ph.drop(['photo_text'], axis=1, inplace= True )

data3 = pd.read_csv('data_1_easy.csv',sep='\t',index_col=0)

data3_X = data1[data3.year != 2017].drop(['firstname','lastname','year','prohodnoy', 'hodit_para','hodit_tusa',
        'target_1','target_2','target_3','target_4','kurs','zima','leto','akadem'],axis=1)

data3_X = pd.merge(df_ph, data3_X, right_on='uids', left_on='uid',how='right')
data3_X.drop(['uid','uids'],axis=1,inplace=True)

data3_X.drop(['EGE','lgota','chelevoe','olimp','dogovor','ochko-zaochka','ege_diff','kozko'],axis=1,inplace=True)


print(data3_X.shape)

data1_X.head()

In [None]:
# Нулями залились только недостающие куски в колонке с целевиками
X = data3_X.fillna(0).get_values( )

y = data1[data1.year != 2017]['target_1'].get_values()
print('Метки:', '\n', y[:10], '\n')
print('Переменные: \n', X)

X_tr, X_val, y_tr, y_val = train_test_split(X, y, test_size=0.15, random_state=42)
print('\n', 'Размеры трэйна и теста:', X_tr.shape, X_val.shape)

In [None]:
lr = LogisticRegression()
lr.fit(X_tr, y_tr)

printer(y_tr, y_val, lr)
roc_auc_pic(y_tr,y_val, lr)

In [None]:
gridsearch = GridSearchCV(LogisticRegression(penalty = 'l1'), parameters_grid, scoring = 'log_loss', cv = 3)
gridsearch.fit(X_tr, y_tr)
plot_scores(gridsearch)

printer(y_tr, y_val, gridsearch.best_estimator_)
roc_auc_pic(y_tr,y_val, lr)

In [None]:
for a,b in zip(data3_X.columns.get_values(), lr.coef_[0]):
    print(a,b)

<img align="center" src="http://img0.reactor.cc/pics/post/ванга-мемгенератор-59018.jpeg" width="300">
