# Метрики precision и recall

Данные содержат признаки пользователей и целевую переменную affair - была ли связь на стороне

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv( 'affair_data.csv' )
data.head()

In [None]:
data.info()

In [None]:
from sklearn.linear_model import LogisticRegression

# импортируем метод для автоматической разбивки на обучающую и тестовую выборки
# раньше использовали from sklearn.cross_validation import train_test_split  
from sklearn.model_selection import train_test_split

Формируем набор признаков и целевую переменную

Разбиваем данные на обучающую и тестовую выборки в соотношении 70 / 30

Обучаем модель

Получаем прогнозные значения модели (переменная predictions)

In [None]:
for line in zip( predictions[:, 1], Y_test ):
    print( line )

In [None]:
model.score(X_test, Y_test)

### Упражнение

Постройте набор моделей для значений random_state от 0 до 9. Получите model.score для каждого варианта.

### Оценка качества модели

Считаем accuracy последней модели

In [None]:
tp = 0 # True positive
fp = 0 # False positive
fn = 0 # False negative
tn = 0 # True negative

predictions = model.predict_proba( X_test )
for predicted_prob, actual in zip( predictions[:, 1], Y_test ):
    # считаем значения матрицы ошибок

In [None]:
# какая точность получилась?
(tp + tn) / (tp + fp + fn + tn)

In [None]:
precision = tp / (tp + fp)
precision

### Используем готовые библиотеки

In [None]:
# метод для построения графика precision-recall
from sklearn.metrics import precision_recall_curve

In [None]:
pr, re, thres = precision_recall_curve( Y_test, predictions[:, 1] )

In [None]:
# посмотрим что получилось
for line in zip( pr, re, thres ):
    print( line )

In [None]:
%pylab inline

In [None]:
plt.plot( re, pr )

In [None]:
from sklearn.metrics import average_precision_score

In [None]:
# площадь под кривой
average_precision_score( Y_test, predictions[:, 1] )

### ROC

In [None]:
# посчитаем ROC-кривую (Receiver Operating Characteristic)
from sklearn.metrics import roc_curve

In [None]:
# получаем значения false и true positive rate для различных значений порога
fpr, tpr, thres = roc_curve( Y_test, predictions[:, 1] )

In [None]:
for line in zip( fpr, tpr, thres ):
    print( line )

In [None]:
plt.plot( fpr, tpr )

**Построим еще одну модель и сравним их между собой**

In [None]:
Xshort = X.loc[ :, ['age', 'children'] ]
Xshort.head()

In [None]:
model2 = LogisticRegression()

In [None]:
X_train_short, X_test_short, Y_train, Y_test = train_test_split( Xshort, Y, test_size = 0.3, random_state = 0 )

In [None]:
model2.fit( X_train_short, Y_train )

In [None]:
predictions2 = model2.predict_proba( X_test_short )

In [None]:
fpr2, tpr2, thres2 = roc_curve( Y_test, predictions2[:, 1] )

In [None]:
plt.plot( fpr, tpr, label = 'All columns' )
plt.plot( fpr2, tpr2, label = 'Age & children' )

plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

plt.legend( loc = 0 )
plt.show()

**Посчитаем площадь под ROC-кривой для двух моделей**

In [None]:
from sklearn.metrics import roc_auc_score

In [None]:
roc_auc_score( Y_test, predictions[:, 1] )

In [None]:
roc_auc_score( Y_test, predictions2[:, 1] )

Можно посчитать с помощью более общего метода auc

Про разницу между ними https://stackoverflow.com/questions/31159157/different-result-with-roc-auc-score-and-auc

In [None]:
from sklearn.metrics import auc

In [None]:
auc( fpr, tpr )

In [None]:
auc( fpr2, tpr2 )

## Пример влияния L1 и L2-регуляризации

In [None]:
model1 = LogisticRegression( penalty = 'l1', C = 0.01 ).fit( X_train, Y_train )
predictions = model1.predict_proba( X_test )

In [None]:
model2 = LogisticRegression( penalty = 'l2', C = 0.01 ).fit( X_train, Y_train )
predictions2 = model2.predict_proba( X_test )

In [None]:
model3 = LogisticRegression( penalty = 'l1', C = 0.001 ).fit( X_train, Y_train )
predictions3 = model3.predict_proba( X_test )

In [None]:
fpr, tpr, thres = roc_curve( Y_test, predictions[:, 1] )
fpr2, tpr2, thres2 = roc_curve( Y_test, predictions2[:, 1] )
fpr3, tpr3, thres3 = roc_curve( Y_test, predictions3[:, 1] )

In [None]:
plt.plot( fpr, tpr, label = 'l1' )
plt.plot( fpr2, tpr2, label = 'l2' )
plt.plot( fpr3, tpr3, label = 'C=1' )

plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

plt.legend( loc = 0 )
plt.show()

**Построим еще одну модель, используя другие признаки**

In [None]:
Xshort = pd.get_dummies( data.loc[ :, ['age', 'children'] ], columns = ['age', 'children'] )
Xshort.head()

In [None]:
Y = data['affair']

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split( Xshort, Y, test_size = 0.3, random_state = 0 )

In [None]:
model1 = LogisticRegression( penalty = 'l1', C = 0.01 ).fit( X_train, Y_train )
model2 = LogisticRegression( penalty = 'l2', C = 0.01 ).fit( X_train, Y_train )
model3 = LogisticRegression( penalty = 'l2', C = 1 ).fit( X_train, Y_train )

In [None]:
predictions = model1.predict_proba( X_test )
predictions2 = model2.predict_proba( X_test )
predictions3 = model3.predict_proba( X_test )

In [None]:
fpr, tpr, thres = roc_curve( Y_test, predictions[:, 1] )
fpr2, tpr2, thres2 = roc_curve( Y_test, predictions2[:, 1] )
fpr3, tpr3, thres3 = roc_curve( Y_test, predictions3[:, 1] )

In [None]:
plt.plot( fpr, tpr, label = 'l1' )
plt.plot( fpr2, tpr2, label = 'l2' )
plt.plot( fpr3, tpr3, label = 'C=1' )

plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

plt.legend( loc = 0 )
plt.show()