In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.svm import SVC
import matplotlib.pyplot as plt

## Решение задачи бинарной классификации

### Логистическая регрессия

y = {-1, 1}

$b(x) = \sigma(<w,x>)$, где $\sigma(z) = \frac{1}{1 + e^{-z}}$

Поработаем с уже известным нам датасетом Titanic. 

In [None]:
data = pd.read_csv('titanic.csv')
data.head()

Почистим его и оставим только интересующие нас колонки. 

In [None]:
# your code here

In [None]:
X = data.drop('Survived', axis=1)
y = data.Survived
X_train, X_test, y_train, y_test = train_test_split(X, y)

Посмотрим, сбалансированная ли у нас выборка:

In [None]:
y.value_counts()

Баланс не очень. Попробуем посмотреть сразу все скоры. 

In [None]:
model = LogisticRegression(solver='liblinear')
model.fit(X_train, y_train)
ypred_train = model.predict(X_train)
ypred_test = model.predict(X_test)
print(classification_report(ypred_train, y_train), classification_report(ypred_test, y_test))

In [None]:
model = SVC(kernel='linear')
model.fit(X_train, y_train)
ypred_train = model.predict(X_train)
ypred_test = model.predict(X_test)
print(classification_report(ypred_train, y_train), classification_report(ypred_test, y_test))

Как видим, мало отличается от работы с регрессией, синтаксис все тот же. Как sklearn понимает вообще, что у нас данные для регрессии или для классификации? А никак, мы можем спокойно применять регрессию к данным, предназначенным для классификации, и наоборот, решаем только мы сами, какой алгоритм куда больше подходит. 

## Pipeline

Поработаем с датасетом про кредиты: нам нужно решить, давать кредит человеку или нет. Попробуем отмасштабировать данные и заодно собрать все в пайплайн, чтобы было удобнее. 

In [None]:
data = pd.read_csv('loan_sanction_train.csv')
data.head()

Поработаем с признаками и дропнем пропуски. 

In [None]:
# your code here

Разделим на трейн и тест. 

In [None]:
X = data.drop('Loan_Status', axis=1)
y = data.Loan_Status
X_train, X_test, y_train, y_test = train_test_split(X, y)

Соберем пайплайн: комбайн, который будет внутри себя сразу гонять и масштабирование, и модель

In [None]:
pipe = Pipeline([('scaler', StandardScaler()), ('model', LogisticRegression())])

Альтернативный вариант:

pipe = make_pipeline(StandardScaler(), LogisticRegression())

В чем между ними разница? Во-первых, второе - упрощенный синтаксис, вы не прописываете вручную ярлычки для своих шагов пайплайна. Во-вторых, получается, эти ярлычки приписываются автоматически (по правилу: название класса строчными буквами, например, у StandardScaler автоматически будет ярлычок standardscaler). Это сакральное знание пригодится, когда будем гридсерчить параметры. 

In [None]:
pipe.fit(X_train, y_train)
ypred_train = pipe.predict(X_train)
ypred_test = pipe.predict(X_test)
print(classification_report(ypred_train, y_train), classification_report(ypred_test, y_test))

### Несбалансированные классы

Давайте порешаем еще одну финансовую задачку: будем предсказывать, возьмет клиент банка кредит или нет. 

In [None]:
data = pd.read_csv('bank-additional-full.csv', sep=';')
data.head()

Для начала просто дропнем все нечисловые характеристики. 

In [None]:
X = data.select_dtypes(include=np.number)
y = data.y

Проверим распределение классов:

In [None]:
y.value_counts()

Обучите обычную логистическую регрессию на этом датасете и выведите classification report.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y) # параметр stratify делает подвыборки с равномерным (по возможности) распределением классов

In [None]:
# your code here

Какие выводы можете сделать на основании метрик?

А теперь давайте применим особую магию с class_weight. 

In [None]:
# my code here