# Задача классификации

Sklearn - библиотека машинного обучения на языке Python. В ней реализовано практически все необходимое для машинного обучения.

+ разделение выборки на тестовую и обучающую
+ основные метрики
+ кроссвалидация
+ линейная регрессия и ее модификация
+ задачи классификации
+ кластеризация
+ различные методы работы с признаками

Познакомимся с частью ее фишек сначала на тренировочном примере, а потом на примере прогнозирования ледового затора

### **0. Импорт необходимых пакетов**

In [None]:
import pandas as pd
import numpy as np

# нам понадобится отрисовка графиков

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

### **1. Загрузка данных**


В качестве тренировочного датасета возьмем различные метеоданные Австралии и будем предсказывать, будет ли завтра дождь).


In [None]:
data = pd.read_csv('weatherAUS.csv', sep = ',')

In [None]:
data.head()

Посмотрим, какие у нас признаки, есть ли пропуски.

In [None]:
data.shape

In [None]:
data.info()

Описание принаков. https://www.kaggle.com/jsphyg/weather-dataset-rattle-package/data

+ **Location** The common name of the location of the weather station
+ **MinTemp** The minimum temperature in degrees celsius
+ **MaxTemp** The maximum temperature in degrees celsius
+ **Rainfall** The amount of rainfall recorded for the day in mm
+ **Evaporation** The so-called Class A pan evaporation (mm) in the 24 hours to 9am
+ **Sunshine** The number of hours of bright sunshine in the day.
+ **WindGustDir** The direction of the strongest wind gust in the 24 hours to midnight
+ **WindGustSpeed** The speed (km/h) of the strongest wind gust in the 24 hours to midnight
+ **WindDir9am** Direction of the wind at 9am
+ **WindDir3pm** Direction of the wind at 3pm
+ **WindSpeed9am** Wind speed (km/hr) averaged over 10 minutes prior to 9am
+ **WindSpeed3pm** Wind speed (km/hr) averaged over 10 minutes prior to 3pm
+ **Humidity9am** Humidity (percent) at 9am
+ **Humidity3pm** Humidity (percent) at 3pm
+ **Pressure9am** Atmospheric pressure (hpa) reduced to mean sea level at 9am
+ **Pressure3pm** Atmospheric pressure (hpa) reduced to mean sea level at 3pm
+ **Cloud9am** Fraction of sky obscured by cloud at 9am. This is measured in "oktas", which are a unit of eigths. It records how many eigths of the sky are obscured by cloud. A 0 measure indicates completely clear sky whilst an 8 indicates that it is completely overcast.
+ **Cloud3pm** Fraction of sky obscured by cloud (in "oktas": eighths) at 3pm. See Cload9am for a description of the values
+ **Temp9am** Temperature (degrees C) at 9am
+ **Temp3pm** Temperature (degrees C) at 3pm
+ **RainToday** Boolean: 1 if precipitation (mm) in the 24 hours to 9am exceeds 1mm, otherwise 0
+ **RISK_MM** The amount of next day rain in mm. Used to create response variable RainTomorrow. A kind of measure of the "risk".
+ **RainTomorrow** The target variable. Did it rain tomorrow?

**Посмотрим, на сбалансированность выборки**

In [None]:
data.RainTomorrow.value_counts()

Видим, что выборка не очень сбалансированна, но это не слишком критично. 

**Что будем делать с пропусками?**

Первое, что мы сделаем - посчитаем, сколько у нас пропусков у каждого из признаков

In [None]:
data.isnull().sum()

**Мы видим, что есть несколько признаков, у которых пропусков порядка половины. Тут ничего не поделаешь - придется удалять их**

Плюс нам не нужны в качестве признаков дата, локация и значение осадков на следующий день (их можно будет успользовать как целевую переменную при предсказании количества осадков на следующий день)

In [None]:
data.drop(labels = ['Date','Location','Evaporation',
                       'Sunshine','Cloud3pm','Cloud9am','RISK_MM'],axis = 1,inplace = True)

In [None]:
data.head()

**Выделим столбец с предсказаниями и таблицу с признаками**

Видим, что прогноз на завтра и за сегодня имеют тип объекта, а нам хотелось бы число. 0 или 1. Перекодируем

In [None]:
data['RainTomorrow'] = data['RainTomorrow'].map({'Yes': 1, 'No': 0}) 
data['RainToday'] = data['RainToday'].map({'Yes': 1, 'No': 0}) 
data.head()

In [None]:
data.isnull().sum()

Остальных пропусков не очень много - безжалостно удаляем наблюдения с ними с помощью функции dropna

In [None]:
data.dropna(inplace = True)

In [None]:
data.info()

**У нас осталось три признака типа оbject. Что будем с ними делать?** 

Заменим каждый признак на несколько признаков с помощью функции get_dummies. Что она делает?

Если признак принимает три значения, она создает три новых признака - флаги каждого из значений

In [None]:
categorical = ['WindGustDir','WindDir9am','WindDir3pm']

data = pd.get_dummies(data,columns = categorical,drop_first=True)

In [None]:
data.head()

In [None]:
data.shape

Теперь создаем таблицу признаков и вектор целевой переменной

In [None]:
y = data['RainTomorrow']
data.drop(['RainTomorrow'], axis=1, inplace=True)

In [None]:
data.info()

### **3. Построим самые первые и простые модели**

Данных очень много, поэтому попробуем работать только с 20% всех данных

Выделим 70% выборки (X_train, y_train) под обучение и 30% будут тестовой выборкой (X_test, y_test) с помощью функции **train_test_split**. Тестовая выборка никак не будет участвовать в настройке параметров моделей, на ней мы в конце, после этой настройки, оценим качество полученной модели. 

Построим решающее дерево и метод 1 ближайшего соседа (параметры пока подбирать не будем), а так же сравним результаты со случайным и негативным классификатором (дождя нет). 

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
?train_test_split

In [None]:
# загрузим функцию разделения на тестовую и обучающую
from sklearn.model_selection import train_test_split

X_learn, X_another, Y_learn, Y_another = train_test_split(data, y, test_size = 0.8, random_state = 42)
X_train, X_test, Y_train, Y_test = train_test_split(X_learn, Y_learn, test_size = 0.3, random_state = 42)

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

tree = DecisionTreeClassifier(max_depth=2, random_state=42)
neigh = KNeighborsClassifier(n_neighbors=1)

#Обучение модели - функция fit

tree.fit(X_train, Y_train)
neigh.fit(X_train, Y_train)

Проверим качество построенных моделей.
В качестве метрик посмотрим на accuracy, precision, recall.

In [None]:
# получить предсказания обученной модели по новому набору данных - функция predict
tree_pred = tree.predict(X_test)
neigh_pred = neigh.predict(X_test)

In [None]:
from sklearn import metrics

In [None]:
from sklearn.metrics import accuracy_score

print('Real accuracy', 1 - Y_test.sum()/len(Y_test))
print('Tree', accuracy_score(Y_test, tree_pred))
print('Neighboors',accuracy_score(Y_test, neigh_pred))

Мы видим, что если мы просто запустим две простые модели, что качество уже будет лучше, чем если бы мы просто сказали, что дождя никогда не будет. Но у нас несбалансированная выбока

In [None]:
from sklearn.metrics import recall_score, precision_score, balanced_accuracy_score

In [None]:
?balanced_accuracy_score

In [None]:
from sklearn.metrics import recall_score, precision_score, balanced_accuracy_score
print('Decision Tree:')
print('Accuracy', accuracy_score(Y_test, tree_pred))
print('Balanced accuracy', balanced_accuracy_score(Y_test, tree_pred))
print('Precision', precision_score(Y_test, tree_pred, pos_label=1))
print('Recall', recall_score(Y_test, tree_pred))
print('1 NN:')
print('Accuracy', accuracy_score(Y_test, neigh_pred))
print('Balanced accuracy', balanced_accuracy_score(Y_test, tree_pred))
print('Precision', precision_score(Y_test, neigh_pred))
print('Recall', recall_score(Y_test, neigh_pred))


### **4. Настроим параметры модели**

### Дерево
Настроим оптимальные параметры для нашего дерева. Будем оптимизировать максимальную глубину дерева и максимальное используемое число признаков при каждом разбиении.
GridSearchCV - обход по сетке параметров. Для каждой уникальной пары значений параметров max_depth и max_features будет проведена 10-кратная кросс-валидация и выберется лучшее сочетание параметров.

В качестве метрики будем использовать balanced accuracy. 

Названия метрик можно посмотреть тут https://scikit-learn.org/stable/modules/model_evaluation.html

In [None]:
?DecisionTreeClassifier

In [None]:
from sklearn.model_selection import cross_val_score, GridSearchCV, KFold

In [None]:
%%time
tree_params = {
    'max_depth': range(1,10),
    'max_features': range(4,20)
}
kf = KFold(random_state = 42, shuffle = True, n_splits = 5)

tree_grid = GridSearchCV(tree, tree_params, cv=kf, n_jobs=-1, scoring='balanced_accuracy')
# смотрим, что у нас будет на нашей решетке на тренировочных данных
tree_grid.fit(X_train, Y_train)

print(tree_grid.best_params_, tree_grid.best_score_)

In [None]:
tree_grid.best_params_

Обучим нашу модель на этих параметрах и посмотрим качество модели на тесте

In [None]:
tree_best = DecisionTreeClassifier(max_depth=4, max_features=10, random_state=42)

tree_best.fit(X_train, Y_train)
tree_best_pred = tree_best.predict(X_test)

print('Decision Tree:')
print('Accuracy', accuracy_score(Y_test, tree_best_pred))
print('Balanced accuracy', balanced_accuracy_score(Y_test, tree_best_pred))
print('Precision', precision_score(Y_test, tree_best_pred, pos_label=1))
print('Recall', recall_score(Y_test, tree_best_pred))


In [None]:
from sklearn.metrics import classification_report

print(classification_report(Y_test,tree_best_pred))

### KNN 

Замечание!

На лекции обсуждалось, что метрические классификаторы очень чувствительны к масштабу признаков. Попробуем сначала признаки отмасштабировать

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
?MinMaxScaler

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

sc_X_train = scaler.fit_transform(X_train)
sc_X_test = scaler.transform(X_test)


In [None]:
neigh_sc = KNeighborsClassifier(n_neighbors=1)

neigh_sc.fit(sc_X_train, Y_train)
neigh_pred = neigh_sc.predict(sc_X_test)



In [None]:
print('1 NN:')
print('Accuracy', accuracy_score(Y_test, neigh_pred))
print('Balanced accuracy', balanced_accuracy_score(Y_test, neigh_pred))
print('Precision', precision_score(Y_test, neigh_pred))
print('Recall', recall_score(Y_test, neigh_pred))
print(classification_report(Y_test,tree_best_pred))

Запускать подбор параметров по всем признакам - смертельный номер. Компьютер просто умрет.

Поэтому выберем 10 самых наилучших признаков

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2, f_classif

In [None]:
?f_classif

In [None]:
best_f = SelectKBest(f_classif, k=10)
X_train_new = best_f.fit_transform(X_train, Y_train)
X_test_new = best_f.transform(X_test)

### Подберем для каждого масштабирования оптимальные параметры. Выберем наилучший вариант. Обучим модель и проверим ее качество на тренировочной выборке

количество соседей от 1 до 15, веса - равномерные и расстояние, метрика - евклидова и минковского

In [None]:
%%time
from sklearn.preprocessing import StandardScaler, MaxAbsScaler, MinMaxScaler

scalers = [StandardScaler(), MaxAbsScaler(), MinMaxScaler()]

for scaler in scalers:
    #print(str(scaler))
    sc_X_train = scaler.fit_transform(X_train_new)
    
    grid_params = {
        'n_neighbors':  np.arange(1, 16, 2),
        'weights': ['uniform', 'distance'],
        'metric': ['minkowski', 'manhattan']
    }
    
    KNN = KNeighborsClassifier()
    kf = KFold(random_state = 42, shuffle = True, n_splits = 5)
    grid = GridSearchCV(KNN, grid_params, cv = kf, scoring = 'balanced_accuracy')
    grid.fit(sc_X_train, Y_train)
    
    print(scaler, grid.best_params_, grid.best_score_)

In [None]:
scaler = MinMaxScaler()

sc_X_train = scaler.fit_transform(X_train_new)
sc_X_test = scaler.transform(X_test_new)

KNN_best = KNeighborsClassifier(metric = 'minkowski', n_neighbors = 11, weights = 'uniform')

KNN_best.fit(sc_X_train, Y_train)
KNN_best_pred = KNN_best.predict(sc_X_test)



In [None]:
print('Best KNN:')
print('Accuracy', accuracy_score(Y_test, KNN_best_pred))
print('Balanced accuracy', balanced_accuracy_score(Y_test, KNN_best_pred))
print('Precision', precision_score(Y_test, KNN_best_pred, pos_label=1))
print('Recall', recall_score(Y_test, KNN_best_pred))
print(classification_report(Y_test,tree_best_pred))

In [None]:
Accuracy 0.7590023612750886
Balanced accuracy 0.6261425801492546
Precision 0.4323507180650038
Recall 0.3933975240715268