# Прогнозирование ледового затора

В качестве данных были собраны данные по 3 метеостанциям и 6 гидропостам в районе рек Сухона и Юг. Стоит задача прогнозирования возникновения ледового затора в узле их слияния, где как раз находится Великий Устюг. Данные собраны с 1960 по 2015 год. И уже поделены на обучающую (test.xlsx, 1960-1999гг) и тестовую выборку (train.xlsx, 2000-2015гг)


Целевая переменная **target** - категориальный (бинарный признак) - 1 - затор был, 0 - не было.

Признаки:
+ **days_before_negative_temp_(ustug, nuks, nikol)** - особенности температурного режима в период замерзания (г. Великий Устюг, с. Нюксеница, г. Никольск)
+ **max_ice_hight_(kotlas, ustug)** - максимальная толщина льда (г. Котлас, г. Великий Устюг)
+ **freezing_time_bslob** - продолжительность замерзания (д. Березовая Слободка)
+ **duration_ice_drift_(ustug, totma)** - продолжительность осеннего ледохода (г. Великий Устюг, г. Тотьма)
+ **prepositional_level_(bslob, kalik)** - предледоставный уровень (д. Березовая Слободка, д. Каликино)



### **0. Импорт необходимых пакетов**

In [None]:
import pandas as pd
import numpy as np

# нам понадобится отрисовка графиков

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

### **1. Загрузка данных**

Данные заранее разделены на тренировочную и тестовую выборку, поэтому их надо скачать отдельно с помощью функции  Pandas read_excel 

In [None]:
data_train = pd.read_excel('train.xlsx')
data_test = pd.read_excel('test.xlsx')

In [None]:
data_test

### Задание 1. 
Проверить, есть ли у нас в данных пропуски. 

In [None]:
data_train.# ваш код здесь

In [None]:
data_test.# ваш код здесь

 <span style="color:red">Введите ответ ниже. Если пропуски есть, то напишите признак, у которого больше всего пропусков.</span> 
 
 В дальнейшем, посмотрим, что делать с такими пропусками

Ваш ответ:

**Проверим тренировочную выборку на сбалансированность**

In [None]:
data_train.target.value_counts()

### Посмотрим, на совместное распределеление признаков и на сколько сильно они скоррелированы друг с другом. 

Это будет очень важно в случае задач регрессии, но и просто посмотреть и по возможности попытаться отыскать такие признаки бывает полезно

### Задание 2.

1. Построить график совместных распределений для особенностей температурного режима в период замерзаний для всех трех метеостанций и максимальной толщины льда в Котласе в разбивке по целевой переменной
2. Построить матрицу корреляций этих признаков

In [None]:
# ваш код здесь

<span style="color:red">Какие интересные особенности вы заметили?</span> 
 
<span style="color:red">Какие признаки наиболее скоррелированы?</span> 

Ваш ответ:

### **3. Простейшие модели без настройки параметров**


In [None]:
# подгрузим необходимые пакеты.
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score, precision_score, balanced_accuracy_score

In [None]:
trainY = data_train.target
testY = data_test.target


trainX = data_train.drop(['year', 'target'], axis=1)
testX = data_test.drop(['year', 'target'], axis=1)

In [None]:
# заполним пропуски -1
trainX = trainX.fillna(-1)
testX = testX.fillna(-1)

### Задание 3. 
**a) Обучите на имеющейся выборке  алгоритм ближайших соседей (KNeighborsClassifier) с 1 соседом и получите качество на тесте.**


In [None]:
knn = # Ваш код здесь
knn.fit # Ваш код здесь

In [None]:
knn_predictions = knn.predict # Ваш код здесь
accuracy_score # Ваш код здесь

<span style="color:red">Какая точность у вас получилась?</span> 

Ваш ответ:

**b) Обучите на имеющейся выборке дерево решений (DecisionTreeClassifier) максимальной глубины 2 и получите качество на тесте. Используйте параметр random_state = 42 для воспроизводимости результатов.**

In [None]:
tree = # Ваш код здесь
tree.fit # Ваш код здесь


In [None]:
tree_predictions = # Ваш код здесь
accuracy_score # Ваш код здесь

**Давайте посмотрим, что будет если мы просто в качестве прогноза будем выдавать случайное число или же наиболее часто встречающийся в тренировочной выборке ответ**

In [None]:
from collections import Counter
import random
constant = Counter(trainY).most_common()[0]
pred =  [constant[0] for i in range(len(testY))]
print('Constant model. Accuracy = %.2f' % accuracy_score(testY, pred))


pred = [random.randint(0,1) for i in range(len(testY))]
print('Random model. Accuracy = %.2f' % accuracy_score(testY, pred))


<span style="color:red">Какая точность у вас получилась у решающего дерева? Сравните результаты с константным и случайным пронозом.</span> 

Ваши выводы:

### **4. Модели с настройкой параметров**

### Задание 4.

**Обучите на имеющейся выборке метод ближайших соседей (KNeighborsClassifier). Количество соседей, метрику, веса настройте на кросс-валидации с помощью GridSearchCV. Проведите 4-кратную кросс-валидацию. В качестве метрики качества используйте accuracy. Плюс подберите оптимальный вариант масштабировния данных**

In [None]:
from sklearn.preprocessing import StandardScaler, MaxAbsScaler, MinMaxScaler

In [None]:
# Задаем вектор параметров
grid_params = {
        'n_neighbors': # ваш код здесь
        'weights': # ваш код здесь 
        'metric': # Ваш код здесь
    }

# зададим вектор различных масштабов
scalers = # ваш код здесь


for scaler in scalers:
    sc_X_train = # ваш код здесь
    
    knn = KNeighborsClassifier()
    kf = KFold# ваш код здесь
    grid = GridSearchCV# ваш код здесь
    grid.fit # ваш код здесь
    
    print(scaler, grid.best_params_, grid.best_score_)

<span style="color:red">Какой набор параметров дает наилучший результат на тренировочной выборке?</span> 

**Обучите модель с подобранными параметрами и получите качество на тесте.**

In [None]:
best_knn = KNeighborsClassifier# ваш код здесь
best_knn.fit# ваш код здесь

best_knn_predictions = # ваш код здесь 
accuracy_score# ваш код здесь

### Задание 5. 

**Обучите на имеющейся выборке метод решающих деревьев (DecisionTreeClassifier). Максимальную глубину дерева настройте на кросс-валидации с помощью GridSearchCV. Проведите 4-кратную кросс-валидацию.** 

**Проверьте результат работы модели на тестовых данных.**

В качестве метрики используйте accuracy

In [None]:
# Ваш код здесь

In [None]:
# Код проверки модели здесь

#### Итоги
**Для самой наилучшей модели посмотрите на все остальные метрики. Какие выводы вы можете сделать?**

In [None]:
from sklearn.metrics import recall_score, precision_score

print('Accuracy: %.2f', #ваш код здесь)
print('Recall: %.2f', #ваш код здесь)
print('Precision: %.2f', #ваш код здесь)