## Загрузка необходимых библиотек

Для работы нам понадобятся две библиотеки:
1. `pandas`: при помощи нее мы считаем из файла таблицу с данными
2. `sklearn`: библиотека для машинного обучения, из нее нам понадобится модуль `tree` для работы с решающими деревьями

In [16]:
import pandas
from sklearn import tree

## Чтение данных из CSV файла
тут для эксперемента меняем файл загрузки
1. 2017.xlsx
2. 2018.xlsx
3. 03-05_2017.xlsx
4. 2010-2017.xlsx `с этими данными пока не работает`
5. 2011-2017.xlsx
6. 2012-2017.xlsx
7. 2013-2017.xlsx
8. 2014-2017.xlsx `тут уже работает`
8. 2014-2018.xlsx

In [17]:
table = pandas.read_excel('2014-2017.xlsx')
table2017 = pandas.read_excel('2017.xlsx')
table_sp = pandas.read_excel('03-05_2017.xlsx')

## Формируем обучающую выборку

Алгоритмы машинного обучения получают на вход выборку, которая представлена матрицей `X` (ее строчки соответствуют примерам, столбцы — признакам) и вектором `y` из правильных овтетов.

In [18]:
X = table.loc[:, ['temperature', 'pressure', 'humidity']]
y = table['rainfall']

In [19]:
X2017 = table2017.loc[:, ['temperature', 'pressure', 'humidity']]
y2017 = table2017['rainfall']

In [20]:
X_sp = table_sp.loc[:, ['temperature', 'pressure', 'humidity']]
y_sp = table_sp['rainfall']

## Обучение классификатора

Для этого необходимо создать объект классификатора, в нашем случае — `DecisionTreeClassifier`. Указать при создании все необходимые параметры. Вызвать метод `fit` (что в переводе с английского — обучить, подстроить), передав ему обучающую выборку.

In [22]:
classifier = tree.DecisionTreeClassifier()
classifier.fit(X, y)

classifier2017 = tree.DecisionTreeClassifier()
classifier2017.fit(X2017, y2017)

classifier_sp = tree.DecisionTreeClassifier()
classifier_sp.fit(X_sp, y_sp)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

## Построение предсказания по новым данным

После того как классификатор обучен, можно использовать его метод `predict(X)`, который принимает на вход матрицу с признаковыми описаниями новых примеров.

In [23]:
prediction = classifier.predict([[-10, 744, 70]])
print(prediction)

['clear']


In [24]:
prediction2017 = classifier2017.predict([[-10, 744, 70]])
print(prediction2017)

['snow']


In [25]:
prediction_sp = classifier_sp.predict([[-10, 744, 70]])
print(prediction_sp)

['clear']


### Алгоритм выдаёт нам предсказания. Но какой процент ошибки в них? Это мы можем выяснить с помощью метода k ближайших соседей(kNN)

In [26]:
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X, y)

knn2017 = KNeighborsClassifier(n_neighbors=3)
knn2017.fit(X2017, y2017)

knn_sp = KNeighborsClassifier(n_neighbors=3)
knn_sp.fit(X_sp, y_sp)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

#### После того, как модель обучена, мы можем предсказывать значение целевого признака по входным признакам для новых объектов. Делается это с помощью метода predict.

In [27]:
table1 = pandas.read_excel('2018.xlsx')
table1[:2]

Unnamed: 0,date,temperature,pressure,humidity,wind,cloud,rainfall
0,30.12.2018 13:00,-20.5,747.1,74,"Ветер, дующий с юго-юго-востока",Облаков нет.,clear
1,29.12.2018 13:00,-23.5,752.8,74,"Ветер, дующий с юго-юго-востока",Облаков нет.,smoke


In [12]:
X1 = table1.loc[:, ['temperature', 'pressure', 'humidity']]
y_predict = knn.predict(X1)
err = np.mean(y[:356] != y_predict) #метод mean библиотеки numpy определяет среднее арифметическое по заданному вектору
print(err)

0.2443820224719101


In [13]:
y_predict2017 = knn2017.predict(X1)
err2017 = np.mean(y2017 != y_predict2017[:235]) 
print(err2017)

0.14893617021276595


In [14]:
y_predict_sp = knn_sp.predict(X1)
err_sp = np.mean(y_sp != y_predict_sp[:46]) 
print(err_sp)

0.0
