## Загрузка необходимых библиотек

Для работы нам понадобятся две библиотеки:
1. `pandas`: при помощи нее мы считаем из файла таблицу с данными
2. `sklearn`: библиотека для машинного обучения, из нее нам понадобится модуль `tree` для работы с решающими деревьями

In [93]:
import pandas
from sklearn import tree

## Чтение данных из CSV файла
тут для эксперемента меняем файл загрузки
1. 2017.xlsx
2. 2018.xlsx
3. 03-05_2017.xlsx
4. 2010-2017.xlsx с этими данными пока не работает
5. 2011-2017.xlsx
6. 2012-2017.xlsx
7. 2013-2017.xlsx
8. 2014-2017.xlsx тут уже работает
8. 2014-2018.xlsx

In [16]:
table = pandas.read_excel('2014-2017.xlsx')
table[:2]

Unnamed: 0,date,temperature,pressure,humidity,wind,cloud,rainfall
0,31.12.2017 13:00,-17.5,757.3,81,"Ветер, дующий с запада",Облаков нет.,clear
1,30.12.2017 13:00,-8.0,745.6,88,"Ветер, дующий с запада",100%.,snow


## Формируем обучающую выборку

Алгоритмы машинного обучения получают на вход выборку, которая представлена матрицей `X` (ее строчки соответствуют примерам, столбцы — признакам) и вектором `y` из правильных овтетов.

In [17]:
X = table.loc[:, ['temperature', 'pressure', 'humidity']]
y = table['rainfall']

## Обучение классификатора

Для этого необходимо создать объект классификатора, в нашем случае — `DecisionTreeClassifier`. Указать при создании все необходимые параметры. Вызвать метод `fit` (что в переводе с английского — обучить, подстроить), передав ему обучающую выборку.

In [18]:
classifier = tree.DecisionTreeClassifier(max_depth=5)
classifier.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

## Построение предсказания по новым данным

После того как классификатор обучен, можно использовать его метод `predict(X)`, который принимает на вход матрицу с признаковыми описаниями новых примеров.

In [19]:
prediction = classifier.predict([[-10, 730, 89]])
print(prediction)

['snow']


### Алгоритм выдаёт нам предсказания. Но какой процент ошибки в них? Это мы можем выяснить с помощью метода k ближайших соседей(kNN)

In [20]:
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

#### После того, как модель обучена, мы можем предсказывать значение целевого признака по входным признакам для новых объектов. Делается это с помощью метода predict.

In [15]:
y_predict = knn.predict(X)
err = np.mean(y != y_predict) #метод mean библиотеки numpy определяет среднее арифметическое по заданному вектору
print(err)

0.09758897818599312
