*Автор: Татьяна Рогович*

# Анализ данных в Python

## Введение в ML. Задача регрессии

Этот блокнот составлен на основе большого блокнота, который доступен по этой [ссылке](https://www.kaggle.com/dansbecker/your-first-machine-learning-model). В нем присутствуют дополнительные комментарии и другие примеры работы алгоритма. Если хотите как следует разобраться с деревьями на базовом уровне - обязательно читайте.

### Загружаем наши данные

Нашим датасетом будет информация о домах, которая включает в себя множество параметров, например, количество и размер этажей дома, год постройки, общая площадь, цена и многое другое (остальные столбцы, можете изучить самостоятельно).

In [1]:
import pandas as pd

#Загружаем данные
home_data = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/house_data.csv')

### Выбор целевой переменной

В нашем случае, все более-менее очевидно. Это цена на дом. Обычно, цель предсказания помечают y.

In [5]:
y = home_data.SalePrice

### Выбор признаков (Features)

Столбцы, которые есть в нашей модели и которые в последствии будут использованы для предсказания, называются признаками (features). В нашем случае, эти колонки будут определять стоимость дома. Иногда используются все колонки, кроме той на которую делается предсказание. А вдругих случаях, лучше выбрать только часть из них. Как определиться? Для этого проводят разведывательный анализ или сравнивают качество работы моделей на разных выборках признаков.

Мы будет использовать не все столбцы, чтобы алгоритм все считал быстрее. Добавим в модель только те столбцы, которые сильнее всего коррелировали с ценой, когда мы исследовали данные.

In [3]:
feature_columns = ['OverallQual', 'GrLivArea', 'GarageArea', 'TotalBsmtSF', 'FullBath', 'YearBuilt', 'YearRemodAdd']

Обычно, такие данные обозначаются X:

In [6]:
X = home_data[feature_columns]

Чтобы обучить модель, нам надо разбить нашу выборку на тестовую и тренировочную.

In [11]:
from sklearn.model_selection import train_test_split
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size=0.3)

Сколько элементов попало в подвыборки?

In [12]:
print(X_tr.shape, X_te.shape)

(1022, 7) (438, 7)


### Строим модель

Мы будем использовать модуль scikit-learn для создания модели. Scikit-learn одна из самых популярных библиотек для моделирования данных, хранящихся в датафреймах. 

Для построения модели нужно выполнить следующие шаги: <br>

**Define**: Какого типа будет модель? Линейная регрессия? Какой-то другой тип?<br>
**Fit**: запускаем модель на тренировочных данных (обучаем ее), чтобы алгоритм нашел в них некие закономерности и зависимости.<br>
**Predict**: Предсказать результат.<br>
**Evaluate**: Определить насколько точным оказалось предсказывание, оценить качество модели<br>


### Обучение линейной модели

Мы готовы к тому, чтобы построить модель машинного обучения. Обучим линейную модель на наших данных. Для этого импортируем LinearRegression из модуля sklearn:

In [13]:
from sklearn.linear_model import LinearRegression

Обучение модели в sklearn всегда состоит из двух шагов - создания модели и вызова функции fit:

In [14]:
model = LinearRegression()
model.fit(X_tr, y_tr)

LinearRegression()

После обучения "внутри" модели появились найденные веса:

In [15]:
model.coef_

array([ 18815.1959795 ,     63.8017906 ,     39.11048129,     39.61911436,
       -14400.93466253,    296.75472154,    338.55837944])

### Предсказания линейной модели

Выполним предсказания на двух выборках, обучающей и тестовой, и сохраним их в переменные preds_tr и preds_te. Для этого воспользуемся функцией predict:

In [16]:
preds_tr = model.predict(X_tr)
preds_te = model.predict(X_te)

Посмотрим на предсказания на первых 10 объектах:

In [17]:
preds_te[:10]

array([258547.81244547, 171649.15541205, 158246.97921184,  63275.3480804 ,
       111886.62128499, 221910.53114721, 164243.54011189,  81183.98234525,
        95463.86185533,  43930.06262375])

А вот целевые значения из выборки:

In [18]:
y_te[:10].values

array([268000, 185000, 143000,  80000, 129900, 226700, 153000, 111000,
        93000,  84000], dtype=int64)

### Оценивание качества

Сравнивать предсказания и правильные ответы вручную удобно только на маленькой выборке данных. Для оценивания качества работы модели лучше измерить метрику качества. Для этого в sklearn есть подмодуль metrics. 

Воспульзуемся метрикой MEA (Mean Absolute Error) - Cредняя Aбсолютная Ошибка. Ее можно представить в таком виде: ошибка = реальная цена − предсказанная цена. Например, если цена дома 150 000, мы предсказали цены в 100 000, то ошибка будет 50 000. Для ошибок в отрицательную сторону берем модуль. Это одна из простейших метрик.

Импортируем функцию mean_absolute_error.

In [19]:
from sklearn.metrics import mean_absolute_error 

Вычисляем ошибку на обучающей выборке:

In [20]:
mean_absolute_error(y_tr, preds_tr)

23317.199872831723

Вычисляем ошибку на тестовой выборке:

In [21]:
mean_absolute_error(y_te, preds_te)

25047.649235655757

### Анализ модели

Посмотрим на веса модели. Запишем их в таблицу со столбцами "название признака" и "вес признака" и отсортируем по значениям весов:

In [26]:
weights_data = {"веса":model.coef_, "признаки": X.columns}
weights = pd.DataFrame(weights_data)
weights.sort_values("веса")

Unnamed: 0,веса,признаки
4,-14400.934663,FullBath
2,39.110481,GarageArea
3,39.619114,TotalBsmtSF
1,63.801791,GrLivArea
5,296.754722,YearBuilt
6,338.558379,YearRemodAdd
0,18815.19598,OverallQual


Логично ли распределились вклады признаков?

### Задания для самостоятельной работы

Перед выполнением заданий обязательно выполните все ячейки выше. Для этого мжно нажать на эту ячейку, далее в меню Cell выбрать Run all above.

При выполнении заданий используйте примеры кода, данные выше, а также [__таблицу с подсказками__](https://github.com/nadiinchi/intro_sklearn/blob/master/Cheatsheet.pdf).

Мы обучили линейную модель на данных недвижимости Бостона. Теперь давайте рассмотрим еще две модели - метод k ближайших соседей (kNN) и нейронную сеть.

#### Задача 1. Обучение kNN

Обучите метод k ближайших соседей на данных. Метод уже импортирован в следующей ячейке.

In [27]:
from sklearn.neighbors import KNeighborsRegressor

In [1]:
# ваш код здесь

#### Задача 2. Предсказания kNN

Выполните предсказания с помощью метода k ближайших соседей на обучающей и тестовой выборках.

In [2]:
# ваш код здесь

#### Задача 3. Качество kNN

Выведите значение ошибки метода k ближайших соседей на обучающей и тестовой выборках.

In [3]:
# ваш код здесь

#### Задача 4. Улучшаем kNN

У метода k ближайших соседей есть важный гиперпараметр - число соседей k. В sklearn он обозначен n_neighbors и задается следующим образом:

In [4]:
# ваш код здесь

Попробуйте использовать n_neighbors, равное 1, 3, 10, 100. Для каждого значения повторите шаги предыдущих трех задач: обучите модель, выполните предсказания, выведите ошибку на обучающей и тестовой выборке. Выберите n_neighbors с наименьшей ошибкой на тестовой выборке. Используйте цикл по четырем значениям n_neighbors.

In [5]:
# ваш код здесь