# Мастер-класс по машинному обучению на Python


Загрузим данные об ирисах.

In [540]:
from sklearn.datasets import load_iris

Присвоим данные переменным.

In [541]:
X_iris = load_iris()['data'] # измерения ирисов
Y_iris = load_iris()['target'] # ответы

Вот так, например, выглядит первый элемент. Первые 4 числа - измерения, последнее - ответ. Виды ирисов обозначены через цифры.

In [542]:
X_iris[0], Y_iris[0]

(array([ 5.1,  3.5,  1.4,  0.2]), 0)

Импортируем функцию, которая разделяет выборку на тренировочную и тестовую.

In [543]:
from sklearn.cross_validation import train_test_split

Разделим нашу выборку.

In [544]:
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X_iris, Y_iris, test_size=0.3)

## K ближайших соседей
Импортируем алгоритм.

In [545]:
from sklearn.neighbors import KNeighborsClassifier

Создаём модель.
Здесь можно поиграться с количеством соседей =)

In [546]:
model = KNeighborsClassifier(n_neighbors=5)

Обучаем модель

In [547]:
model.fit(Xtrain, Ytrain)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

Импортируем функцию, которая считает, какую часть ответов мы предсказали правильно.

In [548]:
from sklearn.metrics import accuracy_score

Проверяем.

In [549]:
accuracy_score(model.predict(Xtest), Ytest)

0.97777777777777775

## Дерево решений

Импортируем библиотеку для более удобной работы с датасетами.

In [550]:
import pandas

Загружаем данные о пассажирах Титаника.

In [551]:
titanic_data = pandas.read_csv('titanic.csv')

Вот так выглядят первые 5 объектов нашего датасета:

In [552]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


С нечисловыми данными мы пока работать не умеем, поэтому давайте просто удалим их.

In [553]:
columns_for_del = titanic_data.columns[titanic_data.dtypes == 'object'] # названия колонок с нечисловыми фичами
for column in columns_for_del:
    del titanic_data[column]

Теперь датасет выглядит так:

In [554]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.25
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.925
3,4,1,1,35.0,1,0,53.1
4,5,0,3,35.0,0,0,8.05


Сохраним колонку с ответами.

In [555]:
Y = titanic_data['Survived']

Удалим её из основных данных.

In [556]:
del titanic_data['Survived']

ID пассажира тоже можно удалить, так как эта информация ни на что не влияет.

In [557]:
del titanic_data['PassengerId']

Разделяем выборку на тренировочную и тестовую.

In [558]:
Xtrain, Xtest, Ytrain, Ytest = train_test_split(titanic_data, Y, test_size=0.2)

Импортируем алгоритм дерева решений.

In [559]:
from sklearn.tree import DecisionTreeClassifier

Создаем модель. Здесь можно поиграть с максимальной глубиной =)

In [560]:
model = DecisionTreeClassifier(max_depth=7)

Обучаем модель.

In [561]:
model.fit(Xtrain, Ytrain)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=7,
            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

Выводим результат.

In [562]:
accuracy_score(model.predict(Xtest), Ytest)

0.73184357541899436

## Линейная регрессия
Импортируем датасет

In [563]:
house_prices = pandas.read_csv('house_prices.csv')

Так выглядит наш датасет:

In [564]:
house_prices.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


Удалим нечисловые фичи.

In [565]:
columns_for_del = house_prices.columns[house_prices.dtypes == 'object'] # названия колонок с нечисловыми фичами
for column in columns_for_del:
    del house_prices[column]

Так выглядит наш датасет теперь:

In [566]:
house_prices.head()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
0,1,60,65.0,8450,7,5,2003,2003,196.0,706,...,0,61,0,0,0,0,0,2,2008,208500
1,2,20,80.0,9600,6,8,1976,1976,0.0,978,...,298,0,0,0,0,0,0,5,2007,181500
2,3,60,68.0,11250,7,5,2001,2002,162.0,486,...,0,42,0,0,0,0,0,9,2008,223500
3,4,70,60.0,9550,7,5,1915,1970,0.0,216,...,0,35,272,0,0,0,0,2,2006,140000
4,5,60,84.0,14260,8,5,2000,2000,350.0,655,...,192,84,0,0,0,0,0,12,2008,250000


Сохраним цены на дома.

In [567]:
Y = house_prices['SalePrice']

Удалим их из основного датасета.

In [568]:
del house_prices['SalePrice']

ID домов, опять же, можно удалить.

In [569]:
del house_prices['Id']

Разделяем выборку на тренировочную и тестовую

In [578]:
Xtrain, Xtest, Ytrain, Ytest = train_test_split(house_prices, Y, test_size=0.2)

Импортируем алгоритм.

In [579]:
from sklearn.linear_model import LinearRegression

Создаем модель.

In [580]:
model = LinearRegression()

Обучаем модель.

In [581]:
model.fit(Xtrain, Ytrain)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

Импортируем функцию, которая подсчитывает среднюю ошибку по модулю.

In [582]:
from sklearn.metrics import mean_absolute_error

Считаем ошибку:

In [583]:
mean_absolute_error(model.predict(Xtest), Ytest)

21426.74374729153

Ошибка кажется довольно большой, но не стоит забывать то, что это реальные данные и здесь бывают "выбросы", то есть исключения из общих правил.

Посмотрим, какие коэффициенты для каждой фичи подобрала наша модель:

In [576]:
model.coef_

array([ -1.92941520e+02,  -1.01742017e+02,   4.37911394e-01,
         1.69381745e+04,   4.52359749e+03,   2.43219806e+02,
         1.28116691e+02,   2.95031723e+01,   9.72058860e+00,
         5.55452485e-01,   4.52335911e-01,   1.07283770e+01,
         1.50278711e+01,   1.83359162e+01,  -4.73342225e-01,
         3.28904451e+01,   1.05706741e+04,   2.76639448e+03,
         5.35974114e+03,  -2.09820371e+03,  -9.09411657e+03,
        -1.32933747e+04,   3.78539195e+03,   4.02708129e+03,
         1.42368164e+02,   1.51150654e+04,  -1.52413609e+01,
         2.63902622e+01,  -1.74288744e+01,   5.15662271e+00,
         2.44694495e+01,   5.08726038e+01,  -1.02997096e+01,
        -2.79825210e-01,   4.86582623e+01,  -9.92874195e+02])