In [1]:
%matplotlib inline
from matplotlib import pyplot as plt

plt.rcParams['figure.figsize'] = (10, 8)
import collections

import numpy as np
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, export_graphviz

## Создадим набор данных

In [2]:
def create_df(dic, feature_list):
    out = pd.DataFrame(dic)
    out = pd.concat([out, pd.get_dummies(out[feature_list])], axis = 1)
    out.drop(feature_list, axis = 1, inplace = True)
    return out

def intersect_features(train, test):
    common_feat = list( set(train.keys()) & set(test.keys()))
    return train[common_feat], test[common_feat]

In [3]:
features = ['Внешность', 'Алкоголь_в_напитке',
            'Уровень_красноречия', 'Потраченные_деньги']

### Обучающая выборка

In [4]:
df_train = {}
df_train['Внешность'] = ['приятная', 'приятная', 'приятная', 'отталкивающая',
                         'отталкивающая', 'отталкивающая', 'приятная'] 
df_train['Алкоголь_в_напитке'] = ['да', 'да', 'нет', 'нет', 'да', 'да', 'да']
df_train['Уровень_красноречия'] = ['высокий', 'низкий', 'средний', 'средний', 'низкий',
                                   'высокий', 'средний']
df_train['Потраченные_деньги'] = ['много', 'мало', 'много', 'мало', 'много',
                                  'много', 'много']
df_train['Поедет'] = LabelEncoder().fit_transform(['+', '-', '+', '-', '-', '+', '+'])

df_train = create_df(df_train, features)
df_train

Unnamed: 0,Поедет,Внешность_отталкивающая,Внешность_приятная,Алкоголь_в_напитке_да,Алкоголь_в_напитке_нет,Уровень_красноречия_высокий,Уровень_красноречия_низкий,Уровень_красноречия_средний,Потраченные_деньги_мало,Потраченные_деньги_много
0,0,0,1,1,0,1,0,0,0,1
1,1,0,1,1,0,0,1,0,1,0
2,0,0,1,0,1,0,0,1,0,1
3,1,1,0,0,1,0,0,1,1,0
4,1,1,0,1,0,0,1,0,0,1
5,0,1,0,1,0,1,0,0,0,1
6,0,0,1,1,0,0,0,1,0,1


### Тестовая выборка

In [5]:
df_test = {}
df_test['Внешность'] = ['приятная', 'приятная', 'отталкивающая'] 
df_test['Алкоголь_в_напитке'] = ['нет', 'да', 'да']
df_test['Уровень_красноречия'] = ['средний', 'высокий', 'средний']
df_test['Потраченные_деньги'] = ['много', 'мало', 'много']
df_test = create_df(df_test, features)
df_test

Unnamed: 0,Внешность_отталкивающая,Внешность_приятная,Алкоголь_в_напитке_да,Алкоголь_в_напитке_нет,Уровень_красноречия_высокий,Уровень_красноречия_средний,Потраченные_деньги_мало,Потраченные_деньги_много
0,0,1,0,1,0,1,0,1
1,0,1,1,0,1,0,1,0
2,1,0,1,0,0,1,0,1


In [6]:
# Некоторые значения признаков есть в тесте, но нет в трейне и наоборот
y = df_train['Поедет']
df_train, df_test = intersect_features(train=df_train, test=df_test)
df_train

Unnamed: 0,Потраченные_деньги_много,Уровень_красноречия_средний,Уровень_красноречия_высокий,Внешность_отталкивающая,Потраченные_деньги_мало,Алкоголь_в_напитке_да,Алкоголь_в_напитке_нет,Внешность_приятная
0,1,0,1,0,0,1,0,1
1,0,0,0,0,1,1,0,1
2,1,1,0,0,0,0,1,1
3,0,1,0,1,1,0,1,0
4,1,0,0,1,0,1,0,0
5,1,0,1,1,0,1,0,0
6,1,1,0,0,0,1,0,1


In [7]:
df_test

Unnamed: 0,Потраченные_деньги_много,Уровень_красноречия_средний,Уровень_красноречия_высокий,Внешность_отталкивающая,Потраченные_деньги_мало,Алкоголь_в_напитке_да,Алкоголь_в_напитке_нет,Внешность_приятная
0,1,1,0,0,0,0,1,1
1,0,0,1,0,1,1,0,1
2,1,1,0,1,0,1,0,0


In [8]:
y

0    0
1    1
2    0
3    1
4    1
5    0
6    0
Name: Поедет, dtype: int64

### Постройте от руки (или в графическом редакторе) дерево решений для этого набора данных. Дополнительно (для желающих) – можете сделать отрисовку дерева и написать код для построения всего дерева.

### Вопрос 1. Какова энтропия начальной системы (S0)? Под состояниями системы понимаем значения признака "Поедет" – 0 или 1 (то есть всего 2 состояния).

![alt text](img/formula.png "Formula")

#### В обучающей выборке всего 7 вариантов, 4 - поедет, 3 - не поедет. Значит вероятность того, что девушка поедет = 4/7, что не поедет = 3/7.

In [9]:
from math import log2

s = -((4/7) * log2(4/7)) -((3/7) * log2(3/7))
s

0.9852281360342515

### Вопрос 2. Рассмотрим разбиение обучающей выборки по признаку "Внешность_приятная". Какова энтропия S1 левой группы, тех, у кого внешность приятная, и правой группы – S2? Каков прирост информации при данном разбиении (IG)?

#### В левой группе всего 4 человека, и 3 из девушек поехали. Значит вероятность поездки = 3/4, того что не поедет = 1/4.

In [10]:
s1 = -((3/4) * log2(3/4)) - ((1/4) * log2(1/4))
s1

0.8112781244591328

#### В правой группе 3 человека, из которых уехал с девушкой 1, без девушки - 2.

In [11]:
s2 = -((1/3) * log2(1/3)) - ((2/3) * log2(2/3))
s2

0.9182958340544896

#### Прирост информации. Формула:

![alt text](img/IG.png "Formula1")

In [12]:
ig = s - ((4/7) * s1) - ((3/7) * s2)
ig

0.12808527889139443

### Постройте с помощью `sklearn` дерево решений, обучив его на обучающей выборке. Глубину можно не ограничивать.

In [13]:
df_train.shape, df_test.shape

((7, 8), (3, 8))

In [14]:
classifier = DecisionTreeClassifier(criterion='entropy', random_state=17)
classifier.fit(df_train, y)
y_pred = classifier.predict(df_test)
y_pred

array([0, 1, 1])

### Дополнительно: отобразите дерево с помощью `graphviz`. Можно использовать pydot или, например, онлайн-сервис dot2png.

In [66]:
export_graphviz(classifier, feature_names=df_test.columns, out_file='img/tree.dot', filled=True)

!dot -Tpng 'img/tree.dot' -o 'img/tree.png'

![alt text](img/tree.png "Tree")

## Часть 2. Функции для расчета энтропии и прироста информации

In [16]:
balls = [1 for i in range(9)] + [0 for i in range(11)]

In [17]:
# две группы
balls_left  = [1 for i in range(8)] + [0 for i in range(5)] # 8 синих и 5 желтых
balls_right = [1 for i in range(1)] + [0 for i in range(6)] # 1 синий и 6 желтых
balls_left

[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

In [18]:
def entropy(a_list):
    values, counts = np.unique(a_list, return_counts=True)
    entr = 0
    
    for count in counts:
        entr -= (count/len(a_list)) * log2(count/len(a_list))
        
    return entr

In [19]:
print(entropy(balls)) # 9 синих и 11 желтых
print(entropy(balls_left)) # 8 синих и 5 желтых
print(entropy(balls_right)) # 1 синий и 6 желтых
print(entropy([1,2,3,4,5,6])) # энтропия игральной кости с несмещенным центром тяжести

0.9927744539878083
0.9612366047228759
0.5916727785823275
2.584962500721156


In [20]:
# расчет прироста информации

def information_gain(root, left, right):
    ''' root - изначальный набор данных, left и right два разбиения изначального набора'''
    ig = entropy(root)
    return ig - ((len(left)/len(root)) * entropy(left)) - ((len(right)/len(root)) * entropy(right))

In [21]:
information_gain(balls, balls_left, balls_right)

0.16088518841412436

In [23]:
def best_feature_to_split(X, y):
    ''' Выводит прирост информации при разбиении по каждому признаку'''
    return entropy(X) - len(y)/len(X)* entropy(y)

In [24]:
best_feature_to_split(balls, balls_right)

0.7856889814839937

## Часть 3. Набор данных "Adult"

### Считываем обучающую и тестовую выборки.

In [25]:
data_train = pd.read_csv('data/adult_train.csv', sep=';')

In [26]:
data_train.tail()

Unnamed: 0,Age,Workclass,fnlwgt,Education,Education_Num,Martial_Status,Occupation,Relationship,Race,Sex,Capital_Gain,Capital_Loss,Hours_per_week,Country,Target
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K


In [27]:
data_test = pd.read_csv('data/adult_test.csv', sep=';')

In [28]:
data_test.tail()

Unnamed: 0,Age,Workclass,fnlwgt,Education,Education_Num,Martial_Status,Occupation,Relationship,Race,Sex,Capital_Gain,Capital_Loss,Hours_per_week,Country,Target
16277,39,Private,215419.0,Bachelors,13.0,Divorced,Prof-specialty,Not-in-family,White,Female,0.0,0.0,36.0,United-States,<=50K.
16278,64,,321403.0,HS-grad,9.0,Widowed,,Other-relative,Black,Male,0.0,0.0,40.0,United-States,<=50K.
16279,38,Private,374983.0,Bachelors,13.0,Married-civ-spouse,Prof-specialty,Husband,White,Male,0.0,0.0,50.0,United-States,<=50K.
16280,44,Private,83891.0,Bachelors,13.0,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,5455.0,0.0,40.0,United-States,<=50K.
16281,35,Self-emp-inc,182148.0,Bachelors,13.0,Married-civ-spouse,Exec-managerial,Husband,White,Male,0.0,0.0,60.0,United-States,>50K.


In [29]:
# необходимо убрать строки с неправильными метками в тестовой выборке
data_test = data_test[(data_test['Target'] == ' >50K.') | (data_test['Target'] ==' <=50K.')]

# перекодируем target в числовое поле
data_train['Target'].replace({' <=50K': 0, ' >50K': 1}, inplace=True)
data_test['Target'].replace({' <=50K.': 0, ' >50K.': 1}, inplace=True)

In [30]:
data_train.tail()

Unnamed: 0,Age,Workclass,fnlwgt,Education,Education_Num,Martial_Status,Occupation,Relationship,Race,Sex,Capital_Gain,Capital_Loss,Hours_per_week,Country,Target
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,0
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,1
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,0
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,0
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,1


In [31]:
data_test.tail()

Unnamed: 0,Age,Workclass,fnlwgt,Education,Education_Num,Martial_Status,Occupation,Relationship,Race,Sex,Capital_Gain,Capital_Loss,Hours_per_week,Country,Target
16277,39,Private,215419.0,Bachelors,13.0,Divorced,Prof-specialty,Not-in-family,White,Female,0.0,0.0,36.0,United-States,0
16278,64,,321403.0,HS-grad,9.0,Widowed,,Other-relative,Black,Male,0.0,0.0,40.0,United-States,0
16279,38,Private,374983.0,Bachelors,13.0,Married-civ-spouse,Prof-specialty,Husband,White,Male,0.0,0.0,50.0,United-States,0
16280,44,Private,83891.0,Bachelors,13.0,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,5455.0,0.0,40.0,United-States,0
16281,35,Self-emp-inc,182148.0,Bachelors,13.0,Married-civ-spouse,Exec-managerial,Husband,White,Male,0.0,0.0,60.0,United-States,1


#### Первичный анализ данных.

In [32]:
data_test.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Age,16281.0,73.0,35,461.0,,,,,,,
Workclass,15318.0,8.0,Private,11210.0,,,,,,,
fnlwgt,16281.0,,,,189435.677784,105714.907671,13492.0,116736.0,177831.0,238384.0,1490400.0
Education,16281.0,16.0,HS-grad,5283.0,,,,,,,
Education_Num,16281.0,,,,10.072907,2.567545,1.0,9.0,10.0,12.0,16.0
Martial_Status,16281.0,7.0,Married-civ-spouse,7403.0,,,,,,,
Occupation,15315.0,14.0,Prof-specialty,2032.0,,,,,,,
Relationship,16281.0,6.0,Husband,6523.0,,,,,,,
Race,16281.0,5.0,White,13946.0,,,,,,,
Sex,16281.0,2.0,Male,10860.0,,,,,,,


In [33]:
data_train['Target'].value_counts()

0    24720
1     7841
Name: Target, dtype: int64

In [34]:
data_train.dtypes

Age                int64
Workclass         object
fnlwgt             int64
Education         object
Education_Num      int64
Martial_Status    object
Occupation        object
Relationship      object
Race              object
Sex               object
Capital_Gain       int64
Capital_Loss       int64
Hours_per_week     int64
Country           object
Target             int64
dtype: object

In [35]:
data_test.dtypes

Age                object
Workclass          object
fnlwgt            float64
Education          object
Education_Num     float64
Martial_Status     object
Occupation         object
Relationship       object
Race               object
Sex                object
Capital_Gain      float64
Capital_Loss      float64
Hours_per_week    float64
Country            object
Target              int64
dtype: object

In [36]:
data_test['Age'] = data_test['Age'].astype(int)

In [37]:
data_test['fnlwgt'] = data_test['fnlwgt'].astype(int)
data_test['Education_Num'] = data_test['Education_Num'].astype(int)
data_test['Capital_Gain'] = data_test['Capital_Gain'].astype(int)
data_test['Capital_Loss'] = data_test['Capital_Loss'].astype(int)
data_test['Hours_per_week'] = data_test['Hours_per_week'].astype(int)

In [38]:
# выделим в выборках категориальные и числовые поля

categorical_columns_train = [c for c in data_train.columns 
                             if data_train[c].dtype.name == 'object']
numerical_columns_train = [c for c in data_train.columns 
                           if data_train[c].dtype.name != 'object']

categorical_columns_test = [c for c in data_test.columns 
                            if data_test[c].dtype.name == 'object']
numerical_columns_test = [c for c in data_test.columns 
                          if data_test[c].dtype.name != 'object']

print('categorical_columns_test:', categorical_columns_test)
print('categorical_columns_train:', categorical_columns_train)
print('numerical_columns_test:', numerical_columns_test)
print('numerical_columns_train:', numerical_columns_train)

categorical_columns_test: ['Workclass', 'Education', 'Martial_Status', 'Occupation', 'Relationship', 'Race', 'Sex', 'Country']
categorical_columns_train: ['Workclass', 'Education', 'Martial_Status', 'Occupation', 'Relationship', 'Race', 'Sex', 'Country']
numerical_columns_test: ['Age', 'fnlwgt', 'Education_Num', 'Capital_Gain', 'Capital_Loss', 'Hours_per_week', 'Target']
numerical_columns_train: ['Age', 'fnlwgt', 'Education_Num', 'Capital_Gain', 'Capital_Loss', 'Hours_per_week', 'Target']


In [39]:
# заполним пропуски

for c in categorical_columns_train:
    data_train[c] = data_train[c].fillna(data_train[c].mode())
for c in categorical_columns_test:
    data_test[c] = data_test[c].fillna(data_train[c].mode())
    
for c in numerical_columns_train:
    data_train[c] = data_train[c].fillna(data_train[c].median())
for c in numerical_columns_test:
    data_test[c] = data_test[c].fillna(data_train[c].median())

#### Кодируем категориальные признаки 'Workclass', 'Education', 'Martial_Status', 'Occupation', 'Relationship', 'Race', 'Sex', 'Country'. Это можно сделать с помощью метода pandas `get_dummies`.

In [40]:
data_train = pd.concat([data_train, pd.get_dummies(data_train['Workclass'], 
                                                   prefix="Workclass"),
                      pd.get_dummies(data_train['Education'], prefix="Education"),
                      pd.get_dummies(data_train['Martial_Status'], prefix="Martial_Status"),
                      pd.get_dummies(data_train['Occupation'], prefix="Occupation"),
                      pd.get_dummies(data_train['Relationship'], prefix="Relationship"),
                      pd.get_dummies(data_train['Race'], prefix="Race"),
                      pd.get_dummies(data_train['Sex'], prefix="Sex"),
                      pd.get_dummies(data_train['Country'], prefix="Country")],
                     axis=1)

data_test = pd.concat([data_test, pd.get_dummies(data_test['Workclass'], prefix="Workclass"),
                      pd.get_dummies(data_test['Education'], prefix="Education"),
                      pd.get_dummies(data_test['Martial_Status'], prefix="Martial_Status"),
                      pd.get_dummies(data_test['Occupation'], prefix="Occupation"),
                      pd.get_dummies(data_test['Relationship'], prefix="Relationship"),
                      pd.get_dummies(data_test['Race'], prefix="Race"),
                      pd.get_dummies(data_test['Sex'], prefix="Sex"),
                      pd.get_dummies(data_test['Country'], prefix="Country")],
                     axis=1)

In [41]:
data_train.drop(['Workclass', 'Education', 'Martial_Status',
                 'Occupation', 'Relationship', 'Race', 'Sex', 'Country'],
                axis=1, inplace=True)
data_test.drop(['Workclass', 'Education', 'Martial_Status', 'Occupation', 
                'Relationship', 'Race', 'Sex', 'Country'],
               axis=1, inplace=True)

In [42]:
data_test.describe(include='all').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,16281.0,38.767459,13.849187,17.0,28.0,37.0,48.0,90.0
fnlwgt,16281.0,189435.677784,105714.907671,13492.0,116736.0,177831.0,238384.0,1490400.0
Education_Num,16281.0,10.072907,2.567545,1.0,9.0,10.0,12.0,16.0
Capital_Gain,16281.0,1081.905104,7583.935968,0.0,0.0,0.0,0.0,99999.0
Capital_Loss,16281.0,87.899269,403.105286,0.0,0.0,0.0,0.0,3770.0
...,...,...,...,...,...,...,...,...
Country_ Thailand,16281.0,0.000737,0.027140,0.0,0.0,0.0,0.0,1.0
Country_ Trinadad&Tobago,16281.0,0.000491,0.022162,0.0,0.0,0.0,0.0,1.0
Country_ United-States,16281.0,0.900559,0.299262,0.0,1.0,1.0,1.0,1.0
Country_ Vietnam,16281.0,0.001167,0.034143,0.0,0.0,0.0,0.0,1.0


In [43]:
set(data_train.columns) - set(data_test.columns)

{'Country_ Holand-Netherlands'}

In [44]:
data_train.shape, data_test.shape

((32561, 106), (16281, 105))

#### В тестовой выборке не оказалось Голландии. Заведем необходимый признак из нулей.

In [45]:
data_test['Country_ Holand-Netherlands'] = np.zeros([data_test.shape[0], 1])

In [46]:
set(data_train.columns) - set(data_test.columns)

set()

In [47]:
data_train.head(2)

Unnamed: 0,Age,fnlwgt,Education_Num,Capital_Gain,Capital_Loss,Hours_per_week,Target,Workclass_ Federal-gov,Workclass_ Local-gov,Workclass_ Never-worked,...,Country_ Portugal,Country_ Puerto-Rico,Country_ Scotland,Country_ South,Country_ Taiwan,Country_ Thailand,Country_ Trinadad&Tobago,Country_ United-States,Country_ Vietnam,Country_ Yugoslavia
0,39,77516,13,2174,0,40,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,50,83311,13,0,0,13,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [48]:
data_test.head(2)

Unnamed: 0,Age,fnlwgt,Education_Num,Capital_Gain,Capital_Loss,Hours_per_week,Target,Workclass_ Federal-gov,Workclass_ Local-gov,Workclass_ Never-worked,...,Country_ Puerto-Rico,Country_ Scotland,Country_ South,Country_ Taiwan,Country_ Thailand,Country_ Trinadad&Tobago,Country_ United-States,Country_ Vietnam,Country_ Yugoslavia,Country_ Holand-Netherlands
1,25,226802,7,0,0,40,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0.0
2,38,89814,9,0,0,50,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0.0


In [49]:
X_train=data_train.drop(['Target'], axis=1)
y_train = data_train['Target']

X_test=data_test.drop(['Target'], axis=1)
y_test = data_test['Target']

### 3.1. Дерево решений без настройки параметров

#### Обучите на имеющейся выборке дерево решений (`DecisionTreeClassifier`) максимальной глубины 3 и получите качество на тесте. Используйте параметр `random_state = 17` для воспроизводимости результатов.

In [50]:
tree = DecisionTreeClassifier(criterion='entropy', random_state=17,max_depth = 3)
tree.fit(X_train,y_train) 

DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=17)

#### Сделайте с помощью полученной модели прогноз для тестовой выборки.

In [53]:
tree_predictions = tree.predict(X_test)

Feature names must be in the same order as they were in fit.



In [54]:
accuracy_score(y_test,tree_predictions)

0.8447884036607088

## 3.2. Дерево решений с настройкой параметров

#### Обучите на имеющейся выборке дерево решений (`DecisionTreeClassifier`, опять `random_state` = 17 ). Максимальную глубину настройте на кросс-валидации с помощью `GridSearchCV`. Проведите 5-кратную кросс-валидацию

In [55]:
tree_params = {'max_depth': range(2,11)}

locally_best_tree = GridSearchCV(tree, tree_params,cv=5, n_jobs=-1)

In [56]:
%%time
locally_best_tree.fit(X_train,y_train)

CPU times: user 333 ms, sys: 77.4 ms, total: 411 ms
Wall time: 6.05 s


GridSearchCV(cv=5,
             estimator=DecisionTreeClassifier(criterion='entropy', max_depth=3,
                                              random_state=17),
             n_jobs=-1, param_grid={'max_depth': range(2, 11)})

In [57]:
print("Best params:", locally_best_tree.best_params_)
print("Best cross validaton score", locally_best_tree.best_score_)

Best params: {'max_depth': 8}
Best cross validaton score 0.8551643217062379


#### Обучите на имеющейся выборке дерево решений максимальной глубины 9 (это лучшее значение `max_depth` в моем случае) и оцените долю правильных ответов на тесте. Используйте параметр `random_state = 17` для воспроизводимости результатов.

In [58]:
tuned_tree = DecisionTreeClassifier(criterion='entropy', random_state=17,max_depth = 9)
tuned_tree.fit(X_train,y_train)
tuned_tree_predictions = tuned_tree.predict(X_test)
accuracy_score(y_test,tuned_tree_predictions)

Feature names must be in the same order as they were in fit.



0.8476752042257847

## 3.3. Случайный лес без настройки параметров (опционально)¶

#### Немного забежим вперед и попробуем в нашей задаче случайный лес. Пока можно его себе представлять, как куча деревьев решений, обученных на немного разных подвыборках исходной обучающей выборки, причем эта куча деревьев обычно работает существенно лучше, чем отдельные деревья. 

#### Обучите на имеющейся выборке случайный лес (`RandomForestClassifier`), число деревьев сделайте равным ста, а `random_state` = 17.

In [60]:
rf = RandomForestClassifier(random_state=17)
rf.fit(X_train,y_train)

RandomForestClassifier(random_state=17)

#### Сделайте с помощью полученной модели прогноз для тестовой выборки.

In [61]:
forest_predictions = rf.predict(X_test)

Feature names must be in the same order as they were in fit.



In [62]:
accuracy_score(y_test,forest_predictions)

0.8576254529820035

## 3.4. Случайный лес с настройкой параметров (опционально)

#### Обучите на имеющейся выборке случайный лес (`RandomForestClassifier`). Максимальную глубину и максимальное число признаков для каждого дерева настройте с помощью `GridSearchCV`.

In [63]:
%%time
forest_params = {'max_depth': range(10, 21),
                'max_features': range(5, 105, 10)}

locally_best_forest = GridSearchCV(rf, forest_params,cv=5, n_jobs=-1, verbose=True)

locally_best_forest.fit(X_train,y_train)

Fitting 5 folds for each of 110 candidates, totalling 550 fits
CPU times: user 11.4 s, sys: 247 ms, total: 11.7 s
Wall time: 35min 17s


GridSearchCV(cv=5, estimator=RandomForestClassifier(random_state=17), n_jobs=-1,
             param_grid={'max_depth': range(10, 21),
                         'max_features': range(5, 105, 10)},
             verbose=True)

In [64]:
print("Best params:", locally_best_forest.best_params_)
print("Best cross validaton score", locally_best_forest.best_score_)

Best params: {'max_depth': 14, 'max_features': 55}
Best cross validaton score 0.8653606649864136


#### Сделайте с помощью полученной модели прогноз для тестовой выборки.

In [65]:
tuned_forest_predictions = locally_best_forest.predict(X_test)
accuracy_score(y_test,tuned_forest_predictions)

Feature names must be in the same order as they were in fit.



0.8654873779251888