In [2]:
from sklearn import tree
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split

In [None]:
from IPython.display import SVG
from IPython.display import display
from graphviz import Source
from IPython.display import HTML
style = "<style>svg{width:0.1% !important;height:0.1% !important;</style>"
HTML( style )

import os
os.environ["PATH"] += os.pathsep + "C:\\Program Files (x86)\\graphviz2.38\\bin" + os.pathsep + "C:\\Program Files (x86)\\graphviz2.38"


In [None]:
titanic_data = pd.read_csv('titanic/train.csv')
titanic_data.head()
titanic_data.isnull().sum()

In [None]:
X = titanic_data.drop(['PassengerId', 'Survived', 'Name', 'Cabin', 'Ticket'], axis=1)
y = titanic_data.Survived

In [None]:
X.head()
y.head()

In [None]:
X = pd.get_dummies(X) # избавление от строковых значений
X = X.fillna({'Age': X.Age.median()})
X.isnull().sum()

In [None]:
max_depth_values = range(1, 100)

In [None]:
clf = tree.DecisionTreeClassifier(criterion='entropy')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [None]:
scores_data = pd.DataFrame()

In [None]:
for max_depth in max_depth_values:
    clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=max_depth)
    clf.fit(X_train, y_train)

    train_score = clf.score(X_train, y_train)
    test_score = clf.score(X_test, y_test)

    temp_score_data = pd.DataFrame({'max_depth': [max_depth],
                                    'train_score': [train_score],
                                    'test_score': [test_score]})

    scores_data = pd.concat([scores_data, temp_score_data])

In [None]:
scores_data.head()

In [None]:
scores_data_long = pd.melt(scores_data, id_vars=['max_depth'], value_vars=['train_score', 'test_score'],
                var_name='set_type', value_name='score')

In [None]:
scores_data_long.head()

In [None]:
sns.lineplot(x='max_depth', y='score', hue='set_type', data=scores_data_long)

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=4)

In [None]:
cross_val_score(clf, X_train, y_train, cv=5).mean()

In [None]:
scores_data = pd.DataFrame()

for max_depth in max_depth_values:
    clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=max_depth)
    clf.fit(X_train, y_train)

    train_score = clf.score(X_train, y_train)
    test_score = clf.score(X_test, y_test)

    mean_cross_val_score = cross_val_score(clf, X_train, y_train, cv=5).mean()

    temp_score_data = pd.DataFrame({'max_depth': [max_depth],
                                    'train_score': [train_score],
                                    'test_score': [test_score],
                                    'cross_val_score': [mean_cross_val_score]})

    scores_data = pd.concat([scores_data, temp_score_data])

In [None]:
scores_data_long = pd.melt(scores_data, id_vars=['max_depth'], value_vars=['train_score', 'test_score', 'cross_val_score'],
                var_name='set_type', value_name='score')

In [None]:
scores_data_long.head()

In [None]:
sns.lineplot(x='max_depth', y='score', hue='set_type', data=scores_data_long)

In [None]:
scores_data_long.query('set_type == "cross_val_score"').head(20)

In [None]:
clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=10)

In [None]:
cross_val_score(clf, X_test, y_test, cv=5).mean()

## Тренировка на ирисах

### 1. Подключаем необходимые библиотеки:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

%matplotlib inline 

In [None]:
from IPython.display import SVG
from graphviz import Source
from IPython.display import display 
from IPython.display import HTML
from sklearn import tree

style = "<style>svg{width:50% !important;height:30% !important;}</style>"
HTML(style)

### 2. Подготовка данных

In [None]:
# Считываем базы
df_train = pd.read_csv('train_iris.csv', index_col=0)
df_test = pd.read_csv("test_iris.csv", index_col=0)

#Удаляем ненужные столбцы и тот, который будем предсказывать:
X_train = df_train.drop(['species'], axis=1)
X_test = df_test.drop(['species'], axis=1)

#Создаем переменную, которую предсказываем:
y_train = df_train.species
y_test = df_test.species

In [None]:
X_train.head()

### 3. Обучение

In [None]:
# Добавляем согласно условию:
rs = np.random.seed(0)

#Определяем новую базу:
score_data = pd.DataFrame()

#Определяем переменную max_depth_values:
max_depth_values = range(1, 100)

#пишем цикл для поиска оптимальной глубины и сохраняем полученные данные в новую базу:
for max_depth in max_depth_values:
    clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=max_depth, random_state=rs)
    clf.fit(X_train, y_train)

    train_score = clf.score(X_train, y_train)
    test_score = clf.score(X_test, y_test)

    mean_cross_val_score = cross_val_score(clf, X_train, y_train, cv=5).mean()

    temp_score_data = pd.DataFrame({'max_depth': [max_depth],
                                    'train_score': [train_score],
                                    'test_score': [test_score],
                                    'cross_val_score': [mean_cross_val_score]})

    scores_data = pd.concat([scores_data, temp_score_data])

In [None]:
scores_data 

In [None]:
scores_data_long = pd.melt(scores_data, id_vars=['max_depth'], value_vars=['train_score', 'test_score',],
                var_name='set_type', value_name='score')
scores_data_long.head()

In [None]:
sns.lineplot(x='max_depth', y='score', hue='set_type', data=scores_data_long)

## Решение

In [None]:
# Импортируем специализированные модули Pandas и Numpy, не являющиеся частью стандартной библиотеки Python.
import pandas as pd
import numpy as np

# а также импортируем модули Seaborn, Matplotlib и Pydotplus для работы с графикой.
import matplotlib.pyplot as plt
import seaborn as sns
import pydotplus

# Импортируем модуль tree из библиотеки sklearn для реализации алгоритмов решающих деревьев.
from sklearn import tree

# Импортируем модули, необходимые для визуализации дерева решений.
from IPython.display import SVG
from graphviz import Source
from IPython.display import display
from IPython.display import HTML

style = "<style>svg{width:70% !important;height:70% !important;}</style>"
HTML(style)

# Прописываем пути до graphviz.
import os
os.environ["PATH"] += os.pathsep + "C:\Program Files (x86)\Graphviz2.38\bin" \
                      + os.pathsep + "C:\Program Files (x86)\Graphviz2.38"

# Устанавливаем размер области для построения графиков.
sns.set(rc={'figure.figsize': (9, 6)})

# Считываем тренировочный файл.
train_iris_data = pd.read_csv('https://stepik.org/media/attachments/course/4852/train_iris.csv')
# Считываем тестовый файл.
test_iris_data = pd.read_csv('https://stepik.org/media/attachments/course/4852/test_iris.csv')

# Отбросим колонки, не несущие важной информации для построения дерева решений.
# Отбрасываем не только предсказываемую species, но и первую колонку, так как она содержит id каждого экземпляра (цветка), а он для построения графика не нужен.
X_train_iris = train_iris_data.drop(['Unnamed: 0', 'species'], axis=1)
X_test_iris = test_iris_data.drop(['Unnamed: 0', 'species'], axis=1)

# Создадим переменные, которые будем предсказывать.
y_train_iris = train_iris_data.species
y_test_iris = test_iris_data.species

# Подберем оптимальное значение глубины обучения дерева.
# Зададим диапазон исследуемых значений.
max_iris_depth_values = range(1, 100)

# Обнулим DataFrame.
scores_iris_data = pd.DataFrame()

#  Задаем random seed.
rs = np.random.seed(0)

for max_iris_depth in max_iris_depth_values:
    # Изменяем глубину обучения дерева по циклу от 1 до 99 с шагом 1.
    clf_iris = tree.DecisionTreeClassifier(criterion='entropy', max_depth=max_iris_depth, random_state=rs)
    # Обучаем дерево решений (с ограниченной глубиной) на подмножестве train.
    clf_iris.fit(X_train_iris, y_train_iris)
    # Записываем в отдельную переменную число правильных ответов на обученной модели дерева
    # с ограниченной глубиной (подмножество train)
    train_iris_score = clf_iris.score(X_train_iris, y_train_iris)
    # Записываем в отдельную переменную число правильных ответов на обученной модели дерева
    # с ограниченной глубиной (подмножество test)
    test_iris_score = clf_iris.score(X_test_iris, y_test_iris)
    # Создаем временный DataFrame.
    temp_score_iris_data = pd.DataFrame({'max_iris_depth':[max_iris_depth],
                                         'train_iris_score':[train_iris_score],
                                         'test_iris_score':[test_iris_score]})
    # Наращиваем DataFrame "scores_iris_data".
    scores_iris_data = scores_iris_data.append(temp_score_iris_data)

# Видоизменим DataFrame, применив метод melt().
scores_iris_data_long = pd.melt(scores_iris_data, id_vars=['max_iris_depth'],
                           value_vars=['train_iris_score','test_iris_score'],
                           var_name='set_type', value_name='score')

# Визуализация.
sns.lineplot(x='max_iris_depth', y='score', hue='set_type', data=scores_iris_data_long)

# Отображение графиков Matplotlib и Seaborn в PyCharm.
plt.show()

### Тренировка на котиках и собачках

In [1]:
from sklearn import tree
import pandas as pd
import numpy as nm
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
# написать про этот мем ( from sklearn.model_selecion import train_test_split

In [4]:
# Скачиваем выборку:
df_tr = pd.read_csv(r'dogs_n_cats.csv')

# выводим наименование столбцов:
print(df_tr.columns)
df_tr.head()

Index(['Длина', 'Высота', 'Шерстист', 'Гавкает', 'Лазает по деревьям', 'Вид'], dtype='object')


Unnamed: 0,Длина,Высота,Шерстист,Гавкает,Лазает по деревьям,Вид
0,15,18.0,1,1,0,собачка
1,20,24.0,1,0,0,собачка
2,34,40.8,1,1,0,собачка
3,26,31.2,1,1,0,собачка
4,16,19.2,1,1,0,собачка


In [5]:
# 3. Обработка. Удаляем целевой столбец:
X = df_tr.drop(['Вид'], axis=1)
y = df_tr['Вид']

# Разбиваем выборку на тренировочную и тестовую:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [6]:
# 4. Обучение.
clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=4)

clf.fit(X_train, y_train)

In [13]:
# 5. Определение количество собачек в тестовой выборке
# -скачиваем
df_ts = pd.read_json(r'dataset_209691_15.txt')

#-проверяем соответствие столбцов тестовой и тренировочной выборки
df_ts[:2]

Unnamed: 0,Длина,Высота,Шерстист,Гавкает,Лазает по деревьям
0,34,40.8,1,1,0
1,22,26.4,1,1,0


In [14]:
df_tr[:2]

Unnamed: 0,Длина,Высота,Шерстист,Гавкает,Лазает по деревьям,Вид
0,15,18.0,1,1,0,собачка
1,20,24.0,1,0,0,собачка


In [15]:
#-если порядок не совпадает, то приводим к единому
# текущий порядок столбцов [b, c, d, a]
X_ts = df_ts[['Длина', 'Высота', 'Шерстист', 'Гавкает', 'Лазает по деревьям']]
result = clf.predict(X_ts)
pd.Series(result)[result == 'собачка'].count()

47