# Decision Tree Classification з використанням Python та Scikit-Learn


У цьому проекті побудовано класифікатор дерева рішень для прогнозування безпеки автомобіля. Фактично створено дві моделі, одну з критерієм «індекс Джіні», а іншу — з критерієм «ентропія». Питання класифікації з використанням дерева рішень вирішено за допомогою Python і Scikit-Learn. Для цього проекту використано **Набір даних оцінки автомобіля**, завантажений із веб-сайту UCI Machine Learning Repository.

## Зміст

1. Вступ до алгоритму дерева рішень
2. Дерева класифікації та регресії
3. Інтуїтивна побудова алгоритму дерева рішень
4. Заходи відбору ознак
 - Приріст інформації
 - Індекс Джіні
5. Постановка проблеми
6. Опис набору даних
7. Імпорт бібліотек
8. Імпорт набору даних
9. Пошуковий аналіз даних
10. Оголошення вектора ознак і цільової змінної
11. Розподіл дані на окремі навчальний та тестовий набір даних
12. Інженерія ознак
13. Класифікатор дерева рішень з критерієм gini-index
14. Класифікатор дерева рішень з критерієм ентропії
15. Матриця помилок
16. Класифікаційний протокол
17. Підсумки та висновок


## 1. Вступ до Decision Tree algorithm


Алгоритм дерева рішень є одним із найпопулярніших алгоритмів машинного навчання. Він використовує деревоподібні структури та їх можливі комбінації для вирішення певної проблеми. Він належить до класу контрольованих алгоритмів навчання, де його можна використовувати як для класифікації, так і для регресії. 


Дерево рішень — це структура, яка включає кореневий вузол, гілки та листові вузли. Кожен внутрішній вузол позначає перевірку атрибута, кожна гілка позначає результат перевірки, а кожен кінцевий вузол містить мітку класу. Самий верхній вузол у дереві є кореневим вузлом. 


## 2. Classification and Regression Trees (CART)


Нині алгоритм дерева рішень відомий під сучасною назвою **CART**, що означає **Classification and Regression Trees (дерева класифікації та регресії)**.
Дерева класифікації та регресії або **CART** — це термін, який запровадив Лео Брейман для позначення алгоритмів дерева рішень, які можна використовувати для проблем класифікації та регресійного моделювання. Алгоритм CART забезпечує основу для інших важливих алгоритмів, таких як інкапсульовані дерева рішень, випадкові ліси і розширені дерева рішень.


У цьому проекті розв’язано задачу класифікації. 

## 3. Інтуїтивна побудова алгоритму дерева рішень

Алгоритм дерева рішень є одним із найбільш часто використовуваних алгоритмів керованого машинного навчання, який можна використовувати як для завдань класифікації, так і для регресії. Інтуїтивний підхід, що лежить в основі алгоритму Дерева рішень, більш-менш просто зрозуміти.


ідея Decision Tree algorithm полягає в наступному:-


1. Для кожного атрибута в наборі даних алгоритм дерева рішень формує вузол. Найважливіший атрибут розміщується в кореневому вузлі.

2. Для оцінки поточного завдання ми починаємо з кореневого вузла і рухаємося вниз по дереву, дотримуючись відповідного вузла, який відповідає нашій умові чи рішенню.

3. Цей процес триває доти, доки не буде досягнуто листкового вузла. Він містить прогноз або результат дерева рішень.


## 4. Заходи відбору ознак


Основним завданням у реалізації дерева рішень є визначення атрибутів, які ми розглядаємо як кореневий вузол і кожен рівень. Цей процес відомий як **вибір атрибутів**. Існують різні міри вибору атрибутів для визначення атрибута, який можна вважати кореневим вузлом на кожному рівні.


Є 2 популярні способи вибору атрибутів. Вони такі:-


- **Information gain (приріст інформації)**

- **Gini index (індекс Джіні)**


Використовуючи **Приріст інформації** як критерій, ми припускаємо, що атрибути є категоріальними, а для **Індексу Джіні** атрибути вважаються безперервними. Ці заходи вибору атрибутів описані нижче.


### Information gain


Використовуючи приріст інформації як критерій, ми намагаємося оцінити інформацію, що міститься в кожному атрибуті. Щоб зрозуміти концепцію отримання інформації, нам потрібно знати іншу концепцію під назвою **Ентропія**.


Ентропія вимірює помилки класифікації в даному наборі даних. У фізиці та математиці ентропія називається випадковістю або невизначеністю випадкової величини X. У теорії інформації вона відноситься до помилок класифікації в групі прикладів. **Приріст інформації** – це зменшення ентропії. Приріст інформації обчислює різницю між ентропією до поділу та середньою ентропією після поділу набору даних на основі заданих значень атрибутів.


Алгоритм дерева рішень ID3 (Iterative Dichotomiser) використовує ентропію для обчислення приросту інформації. Отже, обчисливши зменшення **міри ентропії** кожного атрибута, ми можемо обчислити їх інформаційний приріст. Атрибут з найбільшим приростом інформації вибирається як атрибут розщеплення у вузлі.

### Gini index


Іншим показником вибору атрибутів, який використовує **CART (категорійні та регресійні дерева)**, є **індекс Джіні**. Він використовує метод Джіні для створення точок розділення.

Індекс Джіні каже, що якщо ми випадковим чином виберемо два елементи із сукупності, вони мають бути одного класу, і ймовірність цього дорівнює 1, якщо сукупність чиста.

Він працює з категоріальною цільовою змінною «Успіх» або «Невдача». Він виконує лише двійкові розбиття. Чим вище значення Gini, тим вище однорідність. CART (Дерево класифікації та регресії) використовує метод Джіні для створення двійкових розділень.

Кроки для розрахунку індексу Джині для поділу

1. Обчисліть індекс Джині для підвузлів, використовуючи формулу суми квадратів ймовірності успіху та невдачі (p^2+q^2).

2. Обчисліть індекс Джині для поділу, використовуючи зважену оцінку індексу Джині кожного вузла цього поділу.


У випадку атрибута з дискретним значенням підмножина, яка дає мінімальний індекс Джини, вибирається як атрибут розщеплення. У випадку безперервних атрибутів стратегія полягає у виборі кожної пари суміжних значень як можливої ​​точки розділення та точки з меншим індексом Джіні, обраної як точка розділення. Атрибут з мінімальним індексом Джіні вибирається як атрибут розбиття.


## 5. Постановка проблеми


Проблема полягає в тому, щоб передбачити безпеку автомобіля. У цьому проекті побудовано класифікатор дерева рішень для прогнозування безпеки автомобіля. Створено класифікацію дерева рішень за допомогою Python і Scikit-Learn. Для цього проекту використано **Набір даних оцінки автомобіля**, завантажений із веб-сайту UCI Machine Learning Repository.


## 6. Опис набору даних


Використано **Набір даних оцінки автомобіля**, завантажений із веб-сайту Kaggle  або archive.ics.uci.edu. Набір даних і їх опис  можна знайти за таким url:

http://archive.ics.uci.edu/ml/datasets/Car+Evaluation


База даних оцінки автомобіля була отримана з простої ієрархічної моделі прийняття рішень, спочатку розробленої для експертної системи для прийняття рішень. База даних оцінки автомобіля містить приклади з вилученою структурною інформацією, тобто безпосередньо пов’язує опис автомобіля із шістьма вхідними атрибутами: buying, maint, doors, persons, lug_boot, safety.


## 7. Імпорт додаткових бібліотек

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [2]:
import warnings

warnings.filterwarnings('ignore')

## 8. Завантаження набору данних

In [3]:
data = 'car.data' # передбачається, що файл в тому ж каталозі, що й .ipynb-файл.

df = pd.read_csv(data, header=None)

## 9. Пошуковий аналіз даних


Треба вивчити завантажені дані, щоб отримати уявлення про них.

In [4]:
# view dimensions of dataset

df.shape

(1728, 7)

Ми бачимо, що в наборі даних є 1728 екземплярів і 7 змінних.

### Подивимось перші 5 рідків набору даних

In [5]:
# preview the dataset

df.head()

Unnamed: 0,0,1,2,3,4,5,6
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


### Перейменування назв стовпців

Ми бачимо, що набір даних не має правильних імен стовпців. Стовпці просто позначені як 0,1,2.... і так далі. Ми повинні дати правильні назви стовпцям. Нижче це зроблено наступним чином:-

In [6]:
col_names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']


df.columns = col_names

col_names

['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

In [7]:
# let's again preview the dataset

df.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


Ми бачимо, що стовпці перейменовано. Тепер вони мають змістовні назви.

### Передивимось загальні відомості про набір даних

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
buying      1728 non-null object
maint       1728 non-null object
doors       1728 non-null object
persons     1728 non-null object
lug_boot    1728 non-null object
safety      1728 non-null object
class       1728 non-null object
dtypes: object(7)
memory usage: 94.6+ KB


### Частотний розподіл значень у змінних

Перевіримо частотний розподіл категоріальних змінних.

In [9]:
col_names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']


for col in col_names:
    
    print(df[col].value_counts())   


med      432
low      432
vhigh    432
high     432
Name: buying, dtype: int64
med      432
low      432
vhigh    432
high     432
Name: maint, dtype: int64
5more    432
4        432
2        432
3        432
Name: doors, dtype: int64
4       576
2       576
more    576
Name: persons, dtype: int64
med      576
big      576
small    576
Name: lug_boot, dtype: int64
med     576
low     576
high    576
Name: safety, dtype: int64
unacc    1210
acc       384
good       69
vgood      65
Name: class, dtype: int64


Ми бачимо, що «doors» і «persons» мають категоріальний характер. Тому далі вони розглядатирозглядатимуться як категориальні змінні.

### Результати аналізу змінних


- У наборі даних є 7 змінних. Усі змінні мають категоріальний тип даних.


- Імена стовпчиків даних buying, maint, doors, persons, lug_boot, safety і class.


- class - цільова змінна.

### Розглянемо змінну class

In [10]:
df['class'].value_counts()

unacc    1210
acc       384
good       69
vgood      65
Name: class, dtype: int64

Цільова змінна class має порядковий характер.

### Перевірка наявності пропущених значень

In [11]:
# check missing values in variables

df.isnull().sum()

buying      0
maint       0
doors       0
persons     0
lug_boot    0
safety      0
class       0
dtype: int64

З наведеного результату видно, що в наборі даних немає пропущених значень. Раніше було перевірено частотний розподіл значень. Це також підтверджує, що в наборі даних немає пропущених значень.

## 10. Оголошення вектора ознак і цільової змінної

In [12]:
X = df.drop(['class'], axis=1)

y = df['class']

## 11. Розбиття даних на навчальний та тестовий набори

In [13]:
# split X and y into training and testing sets

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 42)


In [14]:
# перевіряємо форму масивів X_train та X_test

X_train.shape, X_test.shape

((1157, 6), (571, 6))

## 12. Робота з ознаками


**Feature Engineering** – це процес перетворення необроблених даних у корисні ознаки, які допомагають нам краще зрозуміти нашу модель і підвищити надійність її прогнозів. Далі проведено перевірка/перетворення ознак на різних типах змінних.


Спочатку перевіримо типи даних змінних.

In [15]:
# check data types in X_train

X_train.dtypes

buying      object
maint       object
doors       object
persons     object
lug_boot    object
safety      object
dtype: object

### Кодування категоріальних змінних


Далі проведено перекодування категоріальних змінних.

In [16]:
X_train.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety
48,vhigh,vhigh,3,more,med,low
468,high,vhigh,3,4,small,low
155,vhigh,high,3,more,small,high
1721,low,low,5more,more,small,high
1208,med,low,2,more,small,high


З наведених даних зрозуміло, що всі змінні є порядковими категоріальними типами даних.

In [17]:
# імпортуємо category encoders

import category_encoders as ce

In [18]:
# encode variables with ordinal encoding

encoder = ce.OrdinalEncoder(cols=['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety'])


X_train = encoder.fit_transform(X_train)

X_test = encoder.transform(X_test)

In [19]:
X_train.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety
48,1,1,1,1,1,1
468,2,1,1,2,2,1
155,1,2,1,1,2,2
1721,3,3,2,1,2,2
1208,4,3,3,1,2,2


In [20]:
X_test.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety
599,2,2,4,3,1,2
1201,4,3,3,2,1,3
628,2,2,2,3,3,3
1498,3,2,2,2,1,3
1263,4,3,4,1,1,1


Після перекодування маємо набір для навчання та тестування, готовий для створення моделі. 

## 13. Класифікатор дерева рішень з критерієм на підставі індексу Джіні

In [21]:
# import DecisionTreeClassifier

from sklearn.tree import DecisionTreeClassifier


In [22]:
# Створюємо екземпляр DecisionTreeClassifier з критерієм на основі індексу gini 

clf_gini = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=0)


# fit the model
clf_gini.fit(X_train, y_train)


DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')

### Результати прогнозу за тестовим набором даних з використанням gini index

In [23]:
y_pred_gini = clf_gini.predict(X_test)

### Перевіряємо оцінку точності за критерієм індексу Джіні

In [24]:
from sklearn.metrics import accuracy_score

print('Оцінка точності моделі за критерієм індексу Джіні: {0:0.4f}'. format(accuracy_score(y_test, y_pred_gini)))

Model accuracy score with criterion gini index: 0.8021


Тут **y_test** — справжні мітки класу, а **y_pred_gini** — прогнозовані мітки класу в тестовому наборі.

### Порівняння точності прогнозу за навчальним та тестовим набором

Нижче наведено порівняння точності прогнозу за навчальним та тестовим набором, щоб перевірити наявність переобладнання.

In [25]:
y_pred_train_gini = clf_gini.predict(X_train)

y_pred_train_gini

array(['unacc', 'unacc', 'unacc', ..., 'unacc', 'unacc', 'acc'],
      dtype=object)

In [26]:
print('Training-set accuracy score: {0:0.4f}'. format(accuracy_score(y_train, y_pred_train_gini)))

Training-set accuracy score: 0.7865


### Перевірка наявності перенавчання та недостатнього навчання

In [27]:
# print the scores on training and test set

print('Training set score: {:.4f}'.format(clf_gini.score(X_train, y_train)))

print('Test set score: {:.4f}'.format(clf_gini.score(X_test, y_test)))

Training set score: 0.7865
Test set score: 0.8021


Отримана оцінка точності навчального набору становить 0,7865, а точність тестового набору – 0,8021. Ці дві величини цілком порівнянні. Отже, жодних ознак перенавчання немає.


## 14. Decision Tree Classifier з критерієм ентропії

In [28]:
# Створити екземпляр DecisionTreeClassifier з критерієм entropy

clf_en = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)


# fit the model
clf_en.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')

### Результати прогнозу за тестовим набором з використанням критерію entropy

In [29]:
y_pred_en = clf_en.predict(X_test)

### Перевірка точності прогнозу за допомогою критерію entropy

In [30]:
from sklearn.metrics import accuracy_score

print('Model accuracy score with criterion entropy: {0:0.4f}'. format(accuracy_score(y_test, y_pred_en)))

Model accuracy score with criterion entropy: 0.8021


### Поріняння точності прогнозу за навчальною і тестовою вибірками


Нижче наведено результати прогнозу за навчальною і тестовою вибірками з метою перевірки наявності перенавчання.

In [31]:
y_pred_train_en = clf_en.predict(X_train)

y_pred_train_en

array(['unacc', 'unacc', 'unacc', ..., 'unacc', 'unacc', 'acc'],
      dtype=object)

In [32]:
print('Training-set accuracy score: {0:0.4f}'. format(accuracy_score(y_train, y_pred_train_en)))

Training-set accuracy score: 0.7865


### Перевірка наявності перенавчання та недостатнього навчання моделі 

In [33]:
# print the scores on training and test set

print('Training set score: {:.4f}'.format(clf_en.score(X_train, y_train)))

print('Test set score: {:.4f}'.format(clf_en.score(X_test, y_test)))

Training set score: 0.7865
Test set score: 0.8021


Результати оцінки навчального набору та тестового набору така сама, як і вище. Оцінка точності навчального набору становить 0,7865, а точність тестового набору – 0,8021. Ці дві величини цілком порівнянні. Отже, жодних ознак переобладнання немає.


На підставі наведеного вище аналізу, можна зробити висновок, що точність створеної моделі класифікації досить добра. Навчена модель добре справляється з прогнозуванням міток класів.


Але вона не дає основного розподілу значень. Крім того, розгляд лише результатів оцінки точності не повідомляє про тип помилок, які робить створений класифікатор.


Більш змістоівні результати для аналізу помилок надає інструмент Confusion matrix.

## 15. Confusion matrix

Матриця помилок — це інструмент для узагальнення продуктивності алгоритму класифікації. Матриця помилок дасть нам чітке уявлення про продуктивність моделі класифікації та типи помилок, створених моделлю. Вона містить зведення правильних і неправильних прогнозів, розбитих за кожною категорією. Анотацію оформлюють у вигляді таблиці.


Під час оцінки продуктивності моделі класифікації можливі чотири типи результатів, а саме: 

**Справжні позитивні результати (TP)** – Справжні позитивні результати виникають, коли ми передбачаємо, що спостереження належить до певного класу, а спостереження насправді належить до цього класу.


**Справжні негативи (TN)** – Справжні негативи виникають, коли ми прогнозуємо, що спостереження не належить до певного класу, а спостереження насправді не належить до цього класу.


**Помилкові позитивні результати (FP)** – помилкові позитивні результати виникають, коли ми передбачаємо, що спостереження належить до певного класу, але спостереження насправді не належить до цього класу. Цей тип помилки називається **помилкою типу I.**


**Помилкові негативні результати (FN)** – помилкові негативні результати виникають, коли ми передбачаємо, що спостереження не належить до певного класу, але спостереження насправді належить до цього класу. Це дуже серйозна помилка, яка називається **помилкою II типу.**


Ці чотири результати узагальнено в матриці помилок, наведеній нижче.

In [34]:
# Друк иатриці помилок (Confusion Matrix) та розріз її на 4 частини

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred_en)

print('Confusion matrix\n\n', cm)



Confusion matrix

 [[ 73   0  56   0]
 [ 20   0   0   0]
 [ 12   0 385   0]
 [ 25   0   0   0]]


## 16. Звіт про класифікацію (Classification Report)


**Звіт про класифікацію (Classification Report)** – ще один спосіб оцінити ефективність моделі класифікації. Він відображає оцінки **precision**, **recall**, **f1** і **support** для моделі. 

В наступному прикладі роздруковано класифікаційний звіт:

In [35]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred_en))

              precision    recall  f1-score   support

         acc       0.56      0.57      0.56       129
        good       0.00      0.00      0.00        20
       unacc       0.87      0.97      0.92       397
       vgood       0.00      0.00      0.00        25

   micro avg       0.80      0.80      0.80       571
   macro avg       0.36      0.38      0.37       571
weighted avg       0.73      0.80      0.77       571



## 17. Результати і висновки


1. У цьому проекті побудовано модель класифікатора DesignTreeClassifier для прогнозування безпеки автомобіля. Створено дві моделі, одну з критерієм «індекс Джіні», а іншу — з критерієм «ентропія». Моделі дуже хороші показники, про що свідчить точність моделі в обох випадках, яка дорівнює 0,8021.
2. У моделі з критерієм «індекс Джіні» оцінка точності навчального набору становить 0,7865, а точність тестового набору – 0,8021. Ці дві величини цілком порівнянні. Отже, жодних ознак переобладнання немає.
3. Аналогічно, у моделі з критерієм «ентропія» оцінка точності навчального набору становить 0,7865, а точність тестового набору — 0,8021. Отримано ті самі значення, що й у випадку з критерієм «gini». Отже, жодних ознак переобладнання немає.
4. В обох випадках оцінка точності навчального та тестового набору однакова. Це може статися через малий набір даних.
5. Матриця помилок та звіт про класифікацію дають чітку оцінку продуктивністі моделі.