## УСЛОВИЕ:
Скачиваем и работаем с данными train.csv.

Необходимо произвести предобработку данных, обучить решающие деревья с различными параметрами, оценить модели с помощью рассмотренных метрик, объяснить выбор определенной метрики и аргументировать выбор настроек алгоритма (подбор гиперпараметров).

* **PassengerId** - A unique Id for each passenger. Each Id takes the form gggg_pp where gggg indicates a group the passenger is travelling with and pp is their number within the group. People in a group are often family members, but not always. (Уникальный идентификатор для каждого пассажира. Каждый идентификатор принимает форму gggg_pp, где gggg указывает группу, с которой путешествует пассажир, а pp — его номер в группе. Люди в группе часто являются членами семьи, но не всегда.)
* **HomePlanet** - The planet the passenger departed from, typically their planet of permanent residence. (Планета, с которой вылетел пассажир, как правило, планета их постоянного проживания.)
* **CryoSleep** - Indicates whether the passenger elected to be put into suspended animation for the duration of the voyage. Passengers in cryosleep are confined to their cabins. (Указывает, решил ли пассажир быть переведен в режим анабиоза на время рейса. Пассажиры, находящиеся в криосонном состоянии, находятся в своих каютах.)
* **Cabin** - The cabin number where the passenger is staying. Takes the form deck/num/side, where side can be either P for Port or S for Starboard. (Номер каюты, в которой находится пассажир. Принимает форму палуба/число/сторона, где сторона может быть либо P для левого борта, либо S для правого борта.)
* **Destination** - The planet the passenger will be debarking to. (Планета, на которую будет высаживаться пассажир.)
* **Age** - The age of the passenger. (Возраст пассажира.)
* **VIP** - Whether the passenger has paid for special VIP service during the voyage. (Оплатил ли пассажир специальное VIP-обслуживание во время рейса.)
* **RoomService, FoodCourt, ShoppingMall, Spa, VRDeck** - Amount the passenger has billed at each of the Spaceship Titanic's many luxury amenities. (Сумма, которую пассажир выставил в счет за каждое из многочисленных роскошных удобств космического корабля «Титаник».)
* **Name** - The first and last names of the passenger. (Имя и фамилия пассажира.)
* **Transported** - Whether the passenger was transported to another dimension. This is the target, the column you are trying to predict. (Перенесся ли пассажир в другое измерение. Это цель, столбец, который вы пытаетесь предсказать.)

In [1]:
import numpy as np
import pandas as pd
import scipy.stats
import warnings
import graphviz
from tqdm import tqdm_notebook

from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import datasets
from sklearn.metrics import accuracy_score, mean_squared_error
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, export_graphviz, plot_tree
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split, KFold

from sklearn.metrics import (accuracy_score, precision_score, recall_score,
                             f1_score, roc_auc_score, roc_curve, auc,
                             classification_report)

sns.set(font_scale=1.5)
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('train.csv')
df.head()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


Выборка сбалансирована, 50*50

In [3]:
df.Transported.value_counts(normalize=True)

True     0.503624
False    0.496376
Name: Transported, dtype: float64

In [4]:
df.tail()

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
8688,9276_01,Europa,False,A/98/P,55 Cancri e,41.0,True,0.0,6819.0,0.0,1643.0,74.0,Gravior Noxnuther,False
8689,9278_01,Earth,True,G/1499/S,PSO J318.5-22,18.0,False,0.0,0.0,0.0,0.0,0.0,Kurta Mondalley,False
8690,9279_01,Earth,False,G/1500/S,TRAPPIST-1e,26.0,False,0.0,0.0,1872.0,1.0,0.0,Fayey Connon,True
8691,9280_01,Europa,False,E/608/S,55 Cancri e,32.0,False,0.0,1049.0,0.0,353.0,3235.0,Celeon Hontichre,False
8692,9280_02,Europa,False,E/608/S,TRAPPIST-1e,44.0,False,126.0,4688.0,0.0,0.0,12.0,Propsh Hontichre,True


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB


### Очистка и предобработка данных

Проверим данные на наличие дубликатов

In [6]:
df.iloc[:, :-1].duplicated().sum()

0

Ни один из признаков не имеет более 2.5% пропусков

In [7]:
round(df.isna().mean() * 100, 2).sort_values(ascending=False)

CryoSleep       2.50
ShoppingMall    2.39
VIP             2.34
HomePlanet      2.31
Name            2.30
Cabin           2.29
VRDeck          2.16
FoodCourt       2.11
Spa             2.11
Destination     2.09
RoomService     2.08
Age             2.06
PassengerId     0.00
Transported     0.00
dtype: float64

In [8]:
trash = 0.95
for col in df.columns:
    repeat = df[col].value_counts(normalize=True).max()
    diversity = df[col].nunique() / df[col].count()
    if repeat > trash:
        print(f'{col}: {repeat * 100:.2f}% имеют одно и тоже значение')
        print('-' * 50)
    if diversity > trash:
        print(f'{col}: {diversity * 100:.2f}% имеют уникальные значения')
        print('-' * 50)

PassengerId: 100.00% имеют уникальные значения
--------------------------------------------------
VIP: 97.66% имеют одно и тоже значение
--------------------------------------------------
Name: 99.76% имеют уникальные значения
--------------------------------------------------


Удалим ненужные колонки

In [9]:
df.drop(['PassengerId', 'Cabin', 'Name', 'VIP'], axis=1, inplace=True)

In [10]:
df.shape

(8693, 10)

In [11]:
df.describe()

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
count,8514.0,8512.0,8510.0,8485.0,8510.0,8505.0
mean,28.82793,224.687617,458.077203,173.729169,311.138778,304.854791
std,14.489021,666.717663,1611.48924,604.696458,1136.705535,1145.717189
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,19.0,0.0,0.0,0.0,0.0,0.0
50%,27.0,0.0,0.0,0.0,0.0,0.0
75%,38.0,47.0,76.0,27.0,59.0,46.0
max,79.0,14327.0,29813.0,23492.0,22408.0,24133.0


Удалим записи с нулевым возрастом

In [12]:
df = df[df.Age != 0]

In [13]:
df.shape

(8515, 10)

Удалим строки с пропусками

In [14]:
df.dropna(axis=0, inplace=True)

In [15]:
df.shape

(6943, 10)

In [16]:
object_columns = []
digital_columns = []
for col in df.columns:
    if df.dtypes[col] == 'object':
        object_columns.append(col)
    else:
        if col !='Transported':
            digital_columns.append(col)

In [17]:
for col in object_columns:
    print(f'{col}: {df[col].nunique()} уникальных значений')

HomePlanet: 3 уникальных значений
CryoSleep: 2 уникальных значений
Destination: 3 уникальных значений


Преобразуем признаки тип object в category и заменим на числа

In [18]:
df['HomePlanet'] = df.HomePlanet.astype('category')
df['HomePlanet'] = df.HomePlanet.cat.codes

df['CryoSleep'] = df.CryoSleep.astype('category')
df['CryoSleep'] = df.CryoSleep.cat.codes

df['Destination'] = df.Destination.astype('category')
df['Destination'] = df.Destination.cat.codes

df.reset_index(drop=True, inplace=True)

### Выбор метрики, подбор гиперпараметров и обучение модели

Так как выборка сбалансирована, отсутствует перекос классов в качестве метрики я выбрал accuracy

In [19]:
df.Transported.value_counts(normalize=True)

False    0.503529
True     0.496471
Name: Transported, dtype: float64

Подберем глубину дерева

In [20]:
## Зададим 10 бачей для функции кросс-валидации
cv = KFold(n_splits=10)     

## Итоговый список с точностью классификации для каждой итерации
accuracies = list()
## Задание диапазона глубин дерева
max_attributes = len(list(df))
depth_range = range(1, max_attributes + 1)

## Перебор всех значений max_depth /  Обучение модели для каждого фолда / Расчет точности классификации / Расчет среднего значения точности по всем фолдам
for depth in depth_range:
    fold_accuracy = []
    tree_model = DecisionTreeClassifier(max_depth = depth)
    for train_fold, valid_fold in cv.split(df):
        f_train = df.loc[train_fold] 
        f_valid = df.loc[valid_fold] 

        model = tree_model.fit(X = f_train.drop(['Transported'], axis=1), 
                               y = f_train['Transported']) 
        valid_acc = model.score(X = f_valid.drop(['Transported'], axis=1), 
                                y = f_valid['Transported'])
        fold_accuracy.append(valid_acc)

    avg = sum(fold_accuracy)/len(fold_accuracy)
    accuracies.append(avg)
    
result_df = pd.DataFrame({"Max Depth": depth_range, "Average Accuracy": accuracies})
result_df = result_df[["Max Depth", "Average Accuracy"]]
print(result_df.to_string(index=False))

 Max Depth  Average Accuracy
         1          0.725047
         2          0.739164
         3          0.746079
         4          0.767397
         5          0.778773
         6          0.779062
         7          0.785399
         8          0.786552
         9          0.785253
        10          0.778773


Лучший результат при глубине дерева = 8

Обучим модель

In [21]:
model = DecisionTreeClassifier(max_depth=8).fit(X = df.drop(['Transported'], axis=1), y = df['Transported'])

In [22]:
model.score(X = df.drop(['Transported'], axis=1), y = df['Transported'])

0.8215468817514043