In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

In [None]:
link = "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
df_titanic = pd.read_csv(link)

In [None]:
df_titanic['Survived'] = df_titanic['Survived'].apply(lambda x: 'did not survive' if x == 0 else 'survived')

A partir de ce dataset :

- Tu vas effectuer une classification supervisée sur la colonne "survived", en utilisant le classifieur decision tree. Tu dois faire apparaitre clairement l'accuracy score du jeu de test.
- Avec ce même classifieur, tu vas lancer une GridSearch avec les valeurs :
   - tous les entiers de 1 à 50 du paramètre max_depth
   - tous les entiers entre 1 et 15 du paramètre min_samples_leaf
   - (2, 5, 7, 10, 15, 30) du paramètre min_samples_split

- Avec cette recherche via GridSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?
- Avec ce même classifieur, tu vas lancer un RandomSearch sur les mêmes valeurs des paramètres en limitant à 200 itérations.
- Avec cette recherche via RandomSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?

In [None]:
df_titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,did not survive,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,survived,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,survived,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,survived,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,did not survive,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [None]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Survived                 887 non-null    object 
 1   Pclass                   887 non-null    int64  
 2   Name                     887 non-null    object 
 3   Sex                      887 non-null    object 
 4   Age                      887 non-null    float64
 5   Siblings/Spouses Aboard  887 non-null    int64  
 6   Parents/Children Aboard  887 non-null    int64  
 7   Fare                     887 non-null    float64
dtypes: float64(2), int64(3), object(3)
memory usage: 55.6+ KB


In [None]:
# Column 'Sex' to numeric : male = 0 , female = 1
df_titanic['Sex'] = df_titanic['Sex'].factorize()[0]

Tu vas effectuer une classification supervisée sur la colonne "survived", en utilisant le classifieur decision tree. Tu dois faire apparaitre clairement l'accuracy score du jeu de test.

In [None]:
df_titanic.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'Siblings/Spouses Aboard',
       'Parents/Children Aboard', 'Fare'],
      dtype='object')

In [None]:
# Select features (X) with only numeric values, and without "Survived" column
# Select "Survived" column as target (y)

X = df_titanic[["Fare", "Age", "Parents/Children Aboard", "Siblings/Spouses Aboard", "Pclass"]]
y = df_titanic['Survived']

In [None]:
# Split your data :

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.75)
print("The length of the initial dataset is :", len(X))
print("The length of the train dataset is   :", len(X_train))
print("The length of the test dataset is    :", len(X_test))

The length of the initial dataset is : 887
The length of the train dataset is   : 665
The length of the test dataset is    : 222


In [None]:
# Fit the DT :

modelDT = DecisionTreeClassifier().fit(X_train, y_train)

In [None]:
# Print the accuracy score on the train set and on the test set.

print("\nScore of DT Train dataset :", modelDT.score(X_train, y_train))
print("Score of DT Test dataset :", modelDT.score(X_test, y_test))


Score of DT Train dataset : 0.9729323308270676
Score of DT Test dataset : 0.6441441441441441


Avec ce même classifieur, tu vas lancer une GridSearch avec les valeurs :
   - tous les entiers de 1 à 50 du paramètre max_depth
   - tous les entiers entre 1 et 15 du paramètre min_samples_leaf
   - (2, 5, 7, 10, 15, 30) du paramètre min_samples_split

In [None]:
dico = {'max_depth' : range(1, 51),
        'min_samples_leaf' : range(1, 16),
        'min_samples_split' : [2, 5, 7, 10, 15, 30]}
grid = GridSearchCV(DecisionTreeClassifier(), dico)
grid.fit(X, y)

GridSearchCV(estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': range(1, 51),
                         'min_samples_leaf': range(1, 16),
                         'min_samples_split': [2, 5, 7, 10, 15, 30]})

Avec cette recherche via GridSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?

In [None]:
# Meilleurs scores obtenus, et paramètres correspondants :

print("best score:", grid.best_score_)
print("best parameters:", grid.best_params_)

best score: 0.7092617279248398
best parameters: {'max_depth': 5, 'min_samples_leaf': 11, 'min_samples_split': 2}


In [None]:
# Affichage des détails :

grid.cv_results_

{'mean_fit_time': array([0.00362105, 0.00352426, 0.00349011, ..., 0.00437255, 0.0043262 ,
        0.00374675]),
 'mean_score_time': array([0.00255342, 0.00250401, 0.00235643, ..., 0.00267429, 0.00232582,
        0.00243249]),
 'mean_test_score': array([0.66641909, 0.66641909, 0.66641909, ..., 0.65963943, 0.65963943,
        0.65963943]),
 'param_max_depth': masked_array(data=[1, 1, 1, ..., 50, 50, 50],
              mask=[False, False, False, ..., False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_leaf': masked_array(data=[1, 1, 1, ..., 15, 15, 15],
              mask=[False, False, False, ..., False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 5, 7, ..., 10, 15, 30],
              mask=[False, False, False, ..., False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_leaf': 1, 'min_samples_split': 2},
  {'max_de

In [None]:
# Memo :

"""mean_fit_time : le temps en secondes pour l'entrainement du modèle pour chacun des paramètres.
mean_score_time : le temps en secondes pour le score pour chacun des paramètres.
mean_test_score : le score pour chaque paramètre. Nous retrouvons notre meilleur score.
params : les valeurs du paramètre testé.
split0_test_score : valeurs détaillées du train test split"""

Avec ce même classifieur, tu vas lancer un RandomSearch sur les mêmes valeurs des paramètres en limitant à 200 itérations.

In [None]:
dico = {'max_depth' : range(1, 51),
        'min_samples_leaf' : range(1, 16),
        'min_samples_split' : [2, 5, 7, 10, 15, 30]}

rando = RandomizedSearchCV(DecisionTreeClassifier(), dico, n_iter = 200)
rando.fit(X,y)


RandomizedSearchCV(estimator=DecisionTreeClassifier(), n_iter=200,
                   param_distributions={'max_depth': range(1, 51),
                                        'min_samples_leaf': range(1, 16),
                                        'min_samples_split': [2, 5, 7, 10, 15,
                                                              30]})

Avec cette recherche via RandomSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?

In [None]:
# Meilleurs scores obtenus, et paramètres correspondants :

print("best score:", rando.best_score_)
print("best parameters:", rando.best_params_)

best score: 0.7036437503967499
best parameters: {'min_samples_split': 2, 'min_samples_leaf': 6, 'max_depth': 5}


In [None]:
# Affichage des détails :

rando.cv_results_

{'mean_fit_time': array([0.00399919, 0.003829  , 0.00352402, 0.00398531, 0.00387826,
        0.00473413, 0.00419736, 0.00415854, 0.00565319, 0.00403042,
        0.00370717, 0.00423236, 0.00422359, 0.00388851, 0.00388632,
        0.00488524, 0.00411859, 0.00357032, 0.0039567 , 0.00411787,
        0.00366011, 0.00386157, 0.00452452, 0.0038187 , 0.00433846,
        0.00388503, 0.00380659, 0.00473332, 0.00400538, 0.00388932,
        0.00492911, 0.0037241 , 0.00395374, 0.0037744 , 0.00376158,
        0.00504031, 0.00395875, 0.00494223, 0.00390954, 0.0033154 ,
        0.00408087, 0.00402465, 0.00378475, 0.00355182, 0.00403943,
        0.00407948, 0.00447583, 0.00395665, 0.00441265, 0.00472178,
        0.00363669, 0.00486145, 0.00406766, 0.00377393, 0.00359654,
        0.00430765, 0.00387306, 0.00384007, 0.00429306, 0.00403595,
        0.00392146, 0.00375028, 0.0038929 , 0.00391426, 0.0038682 ,
        0.004142  , 0.00533767, 0.00389791, 0.00459061, 0.00404229,
        0.00392013, 0.00433846,