Un modèle d'arbre de décision peut être utilisé pour représenter visuellement et explicitement les décisions et la prise de décision.
Un arbre de décision est un ensemble de décisions hiérarchiques qui nous donnent finalement un résultat final.
Le résultat peut être une prédiction de régression ou une classification.

Gini Impureté
Comme nous l'avons dit précédemment, la meilleure répartition est choisie à l'aide d'une fonction de coût :

Il existe de nombreuses fonctions de coût que nous pouvons utiliser, mais la plus courante est l'impureté de Gini :

L'impureté Gini quantifie la pureté du nœud/feuille. Un score de Gini supérieur à zéro implique que les échantillons contenus dans ce nœud appartiennent à des classes différentes.

In [1]:
#import graphviz
#dot_data=tree.export_graphviz(classifier,out_file=None)
#graph=graphviz.Source(dot_data)
#graph.render("data")
#graph

In [2]:
#dtree=tree.DecisionTreeClassifier(criterion="gini",splitter='random',max_leaf_nodes=10,min_samples_leaf=5,max_depth=5)

Avantages de l'arbre de décision
Facile à comprendre et à interpréter. À chaque nœud, nous pouvons voir exactement quelle décision notre modèle prend.

Peut gérer des données numériques et catégorielles.

Ne nécessite pas beaucoup de prétraitement.

Inconvénients de l'arbre de décision
Les calculs peuvent devenir difficiles lorsqu'il existe de nombreuses étiquettes et fonctionnalités cibles.

Les apprenants en arbre de décision peuvent créer des arbres trop complexes qui ne généralisent pas bien les données, ce qui signifie qu'ils souffrent de surajustement.

Un arbre est composé de nœuds internes, de branches et de nœuds feuilles.

Pour déterminer quelle est la répartition optimale, nous devons minimiser la fonction de coût.

La fonction de coût est Gini Impurity qui quantifie la pureté du nœud/feuille.

L'élagage est utilisé pour éviter le surajustement en réduisant le nombre de nœuds feuilles.

L'arbre de décision est robuste aux valeurs aberrantes.

Ensachage
Le bagging est utilisé pour combiner plusieurs arbres de décision pour déterminer le résultat final plutôt que de s'appuyer sur des arbres de décision individuels.

In [3]:
from sklearn import datasets
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier #Importing Random Forest Classifier
from sklearn import metrics  # Importing metrics to test accuracy

Random Forest

Avantages de la forêt aléatoire
Il est très facile de mesurer l'importance de chaque caractéristique sur la prédiction.

Comme nous l'avons déjà dit, les arbres de décision ont tendance à sur-ajuster et la forêt aléatoire résout ce problème car nous utilisons divers sous-ensembles de fonctionnalités et différents arbres de décision.

Inconvénients de la forêt aléatoire
Le plus gros inconvénient de l'algorithme Random Forest est qu'il prend du temps, car il faut :

Construire un grand nombre d'arbres de décision.

Parcourez tous les arbres tout en prédisant une nouvelle valeur.

Random Forest est un algorithme de Machine Learning supervisé appliqué à la classification.

Random Forest est essentiellement une collection d'arbres de décision.

La forêt aléatoire est meilleure que l'arbre de décision en termes de précision.

Random Forest empêche le surajustement.

In [4]:
df=pd.read_csv('C:/Users/DELL/Desktop/GOMYCODE/titanic_passengers.csv', sep=';',)

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,343,No,2,"Collander, Mr. Erik Gustaf",male,28.0,0,0,248740,13.0,,S
1,76,No,3,"Moen, Mr. Sigurd Hansen",male,25.0,0,0,348123,7.65,F G73,S
2,641,No,3,"Jensen, Mr. Hans Peder",male,20.0,0,0,350050,7.8542,,S
3,568,No,3,"Palsson, Mrs. Nils (Alma Cornelia Berglund)",female,29.0,0,4,349909,21.075,,S
4,672,No,1,"Davidson, Mr. Thornton",male,31.0,1,0,F.C. 12750,52.0,B71,S


In [6]:
df.dtypes.value_counts()

object     6
int64      4
float64    2
dtype: int64

In [7]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [8]:
df['Embarked'].fillna('S',inplace=True)
df['Age'].fillna(df.Age.mean(),inplace=True)
df['Cabin'].fillna('G6',inplace=True)

# Encoding of the Survived variable

In [9]:
code={"Survived":{"Yes":1,"No":0}}
df.replace(code,inplace=True)

In [10]:
B={"Sex":{"male":1,"female":0}}
df.replace(B,inplace=True)

In [11]:
#1. Lisez votre ensemble de données Titanic comme d'habitude :
#un ensemble d'entraînement et un ensemble de test Appliquer l'arbre de décision. 

# Train Test Split and Application of Decision Tree

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
df1=df.drop(['PassengerId','Survived','Name','SibSp','Ticket','Cabin','Embarked'],axis=1)
df2=df.Survived

In [14]:
X_train,X_test,Y_train,Y_test=train_test_split(df1,df2,test_size=0.2)
print('Train set:', X_train.shape)
print('Test set:', X_test.shape)

Train set: (712, 5)
Test set: (179, 5)


In [15]:
from sklearn import tree
clf = tree.DecisionTreeClassifier(criterion="entropy",max_depth=4)

In [16]:
clf.fit(X_train,Y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=4)

In [17]:
predictions=clf.predict(X_train)

In [18]:
predictions[0:19]

array([0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1],
      dtype=int64)

In [19]:
prob=clf.predict_proba(X_test)

In [20]:
clf.score(X_test,Y_test)

0.8044692737430168

In [21]:
#2. Tracez votre arbre de décision et essayez de lire les branches de l'arbre et de conclure une prédiction manuellement.

In [22]:
from sklearn.tree import export_graphviz
export_graphviz(clf.fit(X_train,Y_train))

'digraph Tree {\nnode [shape=box] ;\n0 [label="X[1] <= 0.5\\nentropy = 0.971\\nsamples = 712\\nvalue = [427, 285]"] ;\n1 [label="X[0] <= 2.5\\nentropy = 0.794\\nsamples = 259\\nvalue = [62, 197]"] ;\n0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;\n2 [label="X[4] <= 29.356\\nentropy = 0.313\\nsamples = 142\\nvalue = [8, 134]"] ;\n1 -> 2 ;\n3 [label="X[4] <= 28.231\\nentropy = 0.531\\nsamples = 58\\nvalue = [7, 51]"] ;\n2 -> 3 ;\n4 [label="entropy = 0.485\\nsamples = 57\\nvalue = [6, 51]"] ;\n3 -> 4 ;\n5 [label="entropy = 0.0\\nsamples = 1\\nvalue = [1, 0]"] ;\n3 -> 5 ;\n6 [label="X[4] <= 143.592\\nentropy = 0.093\\nsamples = 84\\nvalue = [1, 83]"] ;\n2 -> 6 ;\n7 [label="entropy = 0.0\\nsamples = 70\\nvalue = [0, 70]"] ;\n6 -> 7 ;\n8 [label="entropy = 0.371\\nsamples = 14\\nvalue = [1, 13]"] ;\n6 -> 8 ;\n9 [label="X[4] <= 23.35\\nentropy = 0.996\\nsamples = 117\\nvalue = [54, 63]"] ;\n1 -> 9 ;\n10 [label="X[2] <= 38.0\\nentropy = 0.944\\nsamples = 94\\nvalue = [34, 60]"] ;

In [26]:
predictions[0:19]

array([0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1],
      dtype=int64)

In [27]:
Y_test[0:19]

249    0
326    1
277    1
807    0
3      0
554    0
667    0
68     0
235    1
677    1
495    1
433    0
647    0
337    0
645    0
33     0
218    1
184    1
833    0
Name: Survived, dtype: int64

In [28]:
#3. Modifier les paramètres de l'arbre de décision (modifier au moins deux paramètres), 

In [29]:
clf=tree.DecisionTreeClassifier(criterion="gini",splitter='random',max_leaf_nodes=10,min_samples_leaf=5,max_depth=5)

In [30]:
clf

DecisionTreeClassifier(max_depth=5, max_leaf_nodes=10, min_samples_leaf=5,
                       splitter='random')

In [31]:
#4. Calculez la nouvelle précision et comparez-la avec les résultats précédents. 

In [32]:
clf.fit(X_train,Y_train)

DecisionTreeClassifier(max_depth=5, max_leaf_nodes=10, min_samples_leaf=5,
                       splitter='random')

In [33]:
pred=clf.predict(X_train)

In [34]:
pred[0:19]

array([0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1],
      dtype=int64)

In [35]:
prob=clf.predict_proba(X_test)

In [36]:
clf.score(X_test,Y_test)

0.770949720670391

# Comparison

We notice that the new precision is the same as the previous one. The difference lies in the level of the score or learning rate which favors the first model much more

In [37]:
#5. Utilisez une forêt aléatoire puis modifiez le nombre d'estimateurs

In [38]:
from sklearn.ensemble import RandomForestClassifier
classifier_rf = RandomForestClassifier(random_state=42, n_jobs=-1, max_depth=5,
                                       n_estimators=100, oob_score=True)

In [39]:
classifier_rf.fit(X_train,Y_train)

RandomForestClassifier(max_depth=5, n_jobs=-1, oob_score=True, random_state=42)

In [40]:
pre=classifier_rf.predict(X_test)

In [41]:
prob=classifier_rf.predict_proba(X_test)

In [42]:
classifier_rf.score(X_test,Y_test)

0.7988826815642458

# Comparison

In [43]:
pre[0:19]

array([0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0],
      dtype=int64)

there is a big difference between the result given by the RandomForest and that of the DecisionTree

In [44]:
pred[0:19]

array([0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1],
      dtype=int64)

In [45]:
predictions[0:19]

array([0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1],
      dtype=int64)