<a href="https://colab.research.google.com/github/yahia-kplr/Statistics-With-Python_fr/blob/main/Exercices/2_Entropie_Gain_dInformation_et_Arbre_de_decision.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Qu'est-ce qu'un arbre de décision ?**
- Un arbre de décision est une carte des résultats possibles d'une série de choix liés.
- Il permet à un individu ou à une organisation de peser les actions possibles les unes contre les autres en fonction de leurs coûts, probabilités et avantages.

- Comme son nom l'indique, il utilise un modèle de décisions en forme d'arbre.
- Ils peuvent être utilisés soit pour animer une discussion informelle, soit pour élaborer un algorithme qui prédit mathématiquement le meilleur choix.

- Un arbre de décision commence généralement par un seul nœud, qui se ramifie en résultats possibles.
- Chacun de ces résultats conduit à des nœuds supplémentaires, qui se ramifient en d'autres possibilités.
- Cela lui donne une forme arborescente.


![image.png](https://user-images.githubusercontent.com/123752166/222189308-b7ea9713-b0f3-4e7f-b19c-0ed86ab5c698.png)


**Importer des données**


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
play_data = pd.read_csv('https://gist.githubusercontent.com/bigsnarfdude/515849391ad37fe593997fe0db98afaa/raw/f663366d17b7d05de61a145bbce7b2b961b3b07f/weather.csv')

In [None]:
play_data

Unnamed: 0,outlook,temperature,humidity,windy,play
0,overcast,hot,high,False,yes
1,overcast,cool,normal,True,yes
2,overcast,mild,high,True,yes
3,overcast,hot,normal,False,yes
4,rainy,mild,high,False,yes
5,rainy,cool,normal,False,yes
6,rainy,cool,normal,True,no
7,rainy,mild,normal,False,yes
8,rainy,mild,high,True,no
9,sunny,hot,high,False,no


**Un arbre de décision pour les données ci-dessus**


![image.png](https://user-images.githubusercontent.com/123752166/222189681-ec77e040-8bf7-4365-af1e-86feb776fcd0.png)


## **2. Algorithme d'arbre de décision**



L'algorithme peut se résumer ainsi :

1. À chaque étape (nœud), choisissez la meilleure caractéristique comme condition de test.

2. Divisez maintenant le nœud en résultats possibles (nœuds internes).

3. Répétez les étapes ci-dessus jusqu'à ce que toutes les conditions de test aient été épuisées dans les nœuds terminaux.

- Lorsque vous commencez à implémenter l'algorithme, la première question est : "Comment choisir la condition de test de départ ?"

- La réponse à cette question réside dans les valeurs de **'Entropy'** et **'Information Gain**'.
- Voyons quels sont-ils et comment impactent-ils la création de notre arbre de décision.

- **Entropie** : l'entropie dans l'arbre de décision signifie l'homogénéité. Si les données sont complètement homogènes, l'entropie est de 0, sinon si les données sont divisées (50-50%), l'entropie est de 1.

- **Gain d'information** : le gain d'information est la diminution/augmentation de la valeur d'entropie lorsque le nœud est divisé.

- Un attribut doit avoir le gain d'information le plus élevé pour être sélectionné pour le fractionnement.
- Sur la base des valeurs calculées d'entropie et de gain d'information, nous choisissons le meilleur attribut à une étape particulière.
- **Entropie de jeu**
- Entropie(jouer) = – p(Oui) . log2p(Oui) – p(Non) . log2p(Non)


In [None]:
play_data.play.value_counts()

yes    9
no     5
Name: play, dtype: int64

### #FAIRE
- Essayez de calculer l'Entropie de jeu


In [None]:
#Fill_here

** Gain d'informations **
- Le gain d'information est basé sur la diminution de l'entropie après qu'un jeu de données soit divisé sur un attribut.
- La construction d'un arbre de décision consiste à trouver l'attribut qui renvoie le gain d'information le plus élevé (c'est-à-dire les branches les plus homogènes).
- Gain(S, A) = Entropie(S) – ∑ [ p(S|A) . Entropie(S|A) ]
- Nous avons l'intention de choisir l'attribut, en divisant par quel gain d'information sera le plus
- L'étape suivante consiste à calculer le gain d'informations pour tous les attributs

**Gain d'information sur le fractionnement par Outlook**
- Gain(Play, Outlook) = Entropy(Play) – ∑ [ p(Play|Outlook) . Entropie(Conférence|Perspectives) ]
- Gain(Play, Outlook) = Entropy(Play) – [ p(Play|Outlook=Sunny) . Entropie(Lecture|Outlook=Ensoleillé) ] – [ p(Lecture|Outlook=Couvert) . Entropie(Lecture|Perspectives=Couvert) ] – [ p(Lecture|Perspectives=Pluie) . Entropie(Lecture|Perspectives=Pluie) ]


In [None]:
play_data[play_data.outlook == 'sunny']

Unnamed: 0,outlook,temperature,humidity,windy,play
9,sunny,hot,high,False,no
10,sunny,hot,high,True,no
11,sunny,mild,high,False,no
12,sunny,cool,normal,False,yes
13,sunny,mild,normal,True,yes


### #FAIRE
- Essayez de calculer l'Entropie de jeu si Outlook=Sunny


In [None]:
# Entropy(Play|Outlook=Sunny)
#Fill_here

In [None]:
play_data[play_data.outlook == 'overcast']

Unnamed: 0,outlook,temperature,humidity,windy,play
0,overcast,hot,high,False,yes
1,overcast,cool,normal,True,yes
2,overcast,mild,high,True,yes
3,overcast,hot,normal,False,yes


In [None]:
# Entropy(Play|Outlook=overcast)
# Since, it's a homogenous data entropy will be 0

In [None]:
play_data[play_data.outlook == 'rainy']

Unnamed: 0,outlook,temperature,humidity,windy,play
4,rainy,mild,high,False,yes
5,rainy,cool,normal,False,yes
6,rainy,cool,normal,True,no
7,rainy,mild,normal,False,yes
8,rainy,mild,high,True,no


### #FAIRE
- Essayez de calculer l'Entropie de jeu si Outlook=Rainy


In [None]:
# Entropy(Play|Outlook=rainy)
#fill_here

**Gain sur la répartition par attribut perspectives**


### #FAIRE
- Essayez de calculer le gain sur le fractionnement par attribut outlook :
- Gain(Play, Outlook) = Entropy(Play) – [ p(Play|Outlook=Sunny) . Entropy(Play|Outlook=Ensoleillé)]–[p(Play|Outlook=Couvert).Entropy(Play|Outlook=Couvert) ] – [ p(Play|Outlook=Rain) . Entropie(Conférence|Perspectives=Pluie) ]


In [None]:
#Fill_here 

0.2467498197744391

**Autres gains**
- Gain (jeu, température) - 0,029
- Gain (jeu, humidité) - 0,151
- Gain (jeu, vent) - 0,048

Conclusion - Outlook est gagnant et devient ainsi la racine de l'arbre

![image.png](https://user-images.githubusercontent.com/123752166/222190048-e064451b-34e4-4392-a384-fc890e9449ef.png)


**Il est temps de trouver le prochain critère de fractionnement**


In [None]:
play_data[play_data.outlook == 'overcast']

Unnamed: 0,outlook,temperature,humidity,windy,play
0,overcast,hot,high,False,yes
1,overcast,cool,normal,True,yes
2,overcast,mild,high,True,yes
3,overcast,hot,normal,False,yes


Conclusion - Si les perspectives sont sombres, le jeu est vrai

** Trouvons la prochaine fonctionnalité de fractionnement **


In [None]:
play_data[play_data.outlook == 'sunny']

Unnamed: 0,outlook,temperature,humidity,windy,play
9,sunny,hot,high,False,no
10,sunny,hot,high,True,no
11,sunny,mild,high,False,no
12,sunny,cool,normal,False,yes
13,sunny,mild,normal,True,yes


### #FAIRE
- Essayez de calculer l'entropie de jeu si outlook=sunny :


In [None]:
# Entropy(Play_Sunny|)
#fill_here

**Gain d'information pour l'humidité**


### #FAIRE
- Essayez de calculer le gain d'information pour l'humidité :


In [None]:
#fill_here

0.9709505944546686

**Gain d'information pour venteux**
- Faux -> 3 -> [1+ 2-]
- Vrai -> 2 -> [1+ 1-]


### #FAIRE
- Essayer de calculer l'entropie du vent est fausse


In [None]:
#fill_here

### #FAIRE
- Essayez de calculer le gain d'information pour le vent :


In [None]:
#fill_here

0.01997309402197489

**Gain d'information pour la température**
- chaud -> 2 -> [2- 0+]
- doux -> 2 -> [1+ 1-]
- frais -> 1 -> [1+ 0-]


### #FAIRE
- Essayez de calculer le gain d'information pour la température :


In [None]:
#fill_here

0.5709505944546686

Conclusion : L'humidité est le meilleur choix sur une branche ensoleillée
![image.png](https://user-images.githubusercontent.com/123752166/222190166-a2728fbb-38c2-4ab5-9c29-fb6a3ec5b305.png)


In [None]:
play_data[(play_data.outlook == 'sunny') & (play_data.humidity == 'high')]

Unnamed: 0,outlook,temperature,humidity,windy,play
9,sunny,hot,high,False,no
10,sunny,hot,high,True,no
11,sunny,mild,high,False,no


In [None]:
play_data[(play_data.outlook == 'sunny') & (play_data.humidity == 'normal')]

Unnamed: 0,outlook,temperature,humidity,windy,play
12,sunny,cool,normal,False,yes
13,sunny,mild,normal,True,yes


**Fendre la branche pluvieuse**


In [None]:
play_data[play_data.outlook == 'rainy']

Unnamed: 0,outlook,temperature,humidity,windy,play
4,rainy,mild,high,False,yes
5,rainy,cool,normal,False,yes
6,rainy,cool,normal,True,no
7,rainy,mild,normal,False,yes
8,rainy,mild,high,True,no


### #FAIRE
- Essayez de calculer l'entropie de jeu si les perspectives sont pluvieuses :


In [None]:
# Entropy (Play_Rainy|)
# fill_here

** Gain d'informations pour la température **


- doux -> 3 [2+ 1-]
- frais -> 2 [1+ 1-]


### #FAIRE
- Essayez de calculer le gain d'information pour la température :


In [None]:
#fill_here

0.020150594454668602

** Gain d'informations pour Windy **


### #FAIRE
- Essayez de calculer le gain d'information pour le vent :


In [None]:
#fill_here

0.9709505944546686

**Gain d'information pour l'humidité**
- Élevé -> 2 -> [1+ 1-]
- Normal -> 3 -> [2+ 1-]


### #FAIRE
- Essayez de calculer l'entropie pour l'humidité/la pluie :


In [None]:
#Entropy_Play_Outlook_Rainy_Normal
#fill_here

### #FAIRE
- Essayez de calculer le gain d'information pour l'humidité :


In [None]:
#fill_here

0.01997309402197489

**Arbre final**

![image.png](https://user-images.githubusercontent.com/123752166/222190350-74511c3d-0ee8-46c3-b667-ccf475467654.png)
