<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Indice-de-Gini" data-toc-modified-id="Indice-de-Gini-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Indice de Gini</a></span><ul class="toc-item"><li><span><a href="#Compréhension" data-toc-modified-id="Compréhension-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Compréhension</a></span></li><li><span><a href="#Calcul" data-toc-modified-id="Calcul-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Calcul</a></span></li><li><span><a href="#Cas-50-50" data-toc-modified-id="Cas-50-50-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Cas 50-50</a></span></li><li><span><a href="#Fonction" data-toc-modified-id="Fonction-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Fonction</a></span></li><li><span><a href="#Cas-général" data-toc-modified-id="Cas-général-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Cas général</a></span></li><li><span><a href="#Cas-pur" data-toc-modified-id="Cas-pur-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>Cas pur</a></span></li><li><span><a href="#Cas-désordre" data-toc-modified-id="Cas-désordre-1.7"><span class="toc-item-num">1.7&nbsp;&nbsp;</span>Cas désordre</a></span></li><li><span><a href="#Usage-dans-un-Arbre-de-Décision" data-toc-modified-id="Usage-dans-un-Arbre-de-Décision-1.8"><span class="toc-item-num">1.8&nbsp;&nbsp;</span>Usage dans un Arbre de Décision</a></span></li><li><span><a href="#Gini-Pondéré" data-toc-modified-id="Gini-Pondéré-1.9"><span class="toc-item-num">1.9&nbsp;&nbsp;</span>Gini Pondéré</a></span></li></ul></li><li><span><a href="#Entropie" data-toc-modified-id="Entropie-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Entropie</a></span><ul class="toc-item"><li><span><a href="#Calcul" data-toc-modified-id="Calcul-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Calcul</a></span></li><li><span><a href="#Entropie-Pondérée" data-toc-modified-id="Entropie-Pondérée-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Entropie Pondérée</a></span></li><li><span><a href="#Gain" data-toc-modified-id="Gain-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Gain</a></span></li></ul></li><li><span><a href="#Kullback-Leibler" data-toc-modified-id="Kullback-Leibler-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Kullback Leibler</a></span><ul class="toc-item"><li><span><a href="#Exemple:" data-toc-modified-id="Exemple:-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Exemple:</a></span></li></ul></li></ul></div>

# Indice de Gini et Entropie

In [2]:
import numpy as np

## Indice de Gini

### Compréhension

Initialement, l'ndice de Gini mesure le niveau d'inégalité de la répartition d'une variable dans une population, en l'occurence les salaire. 

Dans le cadre des arbres de décision, il est utilisé pour calculer la pureté ou l'*impureté* d'un noeud de l'arbre.

<font size=5>$$gini = 1- \sum_{i=1}^{m}(p_i)^2$$</font>

Cet indice est aussi présenté comme une mesure du désordre. 

L'indice de Gini varie de 0 à 1:
* 0 (signifie que le noeud est *pur*), lorsque l'ensemble des individus appartiennent à une même classe. 
* 1 (qui ne peut être atteint), lorsque tous les individus sont distribués de façon égale parmi l'ensemble des classes.

### Calcul

Comment calculer l'indice de Gini?

L'indice de Gini peut être calculé en sommant la probabilité pour chaque élément d'appartenir à une classe, multipliée par la probabilité qu'il n'appartienne pas à cette classe.

Soit 2 classes, l'une de chien et l'autre de chat.

On part donc de la fréquence relative des individu de chaque classe au sein d'un noeud que l'on va multiplier par la probabilité inverse $p_i*(1-p_i)$.

$$Gini(X)=\sum _{{i=1}}^{{m}}p_{i}(1-p_{i})=\sum _{{i=1}}^{{m}}(p_{i}-{p_{i}}^{2})=\sum _{{i=1}}^{m}p_{i}-\sum _{{i=1}}^{{m}}{p_{i}}^{2}=1-\sum _{{i=1}}^{{m}}{p_{i}}^{{2}}$$

### Cas 50-50

In [11]:
# 2 classes:
dog = 0
cat = 1
# La composition du noeud
node = np.array([0,0,0,0,1,1,1,1])
# fréquence de chaque classe à l'intérieur du noeud:
# 50% de chien et 50% de chat
_,p = np.unique(node,return_counts=True)
print(f"Count of unique individual for each class: {p}") # retourne le count pas la fréquence
individuals, = node.shape
print(f"Number of indistinct individuals in the node: {individuals}")
# frequence = les individus d'une classe / l'ensemble des individus du noeud 
frequency = p/individuals
print(f"Frequency for each classe: {frequency}")

Count of unique individual for each class: [4 4]
Number of indistinct individuals in the node: 8
Frequency for each classe: [0.5 0.5]


In [12]:
gini = 1-((frequency**2).sum())
print(gini)

0.5


### Fonction

In [19]:
def freq(_node):
    _,p = np.unique(_node,return_counts=True)
    print(f"Node: {_node}")
    print(f"\tCount: {p}") # retourne le count pas la fréquence
    freq_ = p/_node.shape[0]
    print(f"\tFreq: {freq_}")
    return freq_

def gini(node):
    '''node -- list'''
    freq_ = freq(node)
    gini = 1-((freq_**2).sum())
    print(f"Gini Indice: {gini}\n")
    return gini

### Cas général

In [20]:
# on fait le test avec un noeud un peu plus pur
node = np.array([0,0,0,0,1,0,0,1])
gini(node)

Node: [0 0 0 0 1 0 0 1]
	Count: [6 2]
	Freq: [0.75 0.25]
Gini Indice: 0.375



0.375

### Cas pur

In [21]:
# totalement pur on attend un indice de gini qui vaut zéro
node = np.array([0,0,0,0,0,0,0,0])
gini(node)

Node: [0 0 0 0 0 0 0 0]
	Count: [8]
	Freq: [1.]
Gini Indice: 0.0



0.0

### Cas désordre

In [30]:
# Cas où chaque individu représente sa propre classe
# L'indice de Gini tend vers 1 sans jamais l'atteindre
node = np.arange(100)
gini(node)

Node: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
	Count: [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
	Freq: [0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.

0.99

### Usage dans un Arbre de Décision

In [31]:
# Dans un arbre de décision, on veut pouvoir savoir la pureté d'un split
# ou du moins trouver le split le plus pur
node = np.array([0,0,0,0,1,1,1,1])
left = np.array([0,0,0,1])
right = np.array([1,1,1,0])
# on calcule l'indice à gauche et à droite
gini_left = gini(left)
gini_right = gini(right)

Node: [0 0 0 1]
	Count: [3 1]
	Freq: [0.75 0.25]
Gini Indice: 0.375

Node: [1 1 1 0]
	Count: [1 3]
	Freq: [0.25 0.75]
Gini Indice: 0.375



In [87]:
# On pondère les valeurs au sein du node 
# par le nombre d'individu dans le split sur la population totale
gini_left_weighted = (left.shape[0]/node.shape[0])* gini_left
gini_right_weighted = (right.shape[0]/node.shape[0])* gini_right
print(f"Gini Left pondéré: {gini_left}\nGini Right pondéré: {gini_right}")
split_gini = gini_left_weighted+gini_right_weighted
print(f'Indice de Gini du Split:{split_gini}')

Gini Left pondéré: 0.375
Gini Right pondéré: 0.375
Indice de Gini du Split:0.375


### Gini Pondéré

<font size=5>$$Gw =(\frac{k}{l})( 1- \sum_{i=1}^{m}(p_i)^2)$$</font>
où: 
* $k$ = n éléments dans le node enfant
* $l$ = n éléments dans le node parent


In [88]:
# Pour déterminer chaque noeud, on fait tous les splits 
# et ne conserver que le split qui a l'indice le plus faible

def gini_split(left,right):
    population_size = left.shape[0]+right.shape[0]
    gini_left_weighted = (left.shape[0]/population_size)* gini_left
    gini_right_weighted = (right.shape[0]/population_size)* gini_right
    print(f"Gini Left pondéré: {gini_left}\nGini Right pondéré: {gini_right}")
    split_gini = gini_left_weighted+gini_right_weighted
    return split_gini                           

## Entropie

* Mesure du désordre
* Beaucoup utilisé en Deep Learning

### Calcul 

Elle est calculée comme suit:
<font size=5>$$entropy = - \sum_{i=1}^{m} p_i log(p_i)$$</font>

Le logarithme est parfois:
* le logarithme népérien $ln$
* $log(2)$

$entropy$ est parfois noté $H$

Le logarithme est lourd à calculer donc la fonction est plus gourmande que celle de gini 

In [37]:
def entropy(_p):
    _e = -(_p*np.log(_p)).sum()
    print(f"entropy({_p})\n\t Entropy:{_e}")
    return _e

In [38]:
node = np.array([0,0,0,0,1,1,1,1])
p = freq(node)
e_parent = entropy(p)

Node: [0 0 0 0 1 1 1 1]
	Count: [4 4]
	Freq: [0.5 0.5]
entropy([0.5 0.5])
	 Entropy:0.6931471805599453


* Au plus l'entropy est basse au moins il y a de désordre
* Une Entropie de zéro = aucun désordre
* Plus l'Entropie augmente plus il y a de désordre 
* Analogie du café et du lait

### Entropie Pondérée

In [39]:
def entropy_weighted(left_,right_):
    _population_size = left_.shape[0]+right_.shape[0]
    p_left = freq(left_)
    p_right = freq(right_)
    left_e = entropy(p_left)*(p_left.shape[0]/_population_size)
    right_e = entropy(p_right)*(p_right.shape[0]/_population_size)
    e = left_e+right_e
    print(f"entropy_weighted({left},{right})\n\
    \tEntropy Left:{left_e}\n\
    \tEntropy Right:{right_e}\n\
    \tChilds Entropy:{e}")
    return e

In [40]:
left = np.array([0,0,0,1])
right = np.array([1,1,1,0])
e_child = entropy_weighted(left,right)

Node: [0 0 0 1]
	Count: [3 1]
	Freq: [0.75 0.25]
Node: [1 1 1 0]
	Count: [1 3]
	Freq: [0.25 0.75]
entropy([0.75 0.25])
	 Entropy:0.5623351446188083
entropy([0.25 0.75])
	 Entropy:0.5623351446188083
entropy_weighted([0 0 0 1],[1 1 1 0])
    	Entropy Left:0.14058378615470207
    	Entropy Right:0.14058378615470207
    	Childs Entropy:0.28116757230940415


### Gain

Contrairement à l'indice de Gini où on mesure la pureté de l'information, avec l'Entropie on va mesurer le gain d'information.

Pour cela on va évaluer la différence d'information entre le noeud parent et celui de l'enfant.

L'objectif est de maximiser le gain d'information.

In [41]:
gain = e_parent-e_child
gain

0.41197960825054114

## Kullback Leibler

Calcule l'indice de divergence entre 2 distributions

e.g: Entre une image originale et une image traffiquée

<font size=5>
$$D_{kl}(p||q) = \sum_{i}p_i\log\frac{p_i}{q_i} $$
</font>

### Exemple:

* on observe le passage de véhicules dans une rue 
* on note la fréquence $p$ de véhicules observés selon leur classe
* on connait au préalable la distribution $q$ des véhicules dans le pays
* on cherche à connaître la divergence entre l'observation dans la rue et la probabilité attendue sachant la distribution de véhicule dans le pays


In [99]:
# classes = ['voiture','camion','moto']
p = np.array([0.4,0.4,0.2]) # probabilités observées
q = np.array([1/3,1/3,1/3]) # probabilités attendues
print(f"Dkl:{(p*(np.log(p/q))).sum()}")

Dkl:0.043692120681965735


* Plus la valeur est basse plus les éléments comparés sont proches
* Plus la valeur est grande plus il y a de divergence