06/11

# KNN

Rappel de notations: 

$x=(x_1,...,x_p)^T \in \mathcal{X}$ une observation<br>
$\mathcal{D}_n=\{(x_i,y_i),i=1,...,n\}$ ensemble d’apprentissage contenant les n exemples et leurs étiquettes

On veut approcher $f: \mathcal{X} \to \mathcal{Y}$, $\mathcal{X} \in \mathbb{R}^p$, $\mathcal{Y}=\{1,...,L\}$

Pour chaque nouveau point $x \in \mathbb{R}^p$ on détermine l’ensemble de ses k-plus proches voisins parmi tous les points d’apprentissage

On note la distance entre 2 points: $d: \mathbb{R}^p \times \mathbb{R}^p \to \mathbb{R}$

<i>Attention: un "point" $i$ est une <u>observation</u> $x^T=(x_i^{(1)},...,x_i^{(p)})$; ici on calcule donc des distances entre des vecteurs de dimension $p$</i>

On peut prendre la distance euclidienne: $d(u,v)=||u-v||^2=\Sigma_{i=1}^p(u_i-v_i)^2$

On a donc une matrice de distances avec en colonne l'échantillon de test (exposant $(t)$) et en ligne l'échantillon d'entraînement (exposant $(T)$)

In [1]:
import pandas as pd

In [2]:
def df_style(val):
              return 'font-weight: bold'

$x_1^{(t)}$ | $x_2^{(t)}$ | $...$ | $x_m^{(t)}$
------ | ----- | ----- | -----
$d(x_1^{(t)},x_1^{(T)})$ | $d(x_2^{(t)},x_1^{(T)})$ | $...$ | $d(x_m^{(t)},x_1^{(T)})$
$d(x_1^{(t)},x_2^{(T)})$ | $d(x_2^{(t)},x_1^{(T)})$ | $...$ | $...$
$...$ | $...$ | $...$ | $...$
$d(x_1^{(t)},x_n^{(T)})$ | $...$ | $...$ | $d(x_m^{(t)},x_n^{(T)})$

NB: pour cette matrice, l'échantillon d'apprentissage est de taille $n$, celui de test de taille $m$

On trie ensuite cette matrice sur les <b>colonnes</b> par ordre croissant pour trouver les points d'entraînement dont les distances avec le point testé sont les plus faibles

Pour chaque point testé, on garde les k plus petites distances et on regarde les classes associées à chacun des points sélectionnés (la fonction <i>argsort</i> permet de garder les indices au moment du tri). On définit le rang d'un voisin:

$r_k(x)=i^*$ si et seulement si $d(x_{i^*},x)=\underset{1 \le i \le n \\
i \neq r_{1},...,r_{k-1}}{\operatorname{min}}d(x_i,x)$

La règle la plus basique est de prendre la classe majoritaire parmi ces k voisins sélectionnés (schéma ci-dessous):

$$\widehat{f}_k(x)=\underset{y \in \mathcal{Y}}{\operatorname{argmax}}(\Sigma_{j=1}^k \mathbb{1}\{y_{r_j}=y\})$$

<img src="KNN_pic.png"></img>

Remarque: la fonction <i>fit</i> du KNNClassifier est juste une affectation des données d'entraînement à l'objet (le calcul des distances se fera dans le <i>predict</i>)

In [None]:
class KNNClassifier(BaseEstimator, ClassifierMixin):
    """ Homemade kNN classifier class """
    def __init__(self, n_neighbors=1):
        self.n_neighbors = n_neighbors
    
    def fit(self, X, y): # L'entraînement sert simplement à "enregistrer" les données d'entraînement,
                         # déjà classifiées
        self.X = X
        self.Y = y
        return self
    
    def predict(self, X):
        n = len(self.X) # taille de l'échantillon dans X_train
        m = len(X) # taille de l'échantillon dans X_test
        dist_mat = []
        for i in range(n): # On boucle sur tous les éléments de l'échantillon d'entraînement
            dist_vect = []
            for j in range(m): # On boucle sur tous les éléments de l'échantillon de test
                dist_vect.append(euclidean_distance(self.X[i], X[j]))
            dist_mat.append(dist_vect) # len(dist_vect) = m (nb de features; toutes les distances pour une observation)
            
        dist_mat = np.asarray(dist_mat) # dist_mat.shape = (n,m); T_test en colonne, X_train en ligne
        
        # dist_mat = metrics.pairwise.pairwise_distances(X, Y=self.X, metric='euclidean', n_jobs=1)
            
        idx_sort = np.argsort(dist_mat, kind='mergesort', axis=0)  # idx_sort.shape = (n,m); dist_mat triée selon les colonnes
        # mergesort donne une gestion stable des nombre égaux: 
        # en cas d'égalité, l'ordre des indices dans l'output est le même que l'ordre dans l'input
        
        idx_sort_knn = idx_sort[:self.n_neighbors,:] # Redimensionnement avec le nombre de plus proches voisins
        return getBestClassFromCount(idx_sort_knn, self.Y) 

Avantages:<br>
- intuitif
- aisément paramétrable
- nombre de classes quelconques

Inconvénients:<br>
- très couteux (distances à calculer) => pas adapté pour le big data

#### Variante

$$\widehat{f}_k(x)=\underset{y \in \mathcal{Y}}{\operatorname{argmax}}(\Sigma_{j=1}^k \omega_j \mathbb{1}\{y_{r_j}=y\})$$

où $$\omega_j = e^{-d_j^2/h}$$

Attention: cette variante ne change rien dans le sélection des k-ppv, c'est uniquement au moment de la sélection de la classe majoritaire qu'on affine la sélection

Cette variante donne plus de poids aux distances très petites. Plus $h$ est petit, plus les petites distances sont favorisées (fonction $exp$ plus pentue).

# TREES

Basé sur l'exemple de Google Developers: https://github.com/random-forests/tutorials

On cherche à approcher $f: \mathcal{X} \to \mathcal{Y}$ où $\mathcal{X} \subset \mathbb{R}^p$ et $\mathcal{Y}$ l'ensemble des étiquettes. $\mathcal{S}$ est l'ensemble d'apprentissage.

On veut parvenir à partitionner l'espace $\mathcal{X}$ au mieux. Au départ $\mathcal{X}$ est le noeud (racine).

L'algorithme principal permettant de construire un arbre est le suivant (récursif):

In [3]:
def build_tree(rows):
    gain, question = find_best_split(rows)
    if gain == 0:
        return Leaf(rows)
    true_rows, false_rows = partition(rows, question)
    true_branch = build_tree(true_rows)
    false_branch = build_tree(false_rows)
    return Decision_Node(question, true_branch, false_branch)

#### Algo d'optimisation

Pour chaque ensemble de données, on définit le bon séparateur:

In [7]:
def find_best_split(rows):
    best_gain = 0
    best_question = None
    current_gini = gini(rows)
    n_features = len(rows[0]) - 1

    for col in range(n_features): # Itération sur les variables explicatives

        values = set([row[col] for row in rows]) # Itération sur les observations d'une variable explicative

        for val in values: # Itération sur les observations uniques

            question = Question(col, val)

            true_rows, false_rows = partition(rows, question)

            if len(true_rows) == 0 or len(false_rows) == 0:
                continue

            gain = info_gain(true_rows, false_rows, current_gini)

            if gain >= best_gain:
                best_gain, best_question = gain, question

    return best_gain, best_question

Une <i>question</i> est donc une combinaison (variable explicative, valeur) à partir de laquelle on va regarder les variables à droite ($\ge$) et à gauche ($\le$)

#### Mesure de l'impureté: l'indice de Gini

Une méthode pour séparer les données est <i>l'indice de Gini</i>.

In [8]:
def gini(rows):
    counts = class_counts(rows) # Renvoie un dictionnaire d'occurences
    impurity = 1
    for lbl in counts:
        prob_of_lbl = counts[lbl] / float(len(rows))
        impurity -= prob_of_lbl**2
    return impurity

L'indice de Gini permet de mesurer l'impureté de la séparation. Pour une liste d'éléments, l'indice de Gini représente la proba de mal classer un élément si on le tire au hasard et qu'on le classe au hasard. Autrement dit, la mesure de Gini représente la disparité au sein d'un ensemble.

$H(S)=\Sigma_{\ell=1}^C p_{\ell}(S)(1-p_{\ell}(S))$ qu'on peut aussi écrire (plus facile à coder):<br> $H(S)=\Sigma_{\ell=1}^C p_{\ell}(S)-\Sigma_{\ell=1}^C p_{\ell}(S)*p_{\ell}(S)=1-\Sigma_{\ell=1}^C p_{\ell}(S)^2$

avec $p_{c}(S)=\frac{1}{n}\Sigma_{i=1}^n \mathbb{1}\{y_i=c\}$ la fréquence d'une étiquette dans un ensemble.

#### Fonction de perte

Pour mesurer la pertinence du split, on utilise <i>information gain</i> qui compare l'impureté d'un état de l'arbre actuel (<i>current_gini</i>) avec l'impureté calculée si on applique un séparateur. Cette deuxième mesure de l'impureté est en fait la fonction de perte qui pondère la mesure de gini sur l'importance de ses enfants.

In [1]:
def info_gain(left, right, current_gini):
    p = float(len(left)) / (len(left) + len(right))
    return current_gini - (p * gini(left) + (1 - p) * gini(right))

Parmi toutes les variables et leurs valeurs $(j, \tau)$, on cherche $(\widehat{j}, \widehat{\tau})$ qui minimisent:

$\mathcal{L}(t_{j,\tau},S)=\frac{n_d}{n}H(\mathcal{D}(S,j,\tau))+\frac{n_g}{n}H(\mathcal{G}(S,j,\tau))$

Le problème s'écrit donc:

$\underset{j \in \{1,...,p\} \\
\tau \in \mathbb{R}}{\operatorname{argmin}} \frac{n_d}{n}H(\mathcal{D}(S,j,\tau))+\frac{n_g}{n}H(\mathcal{G}(S,j,\tau))$

$\mathcal{D}(S,j,\tau)=\{(x,y), t_{j,\tau} \ge 0\}$ l'ensemble des éléments classés à droite => l'inégalité $t_{j,\tau} \ge 0$ représente le critère de classification (<i>séparateur linéaire</i>) gauche/droite. Les arbres utilisent donc plusieurs séparateurs linéaires pour construire des frontières de décision non linéaires. Utiliser des séparateurs linéaires orthogonaux à chaque vecteur de base (<font color='orange'>??</font>).

$n_d=\frac{|i \in [\![ 1,n ]\!]: x_i \in D(j,\tau) |}{\{i' \in [\![ 1,n ]\!]: x_{i'} \in G(j,\tau) \cup D(j,\tau)\}}=|\mathcal{D}(S,j,\tau)|$ est le nombre d'éléments qui ont été classés dans le noeud droit.

Attention: le problème global est la minimisation de la fonction de perte, ce qui revient à maximiser la différence d'impureté à chaque test de séparateur.

Le critère d'arrêt c'est lorsque qu'on ne peut pas diminuer la fonction de coût avec un séparateur. Alors, on dit qu'on est dans une feuille.

#### Prédiction

La fonction de prédiction prend en paramètre la nouvelle observation, ainsi que l'arbre construit précédemment:

In [None]:
def classify(row, node):
    if isinstance(node, Leaf):
        return node.predictions

    if node.question.match(row):
        return classify(row, node.true_branch)
    else:
        return classify(row, node.false_branch)

On parcourt l'arbre jusqu'à arriver à une feuille qui donne les probabilités de résultats associées:

In [3]:
class Leaf:
    def __init__(self, rows):
        self.predictions = class_counts(rows) # renvoie un dictionnaire des classes avec leurs occurences (= proba)

#### Variance

Les arbres de décision ont une variance très elevée car pour chaque observation $x_i$ les résultats $y_i$ sont très différents. Ainsi les écarts à la moyenne sont élevés:

$$Var_n(y) = \frac{1}{N}\Sigma_{i=1}^N(y_i - \overline{y})^2$$

Intuitivement, une variance élevée représente la sensibilité de la fonction prédictive aux données d'entraînement. Ce problème réside dans la hierarchisation de la méthode: une légère modification dans un noeud est répercutée chez les noeuds enfants.