## Application à un vrai jeu de données

Peut-on prédire si un client va acheter une assurance ou pas?

[dataset Caravan](https://islp.readthedocs.io/en/latest/datasets/Caravan.html)

[instructions d'installations](https://islp.readthedocs.io/en/latest/installation.html)

Les données contiennent 5 822 enregistrements de clients réels. Chaque enregistrement se compose de 86 variables, contenant des données sociodémographiques (variables 1 à 43) et la souscription ou la possession de certains produits (variables 44 à 86). Les données sociodémographiques sont dérivées des codes postaux. Tous les clients vivant dans des zones ayant le même code postal ont les mêmes attributs sociodémographiques. La variable 86 (Achat) indique si le client a souscrit une police d'assurance caravane. De plus amples informations sur les variables individuelles peuvent être obtenues sur [http://www.liacs.nl/~putten/library/cc2000/data.html](http://www.liacs.nl/~putten/library/cc2000/data.html)

### Séparation du jeu de données en données d'entraînement et données de test

![caravan_split.png](attachment:90ac4748-0118-4b2d-8d85-335fb22a99fd.png)

In [1]:
from ISLP import load_data
caravan = load_data('Caravan')
caravan.columns

Index(['MOSTYPE', 'MAANTHUI', 'MGEMOMV', 'MGEMLEEF', 'MOSHOOFD', 'MGODRK',
       'MGODPR', 'MGODOV', 'MGODGE', 'MRELGE', 'MRELSA', 'MRELOV', 'MFALLEEN',
       'MFGEKIND', 'MFWEKIND', 'MOPLHOOG', 'MOPLMIDD', 'MOPLLAAG', 'MBERHOOG',
       'MBERZELF', 'MBERBOER', 'MBERMIDD', 'MBERARBG', 'MBERARBO', 'MSKA',
       'MSKB1', 'MSKB2', 'MSKC', 'MSKD', 'MHHUUR', 'MHKOOP', 'MAUT1', 'MAUT2',
       'MAUT0', 'MZFONDS', 'MZPART', 'MINKM30', 'MINK3045', 'MINK4575',
       'MINK7512', 'MINK123M', 'MINKGEM', 'MKOOPKLA', 'PWAPART', 'PWABEDR',
       'PWALAND', 'PPERSAUT', 'PBESAUT', 'PMOTSCO', 'PVRAAUT', 'PAANHANG',
       'PTRACTOR', 'PWERKT', 'PBROM', 'PLEVEN', 'PPERSONG', 'PGEZONG',
       'PWAOREG', 'PBRAND', 'PZEILPL', 'PPLEZIER', 'PFIETS', 'PINBOED',
       'PBYSTAND', 'AWAPART', 'AWABEDR', 'AWALAND', 'APERSAUT', 'ABESAUT',
       'AMOTSCO', 'AVRAAUT', 'AAANHANG', 'ATRACTOR', 'AWERKT', 'ABROM',
       'ALEVEN', 'APERSONG', 'AGEZONG', 'AWAOREG', 'ABRAND', 'AZEILPL',
       'APLEZIER', 'AFIETS',

In [2]:
caravan.shape

(5822, 86)

Séparation du jeu de données en données d'entraînement (80%) et données de test (20%) sans `sklearn`

In [3]:
caravan.head()

Unnamed: 0,MOSTYPE,MAANTHUI,MGEMOMV,MGEMLEEF,MOSHOOFD,MGODRK,MGODPR,MGODOV,MGODGE,MRELGE,...,APERSONG,AGEZONG,AWAOREG,ABRAND,AZEILPL,APLEZIER,AFIETS,AINBOED,ABYSTAND,Purchase
0,33,1,3,2,8,0,5,1,3,7,...,0,0,0,1,0,0,0,0,0,No
1,37,1,2,2,8,1,4,1,4,6,...,0,0,0,1,0,0,0,0,0,No
2,37,1,2,2,8,0,4,2,4,3,...,0,0,0,1,0,0,0,0,0,No
3,9,1,3,3,3,2,3,2,4,5,...,0,0,0,1,0,0,0,0,0,No
4,40,1,4,2,10,1,4,1,4,7,...,0,0,0,1,0,0,0,0,0,No


In [4]:
caravan.dtypes

MOSTYPE      int64
MAANTHUI     int64
MGEMOMV      int64
MGEMLEEF     int64
MOSHOOFD     int64
             ...  
APLEZIER     int64
AFIETS       int64
AINBOED      int64
ABYSTAND     int64
Purchase    object
Length: 86, dtype: object

In [5]:
caravan.Purchase.map(lambda x: int(x=='Yes'))

0       0
1       0
2       0
3       0
4       0
       ..
5817    0
5818    0
5819    1
5820    0
5821    0
Name: Purchase, Length: 5822, dtype: int64

In [6]:
caravan.Purchase = caravan.Purchase.map(lambda x: int(x=='Yes'))

In [7]:
caravan.to_numpy()

array([[33,  1,  3, ...,  0,  0,  0],
       [37,  1,  2, ...,  0,  0,  0],
       [37,  1,  2, ...,  0,  0,  0],
       ...,
       [33,  1,  3, ...,  0,  0,  1],
       [34,  1,  3, ...,  0,  0,  0],
       [33,  1,  3, ...,  0,  0,  0]])

In [8]:
X = caravan.to_numpy()[:,:-1]
X.shape

(5822, 85)

In [9]:
y = caravan.to_numpy()[:,-1]
y.shape

(5822,)

In [10]:
X

array([[33,  1,  3, ...,  0,  0,  0],
       [37,  1,  2, ...,  0,  0,  0],
       [37,  1,  2, ...,  0,  0,  0],
       ...,
       [33,  1,  3, ...,  0,  0,  0],
       [34,  1,  3, ...,  0,  0,  0],
       [33,  1,  3, ...,  0,  0,  0]])

In [11]:
y

array([0, 0, 0, ..., 1, 0, 0])

In [12]:
# Sans utilisation de numpy X_, y_
X_ = X.tolist()
type(X_), len(X_), len(X_[0])

(list, 5822, 85)

In [13]:
y_ = y.tolist()
type(y_), len(y_)

(list, 5822)

#### Solution avec random.shuffle(x)

Solution avec [random.shuffle(x)](https://docs.python.org/3/library/random.html)

In [14]:
indices = list(range(10))
indices

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [15]:
import random

In [16]:
random.shuffle(indices)
indices

[6, 1, 5, 3, 7, 8, 0, 2, 9, 4]

In [17]:
import math
séparateur = math.floor(len(indices)*20/100)
séparateur

2

In [18]:
indices[:séparateur]

[6, 1]

In [19]:
indices[séparateur:]

[5, 3, 7, 8, 0, 2, 9, 4]

#### Solution avec random.sample()

Solution avec [random.sample()](https://docs.python.org/3/library/random.html)

In [20]:
random.seed(0)

In [21]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [22]:
random.sample(range(10), k=3)

[6, 9, 0]

In [23]:
nombre_de_ligne = X.shape[0]
random.seed(3141592)
# 20%
taille_de_l_échantillon = math.floor(nombre_de_ligne*20/100)
échantillon = random.sample(range(nombre_de_ligne),
                            k=taille_de_l_échantillon)
len(échantillon)

1164

In [24]:
len(set(échantillon))

1164

In [25]:
X_test = X[échantillon, :]
X_test.shape

(1164, 85)

In [26]:
y_test = y[échantillon]
y_test.shape

(1164,)

In [27]:
# Exemple pour récupérer les indices restants
échantillon_test = random.sample(range(10), k=3)
set(échantillon_test)

{1, 7, 8}

In [28]:
indices = set(range(10))
indices

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [29]:
indices.difference_update(échantillon_test)
indices

{0, 2, 3, 4, 5, 6, 9}

In [30]:
# Pour notre jeu de données
indices_restants = set(range(nombre_de_ligne))
indices_restants.difference_update(échantillon)
indices_restants = list(indices_restants)
len(indices_restants)

4658

In [31]:
X_train = X[indices_restants, :]
X_train.shape

(4658, 85)

In [32]:
y_train = y[indices_restants]
y_train.shape

(4658,)

Vérifier que la distribution des valeurs dans `y_train` et `y_test` corresponde à celle de `y`. Est-on sûr que ce soit le cas à chaque fois?

In [33]:
y_train.sum()/len(y_train)

0.05775010734220696

In [34]:
y_test.sum()/len(y_test)

0.06786941580756013

### Notre implémentation des algorithmes

Test de nos objets sur ce jeu de données (si la généralisation à un nombre arbitraire de colonnes a été faite)

In [35]:
import numpy as np
from collections import Counter
from statistics import mean, stdev

In [36]:
class Scaler():
    def __init__(self):
        self._mean = []
        self._stdev = []
    def fit(self, X):
        """Compute the mean and std to be used for later scaling."""
        X = np.array(X, dtype=float)
        self._mean.clear()
        self._stdev.clear()
        for axe in range(X.shape[1]):
            self._mean.append(mean(X[:, axe]))
            self._stdev.append(stdev(X[:, axe]))
    def transform(self, X):
        """Perform standardization by centering and scaling."""
        X = np.array(X, dtype=float)
        X_normalisé = np.zeros_like(X)        
        for j in range(X.shape[1]):
            X_normalisé[:, j] = (X[:, j] - self._mean[j])/self._stdev[j]
        return X_normalisé

In [37]:
class knnClassifier():
    def __init__(self, k=3):
        self.k = k
        self._fit_X = None
        self._fit_y = None
        
    def fit(self, X, y):
        """Fit the nearest neighbors estimator from the training dataset."""
        self._fit_X = np.array(X, dtype=float)
        self._fit_y = y
    
    def predict(self, X):
        """Predict the class labels for the provided data."""
        def kNN(new_x):
            """
            args:
                X: jeu de données initiales
                y: classes associées aux éléments de X 
                new_x: nouveau point que l'on souhaite classer
                k: nombre de voisins pris dans l'évaluation
        
            return:
                La classe de `y` la plus fréquente
            """
            distances = [math.dist(new_x, x) for x in self._fit_X]
            plus_petites_distances = sorted([(d, c) for (d,c) in zip(distances, self._fit_y)])[:self.k]
            counter = Counter([classe for _, classe in plus_petites_distances])
            
            return counter.most_common(1)[0][0]
            
        return [kNN(x) for x in X]

#### Sans normalisation

In [38]:
# sans normalisation

# apprentissage
classifier = knnClassifier()
classifier.fit(X_train, y_train)

# inférence
y_test_predicted = classifier.predict(X_test)


Quel est le taux d'erreur?

In [39]:
sum(y_test_predicted != y_test)/len(y_test)

0.0859106529209622

#### Avec normalisation

In [40]:
# avec normalisation

scaler = Scaler()
scaler.fit(X_train)
X_train_normalized = scaler.transform(X_train)

# apprentissage
classifier = knnClassifier()
classifier.fit(X_train_normalized, y_train)

# inférence
X_test_normalized = scaler.transform(X_test)
y_test_predicted = classifier.predict(X_test_normalized)


In [41]:
sum(y_test_predicted != y_test)/len(y_test)

0.08247422680412371

Différence légère sur le taux d'erreur.

#### Quelle mesure pour la pertinence de notre algorithme?

In [42]:
caravan.Purchase.value_counts()

0    5474
1     348
Name: Purchase, dtype: int64

Le taux d'erreur KNN sur les 1 000 observations de test est d'un peu moins de 10%. À première vue, cela peut paraître plutôt bon. Cependant, étant donné qu'un peu plus de 6 % des clients ont souscrit une assurance, nous pourrions réduire le taux d'erreur à près de 6 % en prédisant toujours Non, quelles que soient les valeurs des prédicteurs ! C'est ce qu'on appelle l'hypothèse nulle.}

Supposons qu’il y ait un coût non négligeable à tenter de vendre une assurance à un individu donné. Par exemple, un vendeur doit peut-être rendre visite à chaque client potentiel. Si l’entreprise tente de vendre de l’assurance à une sélection aléatoire de clients, le taux de réussite ne sera que de 6 %, ce qui pourrait être bien trop faible compte tenu des coûts impliqués. Au lieu de cela, l’entreprise aimerait essayer de vendre de l’assurance uniquement aux clients susceptibles de l’acheter. Le taux d’erreur global n’a donc aucun intérêt. Au lieu de cela, la fraction d’individus dont on prévoit correctement qu’ils souscriront une assurance est intéressante.

Comment mesurer ce taux?

In [43]:
from ISLP import confusion_table

In [44]:
confusion_table(y_test_predicted, y_test)

Truth,0,1
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1063,74
1,22,5


In [45]:
5/(22+5)

0.18518518518518517

In [46]:
# Clients choisis au hasard
(74+5)/(74+5+1063+22)

0.06786941580756013

In [47]:
assert len(y_test) == 74+5+1063+22

### Avec scikit-learn

#### k=1 sans normalisation

In [48]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [49]:
# avec un seul voisin: k=1, sans normalisation

(X_train,
 X_test,
 y_train,
 y_test) = train_test_split(X,
                            y,
                            test_size=1164,
                            random_state=0)
knn1 = KNeighborsClassifier(n_neighbors=1)
knn1_pred = knn1.fit(X_train, y_train).predict(X_test)
np.mean(y_test != knn1_pred), np.mean(y_test)
confusion_table(knn1_pred, y_test)

Truth,0,1
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1021,69
1,66,8


In [50]:
8/(66+8)

0.10810810810810811

#### k=1 avec normalisation

In [51]:
# avec un seul voisin: k=1

scaler_sk = StandardScaler(with_mean=True,
                        with_std=True,
                        copy=True)
scaler_sk.fit(X)
X_std = scaler_sk.transform(X)

(X_train,
 X_test,
 y_train,
 y_test) = train_test_split(X_std,
                            y,
                            test_size=1164,
                            random_state=0)
knn1 = KNeighborsClassifier(n_neighbors=1)
X_test_std = scaler_sk.transform(X_test)
knn1_pred = knn1.fit(X_train, y_train).predict(X_test_std)
np.mean(y_test != knn1_pred), np.mean(y_test)
confusion_table(knn1_pred, y_test)

Truth,0,1
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1071,73
1,16,4


In [52]:
4/(16+4)

0.2

#### k=3 sans normalisation

In [53]:
(X_train,
 X_test,
 y_train,
 y_test) = train_test_split(X,
                            y,
                            test_size=1164,
                            random_state=0)
knn3 = KNeighborsClassifier(n_neighbors=3)
knn3_pred = knn3.fit(X_train, y_train).predict(X_test)
np.mean(y_test != knn3_pred), np.mean(y_test)
confusion_table(knn3_pred, y_test)

Truth,0,1
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1072,77
1,15,0


Bof, bof...

#### k=3 avec normalisation

In [54]:
scaler_sk = StandardScaler(with_mean=True,
                        with_std=True,
                        copy=True)
scaler_sk.fit(X)
X_std = scaler_sk.transform(X)

(X_train,
 X_test,
 y_train,
 y_test) = train_test_split(X_std,
                            y,
                            test_size=1164,
                            random_state=0)
knn3 = KNeighborsClassifier(n_neighbors=3)
X_test_std = scaler_sk.transform(X_test)
knn3_pred = knn3.fit(X_train, y_train).predict(X_test_std)
np.mean(y_test != knn3_pred), np.mean(y_test)
confusion_table(knn3_pred, y_test)

Truth,0,1
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1078,74
1,9,3


In [55]:
3/(9+3)

0.25

Meilleur score, mais peu d'éléments choisis.

## Références

[Introduction to Statistical Learning with applications in Python: Logistic Regression, LDA, QDA, and KNN](https://islp.readthedocs.io/en/latest/labs/Ch04-classification-lab.html)