# Pré-préparation : Évaluation de la qualité des données
---
## Collecte et colligation : Que regarder ?
### VALIDITE
- Existe-t-il une relation directe entre l'activité et ce qui est mesuré?
- Les données sont-elles désagrégées de manière appropriée?
- Les personnes qui collectent les données sont-elles qualifiées et bien supervisées?
- Des mesures sont-elles prises pour corriger les erreurs de données connues?
- Les problèmes de collecte de données connus ont-ils été correctement évalués?
- Des mesures sont-elles prises pour limiter les erreurs de transcription?
- Les problèmes de qualité des données sont-ils clairement décrits dans les rapports finaux?

### FIABILITÉ
- Un processus de collecte de données cohérent est-il utilisé d'année en année, d'une source à l'autre?
- Existe-t-il des procédures permettant un examen périodique de la collecte, de la maintenance et du suivi des données, et documentées par écrit?

### TEMPORALITÉ
- Un calendrier de collecte de données régularisé est-il en place pour répondre aux besoins de gestion du programme?
- Les données sont-elles correctement stockées et facilement disponibles?

### PRECISION
- Existe-t-il une méthode pour détecter les données en double?
- Existe-t-il une méthode pour détecter les données manquantes?

### INTÉGRITÉ
- Des mesures de protection appropriées sont-elles en place pour empêcher les modifications non autorisées des données?
- Un examen indépendant des résultats rapportés est-il nécessaire?

## Ce que vous cherchez a-t-il un sens?

Regardez les données. S'il s'agit d'un jeu de données volumineux, examinez les 20 premières lignes, les 20 dernières lignes et un échantillon aléatoire de 20 lignes. Vous trouverez ci-dessous des questions que vous devriez vous poser, indiquées par les puces..

### Est-ce que ce que je cherche à donner un sens? Les données correspondent-elles à l'étiquette de la colonne?
Y a-t-il des noms dans les colonnes des noms, des adresses dans les colonnes des adresses, des numéros de téléphone dans la colonne des numéros de téléphone? Ou y a-t-il des données différentes dans les colonnes?

### Les données respectent-elles les règles appropriées pour son champ?
Les caractères d'un nom sont-ils uniquement alphabétiques (Brendan) ou contiennent-ils des chiffres (B4rendan)?
La partie numérique d'un numéro de téléphone est-elle de 10 chiffres (5558675309) ou non (675309)?

### Calculer des statistiques récapitulatives pour les données numériques. Ont-elles un sens?
Si vous traitez avec des données de temps écoulé, la valeur minimale est-elle négative (- 10 secondes)?
Si vous traitez avec des données de salaire annuel pour les travailleurs en col bleu, la valeur maximale est-elle quelque chose de bizarre (1 000 000 $)?

### Combien de valeurs sont nulles?
Le nombre de NULL est-il acceptable? Existe-t-il un modèle indiquant où il y a des valeurs nulles?

### Y a-t-il des doublons et sont ils acceptables?

## Les erreurs communes à éviter

**1. Préparer les données pour l'analyse sans objectif clair.**
L'accès à toutes les données du monde est essentiellement inutile sans objectif direct. Certes, il peut être intéressant de consulter des tas de données volumineuses, mais pour des raisons de croissance et d’innovation, des objectifs clairement définis aideront à rationaliser l’analyse. Nous vous recommandons de convenir par écrit de ces objectifs pour vous assurer, ainsi que votre équipe, de rester sur la bonne voie lors de la préparation de vos données pour analyse. 

**2. Déprioriser la visualisation des données.**
Lors de la préparation des données pour l’analyse, il est extrêmement facile de se perdre dans les chiffres sans penser à la présentation finale ni même à la révision de l’analyse des données. La présentation ou la visualisation est importante, car c’est ainsi que vous, votre équipe et les autres visualisez et interprétez les données. 

**3. Ignorer les problèmes hors du champ des données.**
N'oubliez pas que, dans le monde des données, d'autres mesures allant bien au-delà des chiffres et des performances numériques peuvent parfois être prises en compte. Il peut y avoir des problèmes éthiques, culturels ou philosophiques en jeu qui peuvent prévaloir sur l'analyse de données pure. Soyez sensible à ces points de douleur potentiels pour mieux comprendre comment ils peuvent influer sur vos résultats finaux.

**4. Entrer les mauvaises données.**
Il est même possible que vous commettiez une erreur lors de la saisie des données de base. La saisie ou la fusion d'informations dans la mauvaise ligne ou colonne ou l'ajout d'un zéro accidentel à la fin d'un nombre sont toutes des erreurs humaines incroyablement courantes lors de la préparation des données pour l'analyse.
Lorsqu'il s'agit d'analyser des données, tout processus minimisant le risque d'erreur humaine est extrêmement positif. Testez une procédure sur un sous ensemble des données et automatisez la.

**5. Analyser une population (trop) petite.**
Bien qu’il n’existe bien entendu rien de mal à élaborer des analyses pour une petite population, il est important de savoir que les données risquent de ne pas fournir autant d’informations utiles que si votre population était plus nombreuse. Les populations plus petites tendent à produire plus de personnes aberrantes sans suffisamment de corrélations pour discerner ce qui se passe réellement. 

**6. Normes de nommage incohérentes ou confuses.**
Dès le départ, l'organisation et la cohérence sont essentielles lors de la préparation des données pour l'analyse. Si vos conventions de dénomination sont légèrement différentes, vos données sont potentiellement très problématiques. Assurez-vous de mettre en place un système de convention de nommage simplifié et partagé apr tous avant de plonger dans l'analyse. Utilisez des termes clairs et qui auront du sens pour ceux avec qui vous envisagez de partager votre analyse. 

**7. Attention à la duplication!**
Cela peut sembler une évidence, mais la duplication est une erreur plutôt commune lors de la préparation des données pour l'analyse. Dupliquer même une infime entrée faussera vos données de manière imprécise, entraînant des prévisions corrompues ou une prise de décision médiocre.

**8. Analyse des données altérées.**
Vous avez besoin de données propres. Le nettoyage des données peut prendre du temps. Nous avons déjà discuté de la nécessité d'éviter les données en double, mais nous suggérons également d'éliminer les données aberrantes, les données incorrectes, les données manquantes ou les données dépourvues de logique.

**9. Mauvaise connexion des données.**
Si vous travaillez avec un ensemble de données volumineux, des informations vous parviendront probablement de différentes sources. Vous voulez vous assurer que votre pripeline de préparation extrait des données de la ou des sources appropriées et que ces données sont compatibles avec lui. 

**10. Utilisation de données obsolètes.**
L’utilisation de données obsolètes peut se produire en cas de problème d’intégration ou de saisie de votre source de données (voir le numéro 9). Portez une attention particulière aux délais si vous êtes chargé d’examiner des données en temps réel.

<h1 align=center> Préparation des Données </h1>

---


Dans cette séquence, nous allons voir différentes techniques permettant de préparer adéquatement les données avant de les fournir à un ou plusieurs algorithmes d'apprentissage automatique.

Nous aborderons notamment les points suivants :
1. Le nettoyage et les aberrations statistiques
2. L'imputation de données manquantes
3. Équilibrage de données déséquilibrées
4. Transformation des caractéristiques
    1. *rescaling* et *normalizing* ([0,1] ou [-1,1]), *standardizing* (loi normale)
    2. Représentation matricielle de données catégorisées
    3. Réduction de la dimensionnalité ou création de caractéristiques





## Nettoyage et Aberrations
### Identifier les données dupliquées

**Compter les valeurs uniques d'une colonne:**

```
df.groupby('ma_categorie').id_user.nunique()
```

**Show duplicate values for one column:**

```
pd.concat(i for _, i in df.groupby('id_user') if len(i) > 1)
```

Dans le cas où vous voudriez montrer les valeurs dupliquées pour une combinaison de colonnes, remplacez `id_user` par la liste des colonnes à considérer (e.g.  ['id_user', 'pays'])

### Retirer les données dupliquées

```
df = df.drop_duplicates(subset='id_user', keep=False)
```  

### Identifier les données aberrantes

Séquence inspirée des exemples de code de la librairie `scikit-learn` de [Alexandre Gramfort](mailto:alexandre.gramfort@inria.fr) et [Albert Thomas](mailto:albert.thomas@telecom-paristech.fr) (License: BSD 3 clause)

In [None]:
import time
import warnings
warnings.filterwarnings("ignore")
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
matplotlib.rcParams['contour.negative_linestyle'] = 'solid'
from sklearn.datasets import make_moons, make_blobs

# Paramètres des exemples
n_samples = 300
outliers_fraction = 0.15
n_outliers = int(outliers_fraction * n_samples)
n_inliers = n_samples - n_outliers

# Definition des datasets
blobs_params = dict(random_state=0, n_samples=n_inliers, n_features=2)
datasets = [
    make_blobs(centers=[[0, 0], [0, 0]], cluster_std=0.5,
               **blobs_params)[0],
    make_blobs(centers=[[2, 2], [-2, -2]], cluster_std=[0.5, 0.5],
               **blobs_params)[0],
    make_blobs(centers=[[2, 2], [-2, -2]], cluster_std=[1.5, .3],
               **blobs_params)[0],
    4. * (make_moons(n_samples=n_samples, noise=.05, random_state=0)[0] -
          np.array([0.5, 0.25])),
    14. * (np.random.RandomState(42).rand(n_samples, 2) - 0.5)]

# Mesh pour afficher le contour de décision
xx, yy = np.meshgrid(np.linspace(-7, 7, 150),
                     np.linspace(-7, 7, 150))

# fonction d'affichage des datasets avec coloration de l'algorithme et ajout d'outliers
def plot_datasets(name='', algorithm=None, addOutliers=True):
    # Taille des figures
    plt.figure(figsize=(len(datasets) * 2 + 3, 3))
    plt.subplots_adjust(left=.02, right=.98, bottom=.001, top=.96, wspace=.05,
                        hspace=.01)
    plot_num = 1
    rng = np.random.RandomState(42)
    
    for i_dataset, X in enumerate(datasets):
        
        y_pred = np.repeat(0,len(X))
        # Add outliers
        if addOutliers:
            X = np.concatenate([X, rng.uniform(low=-6, high=6,size=(n_outliers, 2))], axis=0)
            #On met la vérité dans la prédiction si on fait pas de prédiction
            y_pred = np.concatenate([y_pred,np.repeat(1,n_outliers)],axis=0)

        t0 = 0
        t1 = 0
        ax = plt.subplot(1,len(datasets), plot_num)
        if algorithm != None:
            t0 = time.time()
            algorithm.fit(X)
            t1 = time.time()
            if i_dataset == 0:
                plt.title(name, size=18)
            # Fit les données et tag les outliers
            if name == "Local Outlier Factor": # LOF n'implémente pas predict
                y_pred = algorithm.fit_predict(X)
            elif name == "KDE": # KDE non plus
                # Score samples
                pred = np.exp(algorithm.fit(X).score_samples(X))
                n = sum(pred < 0.05)
                outlier_ind = np.asarray(pred).argsort()[:n]
                y_pred = np.array([-1 if i in outlier_ind else 1 for i in range(len(X))])
            elif name == "Tukey": # Et celui la non plus ... obviously
                outlier_ind = algorithm.outliers(X)
                y_pred = np.array([-1 if i in outlier_ind else 1 for i in range(len(X))])
            else: 
                y_pred = algorithm.fit(X).predict(X)
                # Affichage des points et de la ligne de démarquation
                Z = algorithm.predict(np.c_[xx.ravel(), yy.ravel()])
                Z = Z.reshape(xx.shape)
                plt.contour(xx, yy, Z, levels=[0], linewidths=2, colors='black')
            plt.text(.99, .01, ('%.2fs' % (t1 - t0)).lstrip('0'), transform=plt.gca().transAxes, size=15, horizontalalignment='right')

        colors = np.array(['#377eb8', '#ff7f00'])
        ax.scatter(X[:, 0], X[:, 1], s=10, color=colors[(y_pred + 1) // 2])
        plt.xlim(-7, 7)
        plt.ylim(-7, 7)
        plt.xticks(())
        plt.yticks(())
        plot_num += 1
    plt.show()

# Affichage des données sans outliers
plot_datasets(addOutliers=False)

In [None]:
#Affichage avec outliers
plot_datasets(addOutliers=True)

#### Covariance robuste

In [None]:
from sklearn.covariance import EllipticEnvelope

algo =  ("Robust covariance", EllipticEnvelope(contamination=outliers_fraction))

plot_datasets(*algo)

#### SVM mono-classe

In [None]:
from sklearn import svm

algo = ("One-Class SVM", svm.OneClassSVM(nu=outliers_fraction, kernel="rbf", gamma=0.1))

plot_datasets(*algo)

#### Forêt d'Isolation

In [None]:
from sklearn.ensemble import IsolationForest

algo = ("Isolation Forest", IsolationForest(contamination=outliers_fraction, random_state=42))

plot_datasets(*algo)

#### Facteur d'aberration local

In [None]:
from sklearn.neighbors import LocalOutlierFactor

algo = ("Local Outlier Factor", LocalOutlierFactor(n_neighbors=35, contamination=outliers_fraction))

plot_datasets(*algo)

#### Test de Tukey pour les valeurs extrêmes

In [None]:
ecart = 1.5

# Defini la fonction qui utilise les deviations interquartile avec les quartiles 1 et 3 comme plancher et plafond.
class Tukey:
    def fit(self, X):
        None
    def outliers(self,x):
        q1 = np.percentile(x, 25)
        q3 = np.percentile(x, 75)
        iqr = q3-q1 
        floor = q1 - ecart * iqr
        ceiling = q3 + ecart * iqr
        outlier_indices = np.where((x < floor)|(x > ceiling))[0]
        print(len(outlier_indices))
        return outlier_indices


algo = ('Tukey',Tukey())
plot_datasets(*algo)

### Estimation de densité par noyau (KDE)

Non-parametrique, peut aussi capturer les distributions bimodales

In [None]:
from sklearn.neighbors.kde import KernelDensity

# kernel : [‘gaussian’|’tophat’|’epanechnikov’|’exponential’|’linear’|’cosine’]

algo = ('KDE', KernelDensity(bandwidth=0.2,kernel='gaussian'))

plot_datasets(*algo)

## Imputation de données manquantes 
Si vous voulez faire simple : `scikit-learn` offre un [`SimpleImputer`](http://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) et un [`MissingIndicator`](http://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html#sklearn.impute.MissingIndicator) alors que `pandas` offre la méthode [`fillna()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html).

Sinon : Fonctionalités de la librairie [`impypute`](https://pypi.org/project/impyute/):
- Outils de diagnostic
     - Journaux
     - Distribution des valeurs nulles
     - Comparaison des imputations
     - [Test MCAR de Little [1]](#note1)
- Imputation de données transversales
     - Imputation aléatoire
     - K-voisins les plus proches
     - Imputation moyenne
     - Imputation par mode
     - Imputation médiane
     - Imputation multivariée par équations chaînées ([MICE](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/))
     - Espérance/Maximisation
- Imputation de données chronologiques
     - Dernière observation reportée
     - Fenêtre mobile
     - Moyenne mobile intégrée autorégressive (WIP)
     
Ou bien : [`fancyimpute`](https://pypi.org/project/fancyimpute/) :
* `SimpleFill`: Remplace les entrées manquantes par la moyenne ou la médiane de chaque colonne.
* `KNN`: imputations du voisin le plus proche qui pondère les échantillons en utilisant la différence quadratique moyenne sur les entités pour lesquelles deux lignes contiennent des données observées.
* `SoftImpute`: complétion de la matrice par seuillage souple itératif des décompositions SVD. Inspiré du package [softImpute](https://web.stanford.edu/~hastie/swData/softImpute/vignette.html) pour R, basé sur [Spectral Regularization Algorithms for Learning Large Incomplete Matrices](http://web.stanford.edu/~hastie/Papers/mazumder10a.pdf) de Mazumder et. Al.
* `IterativeSVD`: achèvement de la matrice par décomposition itérative SVD de bas rang. Devrait être similaire à SVDimpute de [Missing value estimation methods for DNA microarrays](http://www.ncbi.nlm.nih.gov/pubmed/11395428) de Troyanskaya et. Al.
* `IterativeImputer` (ex MICE): Une stratégie pour imputer les valeurs manquantes en modélisant chaque entité avec des valeurs manquantes en fonction des autres entités de manière alternée.
* `MatrixFactorization`: Factorisation directe de la matrice incomplète en« U »et« V »de bas rang, avec une pénalité de faible densité L1 sur les éléments de« U »et une pénalité de L2 sur les éléments de« V ». Résolu par descente progressive.
* `NuclearNormMinimization`: Implémentation simple de [Exact Matrix Completion via Convex Optimization](http://statweb.stanford.edu/~candes/papers/MatrixCompletion.pdf) d'Emmanuel Candes et Benjamin Recht utilisant [cvxpy](http://www.cvxpy.org). Trop lent pour les grandes matrices.
* `BiScaler`: Estimation itérative de la moyenne des rangées/colonnes et des écarts types pour obtenir une double normalisationmatrice. Pas garanti de converger mais fonctionne bien dans la pratique. Tiré de [Matrix Completion and Low-Rank SVD via Fast Alternating Least Squares](http://arxiv.org/abs/1410.2596).

Essayons de manipuler des données manquantes de la compétition Kaggle de titanic[$^1$](https://www.kaggle.com/c/titanic):

### Chargement des données

 - survival: Survival (0 = No, 1 = Yes)
 - pclass: Ticket class(1 = 1st, 2 = 2nd, 3 = 3rd)
 - sex: Sex
 - Age: Age in years
 - sibsp: Number of siblings / spouses aboard the Titanic
 - parch: Number of parents / children aboard the Titanic
 - ticket: Ticket number
 - fare:Passenger fare
 - cabin:Cabin number
 - embarked:Port of Embarkation(C = Cherbourg, Q = Queenstown, S = Southampton)


In [None]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

np.random.seed(0)

train = pd.read_csv('titanic_train.csv')
test = pd.read_csv('titanic_test.csv')

Création des types de colonnes

In [None]:
import sys
import warnings

def enforceTypesTitanic(df):
    try:
        df.Survived = df.Survived.astype("category")
    except:
        pass
    df.Pclass = df.Pclass.astype("category", categories=[1, 2, 3], ordered=True)
    df.Sex = df.Sex.astype("category")
    df.Embarked = df.Embarked.astype("category")
    

enforceTypesTitanic(train)
enforceTypesTitanic(test)

Comptage des valeurs nulles dans le dataset (`train` et `test`):

In [None]:
def naSummary(df):
    return df.isnull().sum()

naSummary(train)

In [None]:
naSummary(test)

## Validation de la distribution des données Train vs Test

In [None]:
%matplotlib inline
import seaborn as sns
import matplotlib.gridspec as gs
import matplotlib.pyplot as plt
import itertools

# Calculer la taille de la grille en fonction du nombre de caractéristiques 
def gridSize(nb_features):
    a = len(nb_features)
    if a%2 != 0:
        a += 1
    n = np.floor(np.sqrt(a)).astype(np.int64)
    while a%n != 0:
        n -= 1
    m = (a/n).astype(np.int64)
    return m,n

# Affichage des deux distributions pour chaque colonne des dataframe 1 et 2
def distComparison(df1, df2):
    
    assert (len(df1.columns) == len(df2.columns))
    
    m,n = gridSize(df1.columns)
    coords = list(itertools.product(list(range(m)), list(range(n))))
    
    # Choix des graphiques pour chaque type de colonne
    numerics = df1.select_dtypes(include=[np.number]).columns
    cats = df1.select_dtypes(include=['category']).columns
    
    fig = plt.figure(figsize=(15, 15))
    axes = gs.GridSpec(m, n)
    axes.update(wspace=0.25, hspace=0.25)
    # Graphiques pour données numériques : on fait un KDE de la distribution
    for i in range(len(numerics)):
        x, y = coords[i]
        ax = plt.subplot(axes[x, y])
        col = numerics[i]
        sns.kdeplot(df1[col].dropna(), ax=ax, label='df1').set(xlabel=col)
        sns.kdeplot(df2[col].dropna(), ax=ax, label='df2')
        
    # Graphique pour les données catégoriques : diagramme en baton
    for i in range(0, len(cats)):
        x, y = coords[len(numerics)+i]
        ax = plt.subplot(axes[x, y])
        col = cats[i]

        df1_temp = df1[col].value_counts()
        df2_temp = df2[col].value_counts()
        df1_temp = pd.DataFrame({col: df1_temp.index, 'value': df1_temp/len(df1), 'Set': np.repeat('df1', len(df1_temp))})
        df2_temp = pd.DataFrame({col: df2_temp.index, 'value': df2_temp/len(df2), 'Set': np.repeat('df2', len(df2_temp))})

        sns.barplot(x=col, y='value', hue='Set', data=pd.concat([df1_temp, df2_temp]), ax=ax).set(ylabel='Percentage')

# Affichage de la comparaison entre train (sans la colonne des étiquettes) et le test
distComparison(train.drop('Survived', 1), test)

On se crée une baseline en complétant les données arbitrairement.

In [None]:
# Embarked est le port d'embaquement, on complète les deux données manquantes par le premier port.
train.Embarked = train.Embarked.fillna('C')

# On remplace la donnée Cabin par juste l'infomration sur la connaissance de celle-ci
train['CabinKnown'] = pd.Categorical((train.Cabin.isnull() == False))
test['CabinKnown'] = pd.Categorical((test.Cabin.isnull() == False))
train = train.drop('Cabin', 1)
test = test.drop('Cabin', 1)

# Et il nous manque une donnée de prix payé dans le test. On choisis une valeur arbitraire.
test.Fare = test.Fare.fillna(8.05)


In [None]:
naSummary(train)

In [None]:
naSummary(test)

## Les données sont elles MCAR ?

MCAR = missing completely at random.

Essentiellement, divisons les données en deux ensembles supplémentaires: Données manquantes et données présentes. Puis vérifions que, si la distribution des variables dans chacun de ces ensembles est la même, alors les données manquent complètement au hasard.

In [None]:
age_present = train.dropna().drop('Age', 1)
age_missing = train[train.isnull().any(axis=1)].drop('Age', 1)

age_present.Parch = age_present.Parch.astype('category', categories=list(range(8)), ordered=True)
age_missing.Parch = age_missing.Parch.astype('category', categories=list(range(8)), ordered=True)

age_present.SibSp = age_present.SibSp.astype('category', categories=list(range(9)), ordered=True)
age_missing.SibSp = age_missing.SibSp.astype('category', categories=list(range(9)), ordered=True)

distComparison(age_present.drop('Survived', 1), age_missing.drop('Survived', 1))

Il semble que nous ne puissions pas vérifier l’hypothèse MCAR. L'explication semble être que nous sommes moins susceptibles de connaître l'âge des personnes décédées. Comme en témoigne la proportion beaucoup plus grande de passagers de la classe inférieure, le pic plus net dans les tarifs plus bas et une légère asymétrie à l’égard des hommes.

De manière plus significative encore, il semble que les personnes qui se sont embarquées à Q ont un taux beaucoup plus élevé d’âge manquant.

Remarque: Il serait préférable d'utiliser une mesure plus objective de MCAR, comme le test de Little : (TODO)

## Baseline de prédiction

Sans l'utilisation des données `Age`, notre prédicteur sera un classificateur par forêt aléatoire avec les paramètres affichés. Toutes les estimations d'erreur de test sont obtenues par une validation croisée 10 fois.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# Préparation des données rapides pour enlever les données catégoriques
def prepForModel(df):
    new_df = df.copy()
    # Classe de cabine en entier
    new_df.Pclass = new_df.Pclass.astype("int")
    # Sexe binaire
    new_df.Sex.cat.categories = [0, 1]
    new_df.Sex = new_df.Sex.astype("int")
    # Port d'embarquement en entier (on pourrait utiliser une dummy ? tryit ;-))
    new_df.Embarked.cat.categories = [0, 1, 2]
    new_df.Embarked = new_df.Embarked.astype("int")
    # Cabine connue ou non : binaire
    new_df.CabinKnown.cat.categories = [0, 1]
    new_df.CabinKnown = new_df.CabinKnown.astype("int")
    return new_df

# Même pipeline pour le train et le test.
train_cl = prepForModel(train)
test_cl = prepForModel(test)

# Sélection des colonnes sans l'Age
Xcol = ['Pclass', 'Sex', 'SibSp', 'Parch', 'Fare', 'Embarked', 'CabinKnown']
Ycol = 'Survived'
X = train_cl.loc[:, Xcol]
Y = train_cl.loc[:, Ycol]

# Mémorisation des datasets avant qu'on fasse d'autres transformations
Xbase = X
Ybase = Y

# Classification par RF
rf = RandomForestClassifier(n_estimators=1000,
                           max_depth=None,
                           min_samples_split=10)

baseline_err = cross_val_score(rf, X, Y, cv=10, n_jobs=-1).mean()
print("[BASELINE] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(X), baseline_err))

#### Suppression simple des données manquantes 

In [None]:
Xdel = train_cl.dropna().loc[:, Xcol + ['Age']]
Ydel = train_cl.dropna().loc[:, Ycol]

deletion_err = cross_val_score(rf, Xdel, Ydel, cv=10, n_jobs=-1).mean()
print("[DELETION] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(Xdel), deletion_err))

#### Substitution par la moyenne

In [None]:
train_cl = prepForModel(train)
train_cl.Age = train_cl.Age.fillna(train_cl.Age.mean(skipna=True))

Xcol = Xcol + ['Age']

Xmean = train_cl.loc[:, Xcol]
Ymean = train_cl.loc[:, Ycol]

mean_err = cross_val_score(rf, Xmean, Ymean, cv=10, n_jobs=-1).mean()
print("[MEAN] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(Xmean), mean_err))

#### Régression déterministe et aléatoire

In [None]:
train_cl = prepForModel(train)
train_reg = train_cl.dropna()

from sklearn.linear_model import LinearRegression
from sklearn import preprocessing

Xrcol = ['Pclass', 'Sex', 'SibSp', 'Parch', 'Fare', 'Embarked', 'CabinKnown']
Yrcol = 'Age'

X_reg = train_reg.loc[:, Xrcol]
Y_reg = train_reg.loc[:, Yrcol]

age_lm = LinearRegression()
age_lm.fit(X_reg, Y_reg)
abs_residuals = np.absolute(Y_reg - age_lm.predict(X_reg))

nan_inds = train_cl.Age.isnull().nonzero()[0]
train_cl2 = train_cl.copy()

for i in nan_inds:
    train_cl.set_value(i, 'Age', age_lm.predict(train_cl.loc[i, Xrcol].values.reshape(1, -1)))

Xreg = train_cl.loc[:, Xcol]
Yreg = train_cl.loc[:, Ycol]
    
reg_err = cross_val_score(rf, Xreg, Yreg, cv=10, n_jobs=-1).mean()
print("[DETERMINISTIC REGRESSION] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(Xreg), reg_err))

for i in nan_inds:
    detreg = age_lm.predict(train_cl2.loc[i, Xrcol].values.reshape(1, -1))
    randreg = np.random.normal(detreg, np.random.choice(abs_residuals))
    train_cl2.set_value(i, 'Age', randreg)
    
Xrandreg = train_cl2.loc[:, Xcol]
Yrandreg = train_cl2.loc[:, Ycol]
    
randreg_err = cross_val_score(rf, Xrandreg, Yrandreg, cv=10, n_jobs=-1).mean()
print("[RANDOM REGRESSION] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(Xrandreg), randreg_err))

#### MICE

In [None]:
#!pip install fancyimpute 
# En cas de problème avec cvxpy sur windows : http://www.lfd.uci.edu/~gohlke/pythonlibs/
from fancyimpute import IterativeImputer # MICE a été renommé au mois de Septembre ...

train_cl = prepForModel(train)

X = train_cl.loc[:, Xcol]
Y = train_cl.loc[:, Ycol]

Xmice = IterativeImputer().fit_transform(X.as_matrix())
Ymice = Y

mice_err = cross_val_score(rf, Xmice, Y, cv=10, n_jobs=-1).mean()
print("[MICE] Estimation RF sur Test (n = {}, 10-fold CV): {}".format(len(Xmice), mice_err))

#### KNN (Données standardisées)

In [None]:
from fancyimpute import KNN
from sklearn.model_selection import StratifiedKFold

train_cl = prepForModel(train)

Xcol = ['Pclass', 'Sex', 'SibSp', 'Parch', 'Fare', 'Embarked', 'CabinKnown']
X = train_cl.loc[:, Xcol + ['Age']]
Y = train_cl.loc[:, Ycol]

def standardize(s):
    return s.sub(s.min()).div((s.max() - s.min()))

Xnorm = X.apply(standardize, axis=0)
kvals = np.linspace(1, 100, 20, dtype='int64')

knn_errs = []
for k in kvals:
    knn_err = []
    Xknn = KNN(k=k, verbose=False).fit_transform(Xnorm)
    knn_err = cross_val_score(rf, Xknn, Y, cv=10, n_jobs=-1).mean()

    knn_errs.append(knn_err)
    print("[KNN] Estimation RF sur Test (n = {}, k = {}, 10-fold CV): {}".format(len(Xknn), k, np.mean(knn_err)))

In [None]:
sns.set_style("darkgrid")
_ = plt.plot(kvals, knn_errs)
_ = plt.xlabel('K')
_ = plt.ylabel('10-fold CV Error Rate')

knn_err = max(knn_errs)
k_opt = kvals[knn_errs.index(knn_err)]

Xknn = KNN(k=k_opt, verbose=False).fit_transform(Xnorm)
Yknn = Y

print("[BEST KNN] Estimation RF sur Test (n = {}, k = {}, 10-fold CV): {}".format(len(Xknn), k_opt, np.mean(knn_err)))

#### Résumé : 

In [None]:
errs = {'BEST KNN (k = {})'.format(k_opt): knn_err,  
        'DETERMINISTIC REGRESSION': reg_err, 
        'RANDOM REGRESSION': randreg_err,
        'MICE': mice_err,
        'MEAN': mean_err,
        'DELETION': deletion_err, 
        'BASELINE': baseline_err}

err_df = pd.DataFrame.from_dict(errs, orient='index')
err_df.index.name = 'Imputation Method'
err_df.reset_index(inplace=True)
err_df.columns = ['Imputation', ' Estimation sur Test  (10-fold CV)']

ax = sns.barplot(x=err_df.columns[1], y=err_df.columns[0], order=list.sort(list(errs.values())), data=err_df)
ax.set_xlabel(err_df.columns[1])
ax.set_ylabel('')
_ = plt.xlim(0.8, 0.835)

## Données d'entraînement déséquilibrées

### Paradoxe de l'Exactitude

Le [paradoxe de l'exactitude](https://en.wikipedia.org/wiki/Accuracy_paradox) est le nom de la situation où vos mesures d'exactitude indiquent que vous avez une excellente exactitude (telle que 90%), mais que l'exactitude ne reflète que la distribution de classe majoritaire sous-jacente.

C'est un problème très courant, car l'exactitude est souvent la première mesure que utilisée (par `scikit-learn`) pour évaluer les modèles de nos problèmes de classification.

### Mettez tout sur le rouge!

Que se passe-t-il dans les modèles lorsque l'entrainement est fait sur un jeu de données déséquilibré? 

Si une exactitude de 90% est obtenue sur des données déséquilibrées (avec 90% des instances de la classe 1), c'est parce que les modèles examinent les données et décident intelligemment que la meilleure chose à faire est de toujours prédire "Classe 1" et atteindre une grande exactitude.

Cela se voit mieux lorsque un algorithme basé sur des règles simples est utilisé. En regardant la règle dans le modèle final, on constate qu'il est très probable qu'une seule classe est prédite, quelles que soient les données à prédire.

Comment régler ce problème ?

#### Collecter plus de données

Vous pensez peut-être que c'est idiot, mais la collecte de plus de données est presque toujours négligée.

Pouvez-vous collecter plus de données? Prenez une seconde et demandez-vous si vous êtes capable de collecter plus de données sur votre problème.

Un ensemble de données plus volumineux pourrait exposer une perspective différente et peut-être plus équilibrée des classes.

D'autres exemples de classes mineures peuvent être utiles ultérieurement lorsque nous examinons le rééchantillonnage de votre jeu de données.

#### Changer de métrique de performance

L'exactitude n'est pas la métrique à utiliser lorsque vous travaillez avec un jeu de données déséquilibré. Nous avons vu que c'est trompeur.

Certains indicateurs ont été conçus pour vous raconter une histoire plus véridique lorsque vous travaillez avec des classes déséquilibrées.

Vous verrez plus en détails au prochain bloc les différentes mesures de performance:
- Matrice de confusion: décomposition des prédictions dans un tableau montrant les prédictions correctes (la diagonale) et les types de prédictions incorrectes effectuées (quelles classes de prédictions incorrectes ont été attribuées).
- Exactitude: Mesure de l'exactitude d'un classificateur.
- Rappel : Une mesure de la complétude d'un classificateur
- Score F1 (ou F-score): moyenne pondérée de la précision et du rappel.
- Kappa (ou [kappa de Cohen](https://en.wikipedia.org/wiki/Cohen%27s_kappa)): précision de la classification normalisée par le déséquilibre des classes dans les données.
- Courbes ROC: À l'instar de la précision et du rappel, l'exactitude est divisée en sensibilité et spécificité et des modèles peuvent être choisis en fonction des seuils d'équilibre de ces valeurs.

Tout cela sera vu au prochain bloc sur l'évaluation de modèles.

#### Ré-échantillonner le jeu de données

Il est possible de modifier le jeu de données utilisé afin d'obtenir des données plus équilibrées et améliorer le modèle prédictif.

Cette modification s'appelle [échantillonnage du dataset](https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis). Il existe deux méthodes principales pour uniformiser les classes:
- l'ajout de copies d'instances de la classe sous-représentée : sur-échantillonnage (ou plus formellement échantillonner avec remplacement), ou
- la suppression d'instances de la classe surreprésentée : sous-échantillonnage.

Ces approches sont souvent très faciles à mettre en œuvre et rapides à exécuter. Elles sont un excellent point de départ.

En fait, il vaut mieux toujours essayer les deux approches sur tous les jeux de données déséquilibrés, juste pour voir si cela donne une amélioration de vos mesures préférées.

Quelques règles de base :
- Le sous-échantillonnage est préférable lorsque vous avez beaucoup de données (des dizaines, des centaines de milliers d'instances ou plus).
- Le suréchantillonnage est préférable lorsque vous n’avez pas beaucoup de données (des dizaines de milliers d’enregistrements ou moins).
- Tester des schémas d'échantillonnage aléatoire et non aléatoire (par exemple stratifié).
- Tester différents ratios de rééchantillonnage (il n'est pas toujours nécessaire d'avoir un ratio de 1:1 dans un problème de classification binaire).

#### Générer des échantillons synthétiques

Un moyen simple de générer des échantillons synthétiques consiste à échantillonner de manière aléatoire les attributs d'instances de la classe minoritaire.

Il est possible de les échantillonner de manière empirique dans votre jeu de données ou d'utiliser une méthode telle que Naive Bayes, qui permet d'échantillonner chaque attribut indépendamment lorsqu'il est exécuté à l'envers. Plus de données différentes seront générées, mais les relations non-linéaires entre les attributs peuvent ne pas être préservées.

Il existe des algorithmes systématiques utilisables pour générer des échantillons synthétiques. Le plus populaire de ces algorithmes est appelé SMOTE ou technique de suréchantillonnage minoritaire synthétique.

SMOTE est une méthode de suréchantillonnage. Cela fonctionne en créant des échantillons synthétiques de la classe mineure au lieu de créer des copies. L'algorithme sélectionne deux instances similaires ou plus (à l'aide d'une mesure de distance) et perturbe une instance à la fois d'une quantité aléatoire dans la différence des instances voisines.

Il existe plusieurs implémentations de l'algorithme SMOTE. En Python, le module "[`imbalanced-learn`](https://github.com/fmfn/UnbalancedDataset)" fournit un certain nombre d'implémentations de SMOTE ainsi que diverses autres techniques de ré-échantillonnage.

#### Essayer les modèles pénalisés

Utilisation des mêmes algorithmes habituels en leur donnant une perspective différente du problème.

La classification pénalisée impose un coût supplémentaire au modèle pour faire des erreurs de classification à la classe minoritaire pendant l'entrainement. Ces pénalités peuvent inciter le modèle à accorder plus d’attention à la classe minoritaire.

Souvent, le traitement des pénalités de classe ou des poids est spécialisé dans l’algorithme d’apprentissage. Il existe des versions pénalisées d'algorithmes tels que les SVMs ou LDAs.

Il est également possible d'avoir des cadres génériques pour les modèles pénalisés. Par exemple, Weka a un classificateur CostSensitive qui peut envelopper tout classificateur et appliquer une matrice de pénalités personnalisée pour la classification des échecs.

L’utilisation de la pénalisation est souhaitable si vous êtes bloqué dans un algorithme spécifique et êtes incapable de rééchantillonner ou si vous obtenez des résultats médiocres. Il fournit un autre moyen d’équilibrer les cours. La mise en place de la matrice de pénalités peut être complexe. Vous devrez très probablement essayer divers systèmes de pénalités et voir ce qui convient le mieux à votre problème.

#### Essayer une perspective différente

Il existe des domaines d'étude dédiés aux jeux de données déséquilibrés. Ils ont leurs propres algorithmes, mesures et terminologie.

Jeter un coup d'œil et réfléchir à votre problème sous ces angles peut parfois faire honte à certaines idées.

La détection des anomalies et la détection des modifications sont deux éléments qui pourraient vous intéresser.

La détection d'anomalie est la détection d'événements rares. Il s’agit peut-être d’un dysfonctionnement de la machine signalé par ses vibrations ou d’une activité malveillante d’un programme indiqué par sa séquence d’appels système. Les événements sont rares et comparés au fonctionnement normal.

Ce changement de mentalité considère la classe mineure comme la classe des valeurs aberrantes, ce qui peut vous aider à réfléchir à de nouvelles façons de séparer et de classer les échantillons.

La détection de changement est similaire à la détection d'anomalie, sauf que plutôt que de rechercher une anomalie, elle recherche un changement ou une différence. Il peut s’agir d’un changement de comportement d’un utilisateur, tel qu’observé par les modèles d’utilisation ou les transactions bancaires.

Ces deux évolutions adoptent une approche plus en temps réel du problème de classification qui pourrait vous donner de nouvelles façons de penser à votre problème et peut-être d’autres techniques à essayer.

### Exemple de données débalancées

* Jeu de données débalancé
* Le piège métrique
* Matrice de confusion
* Rééchantillonnage
* Sous-échantillonnage aléatoire
* Suréchantillonnage aléatoire
* Module d'apprentissage en Python déséquilibré
* Sous-échantillonnage aléatoire et sur-échantillonnage avec apprentissage déséquilibré
* Sous-échantillonnage: liens Tomek
* Sous-échantillonnage: Centroids de cluster
* Suréchantillonnage: SMOTE
* Sur-échantillonnage suivi d'un sous-échantillonnage
* Plus de liens

#### Données débalancées

Dans cette partie, nous passons en revue certaines techniques permettant de gérer des ensembles de données très débalancées, en mettant l’accent sur le ré-échantillonnage. 

In [None]:
import numpy as np
import pandas as pd

from sklearn.datasets import make_classification

major = 0.99

X, y = make_classification(
    n_classes=2, class_sep=1.5, weights=[major, 1-major],
    n_informative=3, n_redundant=1, flip_y=0,
    n_features=20, n_clusters_per_class=1,
    n_samples=100000, random_state=10
)

df = pd.DataFrame(X)
df['target'] = y
target_count = df.target.value_counts()
print('Class 0:', target_count[0])
print('Class 1:', target_count[1])
print('Proportion:', round(target_count[0] / target_count[1], 4), ': 1')
df.target.value_counts().plot(kind='bar', title='Count (target)');

#### Le piège des métriques

L'un des principaux problèmes auxquels se heurtent les utilisateurs novices lorsqu'ils traitent des ensembles de données non équilibrés est lié aux métriques utilisées pour évaluer leur modèle. Utiliser des métriques plus simples comme l'exactitude (`accuracy`) peut être trompeur. Dans un ensemble de données avec des classes très déséquilibrées, si le classificateur "prédit" toujours la classe la plus courante sans effectuer d'analyse des caractéristiques, il conservera un taux de précision élevé, évidemment illusoire.

Faisons cette expérience en utilisant une simple validation croisée et aucune ingénierie de caractéristiques:

In [None]:
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

model = XGBClassifier()
model = SVC(kernel='linear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: %.4f%%" % (accuracy * 100.0))

Exécutons maintenant le même code, mais en utilisant une seule caractéristique (ce qui devrait considérablement réduire l'exactitude du classificateur):

In [None]:
model = XGBClassifier()
model = SVC(kernel='linear')
model.fit(X_train[:,0:2], y_train)
y_pred = model.predict(X_test[:,0:2])

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: %.4f%%" % (accuracy * 100.0))

Comme nous pouvons le constater, le taux de précision élevé n’était qu’une illusion. De cette manière, le choix de la métrique utilisée dans les jeux de données non équilibrés est extrêmement important. Dans cette compétition, la métrique d'évaluation était le [Coefficient de Gini normalisé](https://en.wikipedia.org/wiki/Gini_coefficient), une métrique plus robuste pour les jeux de données déséquilibrés, qui varie d'environ 0 pour une estimation aléatoire à environ 0,5 pour un score parfait.

#### Matrice de Confusion

Une méthode intéressante pour évaluer les résultats consiste à utiliser une matrice de confusion qui montre les prédictions correctes et incorrectes pour chaque classe. Dans la première ligne, la première colonne indique combien de classes 0 ont été prédites correctement, et dans la seconde colonne, combien de classes 0 ont été prédites à 1. Dans la deuxième ligne, nous notons que toutes les entrées de classe 1 ont été prédites à tort comme étant la classe 0.

Par conséquent, plus les valeurs diagonales de la matrice de confusion sont élevées, mieux ce sera, ce qui indique de nombreuses prédictions correctes.

In [None]:
from sklearn.metrics import confusion_matrix
from matplotlib import pyplot as plt

conf_mat = confusion_matrix(y_true=y_test, y_pred=y_pred)
print('Matrice de confusion:\n', conf_mat)

labels = ['Class 0', 'Class 1']
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(conf_mat, cmap=plt.cm.jet_r)
fig.colorbar(cax)
ax.set_xticklabels([''] + labels)
ax.set_yticklabels([''] + labels)
plt.xlabel('Predicted')
plt.ylabel('Expected')
plt.show()

#### Rééchantillonage

Le rééchantillonnage est une technique largement adoptée pour traiter les jeux de données très déséquilibrés. Cela consiste à retirer des échantillons de la classe majoritaire (sous-échantillonnage) et / ou à ajouter d'autres exemples de la classe minoritaire (sur-échantillonnage).

![](https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/resampling.png)

Malgré l'avantage de l'équilibrage des classes, ces techniques ont aussi leurs faiblesses (`No Free Lunch`). La mise en œuvre la plus simple du suréchantillonnage consiste à dupliquer aléatoirement des données  de la classe de minorité, ce qui peut entraîner une sur-apprentissage. Dans le sous-échantillonnage, la technique la plus simple consiste à supprimer aléatoirement des enregistrements de la classe majoritaire, ce qui peut entraîner une perte d'information.

Implémentons un exemple de base, qui utilise la méthode `DataFrame.sample` pour obtenir aléatoirement des échantillons de chaque classe:

In [None]:
# Nombre de valeurs par classe
count_class_0, count_class_1 = df.target.value_counts()

# Séparation des classes
df_class_0 = df[df['target'] == 0]
df_class_1 = df[df['target'] == 1]

#### Sous-échantillonnage aléatoire

In [None]:
df_class_0_under = df_class_0.sample(count_class_1)
df_test_under = pd.concat([df_class_0_under, df_class_1], axis=0)

print('Sous-échantillonnage aléatoire:')
print(df_test_under.target.value_counts())

df_test_under.target.value_counts().plot(kind='bar', title='Count (target)');

#### Suréchantillonnage aléatoire

In [None]:
df_class_1_over = df_class_1.sample(count_class_0, replace=True)
df_test_over = pd.concat([df_class_0, df_class_1_over], axis=0)

print('Suréchantillonnage aléatoire:')
print(df_test_over.target.value_counts())

df_test_over.target.value_counts().plot(kind='bar', title='Count (target)');

#### Module d'apprentissage en Python déséquilibré

Un certain nombre de techniques de ré-échantillonnage plus sophistiquées ont été proposées dans la littérature scientifique.

Par exemple, il est possible de regrouper les données de la classe majoritaire et d'effectuer le sous-échantillonnage en supprimant les données de chaque cluster, cherchant ainsi à préserver les informations. En sur-échantillonnage, au lieu de créer des copies exactes des données de la classe de minorité, nous pouvons introduire de petites variations dans ces copies, créant ainsi des échantillons synthétiques plus divers.

Appliquons certaines de ces techniques de rééchantillonnage en utilisant la librairie Python [imbalanced-learn](http://contrib.scikit-learn.org/imbalanced-learn/stable/). Elle est compatible avec scikit-learn et fait partie des projets scikit-learn-contrib.

In [None]:
#!pip install imblearn
import imblearn

Pour faciliter la visualisation, créons un petit échantillon de données non équilibré à l'aide de la méthode `make_classification`:

In [None]:
from sklearn.datasets import make_classification

X, y = make_classification(
    n_classes=2, class_sep=1.5, weights=[0.9, 0.1],
    n_informative=3, n_redundant=1, flip_y=0,
    n_features=20, n_clusters_per_class=1,
    n_samples=100, random_state=10
)

df = pd.DataFrame(X)
df['target'] = y
df.target.value_counts().plot(kind='bar', title='Count (target)');

Nous allons également créer une fonction de tracé à 2 dimensions, <code> plot_2d_space </ code>, pour afficher la répartition des données:

In [None]:
def plot_2d_space(X, y, label='Classes'):   
    colors = ['#1F77B4', '#FF7F0E']
    markers = ['o', 's']
    for l, c, m in zip(np.unique(y), colors, markers):
        plt.scatter(
            X[y==l, 0],
            X[y==l, 1],
            c=c, label=l, marker=m
        )
    plt.title(label)
    plt.legend(loc='upper right')
    plt.show()

Étant donné que le jeu de données comporte de nombreuses dimensions (caractéristiques) et que nos graphiques seront en 2D, la taille du jeu de données est réduite par analyse en composantes principales (PCA):

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X = pca.fit_transform(X)

plot_2d_space(X, y, 'Imbalanced dataset (2 PCA components)')

#### Sous-échantillonnage aléatoire et sur-échantillonnage avec apprentissage déséquilibré

In [None]:
from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(return_indices=True)
X_rus, y_rus, id_rus = rus.fit_sample(X, y)

print('Indices retirés :', id_rus)

plot_2d_space(X_rus, y_rus, 'Sous-échantillonnage aléatoire')

In [None]:
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler()
X_ros, y_ros = ros.fit_sample(X, y)

print(X_ros.shape[0] - X.shape[0], 'nouveaux points aléatoires')

plot_2d_space(X_ros, y_ros, 'Sur-échantillonnage aléatoire')

#### Sous-échantillonnage: liens Tomek

Les liens Tomek sont des paires d'instances très proches, mais de classes opposées. La suppression des occurrences de la classe majoritaire de chaque paire augmente l'espace entre les deux classes, facilitant ainsi le processus de classification.

![](https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/tomek.png?v=2)

Dans le code ci-dessous, nous utiliserons `ratio = 'majority'` pour rééchantillonner la classe majoritaire.

In [None]:
from imblearn.under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority')
X_tl, y_tl, id_tl = tl.fit_sample(X, y)

print('Indices retirés:', id_tl)

plot_2d_space(X_tl, y_tl, ' Sous-échantillonnage des liens Tomek')

#### Sous-échantillonnage: Centroids de cluster

Cette technique effectue un sous-échantillonnage en générant des centroïdes basés sur des méthodes de clustering. Les données seront préalablement regroupées par similarité, afin de préserver les informations.

Dans cet exemple, le dictionnaire `{0: 10}` pour le paramètre `ratio`, indique de préserver 10 éléments de la classe majoritaire (0) et conserver toutes les données de la classe minoritaire (1).

In [None]:
from imblearn.under_sampling import ClusterCentroids

cc = ClusterCentroids(ratio={0: 10})
X_cc, y_cc = cc.fit_sample(X, y)

plot_2d_space(X_cc, y_cc, 'Cluster Centroids under-sampling')

#### Suréchantillonnage: SMOTE

SMOTE (Synthetic Minority Oversampling TEchnique) consiste à synthétiser des éléments pour la classe minoritaire, sur la base de ceux qui existent déjà. Cela fonctionne de manière aléatoire en sélectionnant un point de la classe minoritaire et en calculant les k-voisins les plus proches pour ce point (k-NN). Les points synthétiques sont ajoutés entre le point choisi et ses voisins.

 ![](https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/smote.png)

Nous allons utiliser `ratio = 'minority'` pour rééchantillonner la classe de minorité.

In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(ratio='minority')
X_sm, y_sm = smote.fit_sample(X, y)

plot_2d_space(X_sm, y_sm, 'SMOTE over-sampling')

#### Sur-échantillonnage suivi d'un sous-échantillonnage

Nous pouvons maintenant combiner le suréchantillonnage et le suréchantillonnage, en utilisant les techniques des liens SMOTE et Tomek:

In [None]:
from imblearn.combine import SMOTETomek

smt = SMOTETomek(ratio='auto')
X_smt, y_smt = smt.fit_sample(X, y)

plot_2d_space(X_smt, y_smt, 'SMOTE + Tomek links')

#### Plus de liens

* Documentation imbalanced-learn :<br>
http://contrib.scikit-learn.org/imbalanced-learn/stable/index.html
* GitHub imbalanced-learn :<br>
https://github.com/scikit-learn-contrib/imbalanced-learn
* Comparaison de la combinaison des algorithmes de sur- et sous-échantillonnage:<br>
http://contrib.scikit-learn.org/imbalanced-learn/stable/auto_examples/combine/plot_comparison_combine.html
* Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research 16 (2002):<br>
https://www.jair.org/media/953/live-953-2037-jair.pdf

## Transformation des données

### Rééchelonnage ou normalisation

Séquence inspirée des exemples de code de la librairie `scikit-learn` de [Raghav RV](mailto:rvraghav93@gmail.com), [Guillaume Lemaitre](mailto:g.lemaitre58@gmail.com) et Thomas Unterthiner (License: BSD 3 clause)


In [None]:
import numpy as np

import matplotlib as mpl
from matplotlib import pyplot as plt
from matplotlib import cm

print(__doc__)

cmap = getattr(cm, 'jet_r', cm.jet_r)

def create_axes(title, figsize=(16, 6)):
    fig = plt.figure(figsize=figsize)
    fig.suptitle(title)

    # define the axis for the first plot
    left, width = 0.1, 0.22
    bottom, height = 0.1, 0.7
    bottom_h = height + 0.15
    left_h = left + width + 0.02

    rect_scatter = [left, bottom, width, height]
    rect_histx = [left, bottom_h, width, 0.1]
    rect_histy = [left_h, bottom, 0.05, height]

    ax_scatter = plt.axes(rect_scatter)
    ax_histx = plt.axes(rect_histx)
    ax_histy = plt.axes(rect_histy)

    # define the axis for the zoomed-in plot
    left = width + left + 0.2
    left_h = left + width + 0.02

    rect_scatter = [left, bottom, width, height]
    rect_histx = [left, bottom_h, width, 0.1]
    rect_histy = [left_h, bottom, 0.05, height]

    ax_scatter_zoom = plt.axes(rect_scatter)
    ax_histx_zoom = plt.axes(rect_histx)
    ax_histy_zoom = plt.axes(rect_histy)

    # define the axis for the colorbar
    left, width = width + left + 0.13, 0.01

    rect_colorbar = [left, bottom, width, height]
    ax_colorbar = plt.axes(rect_colorbar)

    return ((ax_scatter, ax_histy, ax_histx),
            (ax_scatter_zoom, ax_histy_zoom, ax_histx_zoom),
            ax_colorbar)


def plot_distribution(axes, X, y, hist_nbins=50, title="", x0_label="", x1_label=""):
    ax, hist_X1, hist_X0 = axes

    ax.set_title(title)
    ax.set_xlabel(x0_label)
    ax.set_ylabel(x1_label)

    # The scatter plot
    colors = cmap(y)
    ax.scatter(X[:, 0], X[:, 1], alpha=0.5, marker='o', s=5, lw=0, c=colors)

    # Histogramme pour axe X1 (feature 5)
    hist_X1.set_ylim(ax.get_ylim())
    hist_X1.hist(X[:, 1], bins=hist_nbins, orientation='horizontal', color='grey', ec='grey')
    hist_X1.axis('off')

    # Histogramme pour axe X0 (feature 0)
    hist_X0.set_xlim(ax.get_xlim())
    hist_X0.hist(X[:, 0], bins=hist_nbins, orientation='vertical', color='grey', ec='grey')
    hist_X0.axis('off')

def make_plot(title, X):
    ax_zoom_out, ax_zoom_in, ax_colorbar = create_axes(title)
    axarr = (ax_zoom_out, ax_zoom_in)
    plot_distribution(axarr[0], X, y, hist_nbins=200,
                      x0_label="Revenu médian",
                      x1_label="Nombre d'occupants",
                      title="Données complètes")

    # On enleve les outliers 
    zoom_in_percentile_range = (0, 99)
    cutoffs_X0 = np.percentile(X[:, 0], zoom_in_percentile_range)
    cutoffs_X1 = np.percentile(X[:, 1], zoom_in_percentile_range)

    non_outliers_mask = (
        np.all(X > [cutoffs_X0[0], cutoffs_X1[0]], axis=1) &
        np.all(X < [cutoffs_X0[1], cutoffs_X1[1]], axis=1))
    plot_distribution(axarr[1], X[non_outliers_mask], y[non_outliers_mask],
                      hist_nbins=200,
                      x0_label="Revenu médian",
                      x1_label="Nombre d'occupants",
                      title="Sans Outliers")

    norm = mpl.colors.Normalize(y_full.min(), y_full.max())
    mpl.colorbar.ColorbarBase(ax_colorbar, cmap=cmap,
                              norm=norm, orientation='vertical',
                              label='Valeur de la maison *100 K$')



#### Données brutes
Doing nothing this print like that : 

In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import minmax_scale
# Données des maisons californiennes : La valeur à prédire est la valeur de la maison en centaine de milliers de dollars US
dataset = fetch_california_housing()
X_full, y_full = dataset.data, dataset.target
#print(dataset.DESCR)
# On ne prends que 2 caractéristiques pour faciliter la visualisation : la 0 est distribution 'heavy-tailed', et la 5 a quelques données aberrantes très prononcées
X = X_full[:, [0, 5]]

# # On reéchelonne la donnée de sortie entre 0 et 1 pour mieux visualiser la légende (étaler la couleur)
y = minmax_scale(y_full)

data = ('Unscaled data', X)
make_plot(*data)

#### Standardisation 

Pour rappel : $x_i = \frac{x_i - \bar{x}}{\sigma(x)}$

In [None]:
from sklearn.preprocessing import StandardScaler
data = ('Data after standard scaling', StandardScaler().fit_transform(X))
make_plot(*data)

#### Min-Max

Pour rappel : $x_i = \frac{x_i - \min_i{x_i}}{\max_i{x_i}-\min_i{x_i}}$

In [None]:
from sklearn.preprocessing import MinMaxScaler
data = ('Data after min-max scaling', MinMaxScaler().fit_transform(X))
make_plot(*data)

#### Max-Abs

Pour rappel : $x_i = \frac{x_i}{\max_i{|x_i|}}$

In [None]:
from sklearn.preprocessing import MaxAbsScaler
data = ('Data after max-abs scaling', MaxAbsScaler().fit_transform(X))
make_plot(*data)

#### Robuste (basé sur les quantiles 1 et 3)

Pour rappel : $x_i = \frac{x_i - Q_1(x)}{Q_3(x) - Q_1(x)}$

Le centrage et la mise à l'échelle s'effectuent indépendamment sur chaque caractéristique en calculant les statistiques pertinentes sur les échantillons de l'ensemble d'apprentissage. La médiane et l'intervalle interquartile sont ensuite stockées pour être utilisées sur des données ultérieures à l'aide de la méthode de transformation.

La standardisation est une pratique courante pour de nombreux estimateurs d'apprentissage automatique. Cela se fait généralement en supprimant la moyenne et en divisant par la variance. Cependant, les valeurs aberrantes peuvent souvent influencer négativement la moyenne/variance de l'échantillon. Dans ce cas, la médiane et l’intervalle interquartile donnent souvent de meilleurs résultats.

In [None]:
from sklearn.preprocessing import RobustScaler
data = ('Data after robust scaling', RobustScaler(quantile_range=(25, 75)).fit_transform(X))
make_plot(*data)

#### Transformation par puissance

Famille de transformations paramétriques et monotones appliquées pour rendre les données plus semblables à celles de Gauss. Ceci est utile pour modéliser les problèmes liés à l'hétéroscédasticité (variance non constante) ou à d'autres situations dans lesquelles une normalité est souhaitée.

In [None]:
from sklearn.preprocessing import PowerTransformer
data = ('Données après transformation par puissance (Yeo-Johnson)', PowerTransformer(method='yeo-johnson').fit_transform(X))
make_plot(*data)
data = ('Données après transformation par puissance (Box-Cox)', PowerTransformer(method='box-cox').fit_transform(X))
make_plot(*data)

#### Transformation par Quantile

La transformation est appliquée à chaque entité indépendamment. La fonction de densité cumulée d'une entité est utilisée pour projeter les valeurs d'origine. Les valeurs de caractéristiques des données nouvelles / invisibles qui sont inférieures ou supérieures à la plage ajustée seront mappées aux limites de la distribution en sortie. Notez que cette transformation est non linéaire. Cela peut fausser les corrélations linéaires entre les variables mesurées à la même échelle, mais rend les variables mesurées à différentes échelles plus directement comparables.

In [None]:
from sklearn.preprocessing import QuantileTransformer

data = ('Données après transformation par quantile (gaussian)', QuantileTransformer(output_distribution='normal').fit_transform(X))
make_plot(*data)
data = ('Données après transformation par quantile (uniforme)', QuantileTransformer(output_distribution='uniform').fit_transform(X))
make_plot(*data)


#### Normalisation 
 
Pour rappel : $x_i = \frac{x_i}{ ||x_i|| }$

La mise à l'échelle des entrées en fonction des normes de l'unité est une opération courante pour la classification de texte ou la mise en cluster, par exemple. Par exemple, le produit scalaire de deux vecteurs TF-IDF normalisés en $L_2$ est la similarité cosinus des vecteurs et constitue la métrique de similarité de base pour le modèle d'espace vectoriel couramment utilisé par la communauté de récupération d'informations.

In [None]:
from sklearn.preprocessing import Normalizer
data = ('Données après transformation par normalisation L2', Normalizer().fit_transform(X))
make_plot(*data)

#### Une autre vision de ces rééchantillonneurs

Pour mieux comprendre la différence entre eux voici une visualisation de la caractéristique `Revenu médian` avant et après transformation.

In [None]:
dfX = pd.DataFrame(dataset.data, columns=dataset.feature_names)
dfX = dfX.drop(dataset.feature_names[1:],axis=1)

#col = dfX.MedInc.values.reshape(-1, 1)

scalers = [
    ('Standard', StandardScaler()),
    ('Min-Max', MinMaxScaler()),
    ('Max-Abs', MaxAbsScaler()),
    ('Robuste', RobustScaler(quantile_range=(25, 75))),
    ('Quantile (gaussian)', QuantileTransformer(output_distribution='normal')),
    ('Quantile (uniforme)', QuantileTransformer(output_distribution='uniform'))
]

for scaler in scalers:
    dfX[scaler[0]] = scaler[1].fit_transform(col)
    

dfX.describe()

In [None]:
import seaborn as sns
sns.set(style="white", color_codes=True)

plt.figure(figsize=(15,5))

cpt = 1
f = plt.figure(figsize=(30,12))
for scaler in scalers:
    name = scaler[0]
    ax = f.add_subplot(2,len(scalers),cpt)
    
    sns.distplot(dfX.MedInc,ax=ax)
    ax.axvline(dfX.MedInc.mean(), color='k', linestyle='dashed', linewidth=1)
    sns.distplot(dfX[name],ax=ax)
    ax.axvline(dfX[name].mean(), color='k', linestyle='dashed', linewidth=1)
    ax.set_title(name)

    ax = f.add_subplot(2,len(scalers),cpt+len(scalers))
    g = sns.regplot(x="MedInc", y=name, data=dfX,ax=ax)
    cpt+=1

### Réduction de la dimensionnalité

Séquence inspirée des exemples de code de la librairie `scikit-learn` de [Fabian Pedregosa](mailto:fabian.pedregosa@inria.fr), [Olivier Grisel](mailto:olivier.grisel@ensta.org), [Mathieu Blondel](mailto:mathieu@mblondel.org), et Gael Varoquaux (License: BSD 3 clause)

In [None]:
print(__doc__)
from time import time

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import offsetbox
from sklearn import (manifold, datasets, decomposition, ensemble,
                     discriminant_analysis, random_projection)

digits = datasets.load_digits(n_class=6)
X = digits.data
y = digits.target
n_samples, n_features = X.shape
n_neighbors = 30
n_components = 2

# On définit une fonction pour adfficher la projection
def plot_embedding(X, title=None):
    x_min, x_max = np.min(X, 0), np.max(X, 0)
    X = (X - x_min) / (x_max - x_min)

    plt.figure()
    ax = plt.subplot(111)
    for i in range(X.shape[0]):
        plt.text(X[i, 0], X[i, 1], str(y[i]),
                 color=plt.cm.Set1((y[i]+1) / 10.),
                 fontdict={'weight': 'bold', 'size': 9})
    plt.xticks([]), plt.yticks([])
    if title is not None:
        plt.title(title)

#### Exemples de données

In [None]:
# Afficher quelques images de chiffres pour l'exemple
n_img_per_row = 20
img = np.zeros((10 * n_img_per_row, 10 * n_img_per_row))
for i in range(n_img_per_row):
    ix = 10 * i + 1
    for j in range(n_img_per_row):
        iy = 10 * j + 1
        img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))

plt.imshow(img, cmap=plt.cm.binary)
plt.xticks([])
plt.yticks([])
plt.title('Une sélection des 5 premiers chiffres de MNIST')

#### Projection aléatoire

In [None]:
%%time
# Projection aléatoire 2D (basiquement mélanger) à partir d'une matrice alétoire
rp = random_projection.SparseRandomProjection(n_components=n_components, random_state=42)
X_projected = rp.fit_transform(X)
plot_embedding(X_projected, "Projection aléatoire des chiffres")

#### Analyse en composante principales (PCA)

In [None]:
%%time
# Projection des chiffres par les 2 principaux composants sur la matrice de covariance
X_pca = decomposition.PCA(n_components=n_components).fit_transform(X)
plot_embedding(X_pca, "Projection des chiffres par Composante Principale")

#### PCA pour données sparses (Latent Sementic)

In [None]:
%%time
# Projection des chiffres par les 2 principaux composants LSA (latent semantic analysis) = PCA pour données sparse.
X_pca = decomposition.TruncatedSVD(n_components=n_components).fit_transform(X)
plot_embedding(X_pca, "Projection des chiffres par Composante Principale")

#### Analyse par discriminants linéaires (LDA)

In [None]:
%%time
# Projection des chiffres par les deux principaux discriminants linéaires
X2 = X.copy()
X2.flat[::X.shape[1] + 1] += 0.01  # X doit être inversable ... 
X_lda = discriminant_analysis.LinearDiscriminantAnalysis(n_components=n_components).fit_transform(X2, y)
plot_embedding(X_lda, "Projection des chiffres par Discrimination Linéaire")

#### Isomap

In [None]:
%%time
# Projection des chiffres par Isomap
X_iso = manifold.Isomap(n_neighbors, n_components=n_components).fit_transform(X)
plot_embedding(X_iso, "Projection des chiffres par Isomap")

#### Encodage Locallement Linéaire (LLE)

In [None]:
%%time
# Encodage localement linéaire des chiffres
clf = manifold.LocallyLinearEmbedding(n_neighbors, n_components=n_components, method='standard')
X_lle = clf.fit_transform(X)
plot_embedding(X_lle, "Encodage localement lonéaire des chiffres")

#### Alignement des tangentes locales (LSTA)

In [None]:
%%time
# LTSA : Alignement des tangentes locales des chiffres
clf = manifold.LocallyLinearEmbedding(n_neighbors, n_components=n_components, method='ltsa')
X_ltsa = clf.fit_transform(X)
plot_embedding(X_ltsa,
               "LTSA : Alignement des tangentes locales des chiffres")

#### Multidimensional Scaling (MDS)

In [None]:
%%time
# Encodage MDS des chiffres
clf = manifold.MDS(n_components=n_components, n_init=1, max_iter=100)
X_mds = clf.fit_transform(X)
plot_embedding(X_mds, "Encodage MDS des chiffres")

#### Forêt d'Isolation

In [None]:
%%time
# Encodage par arbres aléatoires des chiffres
hasher = ensemble.RandomTreesEmbedding(n_estimators=200, random_state=0, max_depth=5)
X_transformed = hasher.fit_transform(X)
pca = decomposition.TruncatedSVD(n_components=n_components)
X_reduced = pca.fit_transform(X_transformed)

plot_embedding(X_reduced, "Encodage par arbres aléatoires des chiffres")

#### Encodage Spectral

In [None]:
%%time
# Encodage Spectral des chiffres
embedder = manifold.SpectralEmbedding(n_components=n_components, random_state=0, eigen_solver="arpack")
X_se = embedder.fit_transform(X)

plot_embedding(X_se,"Encodage Spectral des chiffres")

#### t-SNE

In [None]:
%%time
# Encodage t-SNE des chiffres
# Visualizing : https://github.com/oreillymedia/t-SNE-tutorial
tsne = manifold.TSNE(n_components=n_components, init='pca', random_state=0)
X_tsne = tsne.fit_transform(X)

plot_embedding(X_tsne,"Encodage t-SNE des chiffres")

### Variables catégoriques

**Regroupement de catégories en une seule valeur:**

Exemple: Vous avez une variable catégorielle `pays` qui a 180 valeurs uniques. Vous voulez voir les 3 pays les plus importants seulement et placer tous les autres pays dans une valeur "autre".

```
# Afficher le nombre de valeurs uniques de chaque variable catégorique dans les données
for i in df.columns:
    if df[i].dtypes=='object': 
        unique_cat=len(df[i].unique())
        print("La carctéristique '{i}' a {unique_cat} catégories uniques".format(col_name=col_name, unique_cat=unique_cat))

# Afficher le nombre de valeurs de chaque variable catégorique
print(df['pays'].value_counts())

# Catégoriser les catégories moins fréquentes comme "autres"
def repl(x):
    if x == 'US': return 'US'
    elif x == 'BR': return 'BR'
    elif x == 'ES': return 'ES'
    else: return 'Other'
    
df['pays'] = df['COUNTRY'].apply(repl)
print(df['pays'].value_counts().sort_values(ascending=False))
```

**Regroupement de variables numériques en catégories**

**Catégorie de taille égales :**

```
df['var'] = 0
var = pd.qcut(x=COL1, q=3, labels=["good", "medium", "bad"])
print(df['var'].value_counts().sort_values(ascending=False))
```
Ajustez le nombre de catégories (q) et les étiquettes.

**Catégories par intervalles identiques :**

```
bins = [0, 20, 40, 60, 80, 100] 
df.var = pd.cut(x=COL1, bins, labels=['Very low', 'Low', 'Medium', 'High', 'Very high']) 
print(data['var'].value_counts().sort_values(ascending = False))
```
Ajustez les catégories en spécifiant les seuils (doit avoir un de plus que le nombre de catégories/étiquettes). Par défaut, les emplacements incluent le bord le plus à droite, définissez l'argument `right = False` si les limites de droite ne doivent pas être inclues.

### Encoder des variables categoriques

**Encoder une variable booléenne en la transformant en entier :**

```
df['BOOL'] = (df.COL1=="ABC").astype(int)
dta.head()
```
Dans cet exemple, COL1 contient des valeurs de chaîne. BOOL sera égal à 1 si COL1 contient "ABC".

**Encoder manuellement en mappant un dictionnaire :**

```
dic = {'Yes': 1, 'No': 2}
df['VAR'] = df['VAR'].map(dic)
```

**Encoder automatiquement (OneHot) :**

```
from sklearn.preprocessing import OneHotEncoder

onehotencoder = OneHotEncoder(categorical_features = [0])
x = onehotencoder.fit_transform(x).toarray()

```
La colonne devant être encodée est spcécifiées dans le constructeur, [0] dans l'exemple. Les données `x` sont ensuite transformées avec l’objet onehotencoder. Après ces étapes il y a maintenant autant de nouvelles colonnes dans le jeu de données que de catégories dans la colonne [0].


# On essaie ?
---

On charge Pandas, Numpy et Matplotlib

In [None]:
import matplotlib.pyplot as plt
import scipy.stats as stats
import seaborn as sns
import pandas as pd
import numpy as np

Ce dataset (trouvé sur [Kaggle](https://www.kaggle.com/lava18/google-play-store-apps) comme les autres), est un *scraping* d'environ 10000 applications qu'on retrouve sur le Google Play Store incluant les champs suivants : 

* App: Application name
* Category: the app belongs to
* Rating: Overall user rating of the app (as when scraped)
* Reviews: Number of user reviews for the app (as when scraped)
* Size: Size of the app (as when scraped)
* Installs: Number of user downloads/installs for the app (as when scraped)
* Type: Paid or Free
* Price: Price of the app (as when scraped)
* Content: Rating Age group the app is targeted at - Children / Mature 21+ / Adult
* Genres: An app can belong to multiple genres (apart from its main category). For eg, a musical family game will belong to Music, Game, Family genres.
* Last Updated: Date when the app was last updated on Play Store (as when scraped)
* Current Ver: Current version of the app available on Play Store (as when scraped)
* Android Ver: Min required Android version (as when scraped)

On peut essayer de préparer adéquatement ce jeu de données en sachant que : 
* Les Ratings sont manquantes dans beaucoup de cas
* Le Type et le prix sont débalancés (93/7) et donc peut-être difficile à prédire
* Les données sont toutes (sauf les ratings) de type string donc si on veut régresser ou classifier il y'a du travail d'identification et de transformation à faire

On essaie ?

In [None]:
# Kaggle dataset : https://www.kaggle.com/lava18/google-play-store-apps
data = pd.read_csv('googleplaystore.csv')
print(data.dtypes)
data.head(10)

In [None]:
data.describe()

### Sources Web
* http://scikit-learn.org
* https://www.kaggle.com/timolee/a-home-for-pandas-and-sklearn-beginner-how-tos
* https://elitedatascience.com/feature-engineering-best-practices
* https://towardsdatascience.com/automated-feature-engineering-in-python-99baf11cc219
* https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/
* https://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding


<a id="note1">Test MCAR de Little</a>

Prendre la moyenne des données avec des valeurs manquantes et la moyenne des données sans valeurs manquantes. Si elles sont identiques/similaires, il est plus probable que vos données soient en MCAR (`Missing Completely At Random`).
[1]	Roderick J. A. Little. (1988). A Test of Missing Completely at Random for Multivariate Data with Missing Values. Journal of the American Statistical Association, 83(404), 1198-1202. doi:10.2307/2290157