# **Projet P5 - une solution**

Analyse du jeu de données [Census Dataset](https://archive.ics.uci.edu/ml/datasets/census+income) à partir du dépot officiel : UCI Machine Learning Repository.  

Il y a 3 datasets:
- Le training set : [adult.data](https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data)
- La description du dataset : [adult.names](https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names)
- Le test set : [adult.test](https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test)

## **1. Importing Libraries**

In [None]:
import numpy as np
import pandas as pd
import requests
import seaborn as sns
from matplotlib import pyplot as plt
import os
import pickle

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc, precision_recall_fscore_support
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV, StratifiedKFold, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler, RobustScaler, MinMaxScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer,make_column_selector

## **2. Charger les données**

On peut télécharger les données _"à la main"_ mais on peut aussi utiliser le module requests pour aller les chercher directement sur UCI Machine Learning Repository. L'intérêt est de pouvoir mettre à jour directement les données s'il y avait des modifications lorsqu'on réexécute le notebook. Intérêt limité dans notre cas puisque le jeu date de 1996 et n'est plus vraiment mis à jour. C'est toujours un bon exercice de le faire !

In [None]:
# La cellule est commentée car les données ont été chargées récemment ce n'est pas la peine de recommencer
"""def load_data(path, urls):
    if not os.path.exists(path):
        os.mkdir(path)

    for url in urls:
        data = requests.get(url).content
        filename = os.path.join(path, os.path.basename(url))
        with open(filename, "wb") as file:
            file.write(data)

urls = ["http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data",
        "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names",
        "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test"]

load_data('data', urls)"""

**Quelques remarques :**
>- Les jeu de données n'ont pas de noms de colonnes par défaut, il faut donc les ajouter manuellement. On les récupère dans le data.names
>- Comme évoqué, certaines observations on des espaces avant et après les valeurs. On peut passer une expression régulière pour le paramètre **sep** de la fonction [read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html). " \*, \*"
>- Les valeurs manquantes sont indiquées par **'?'**. une fois qu'on l'a remarqué on peut fixer le paramètre **na_values** 
>- Le jeu de données test contient une première ligne bizarre donc on peut ajouter le paramètre **skiprows=1**

In [None]:
columns = ["age", "workClass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain",
           "capital_loss", "hours_per_week", "native_country", "income"]

train_data = pd.read_csv('data/adult.data', names = columns, sep=' *, *', na_values='?', engine='python')
test_data = pd.read_csv('data/adult.test', names = columns, sep=' *, *', skiprows =1, na_values='?', engine='python')

In [None]:
train_data.head()

In [None]:
test_data.head()

**ATTENTION** on peut remarquer que la colonne *income* de test_data a un "." à la fin. Il ne faudra pas l'oublier au moment d'encoder la variable y en 0-1.

## **3. Analyse exploratoire**

### **Informations générales sur le dataset**

On cherche les valeurs manquantes qu'il va falloir au choix supprimer ou imputer.

In [None]:
train_data.info()

In [None]:
test_data.info()

In [None]:
fig, ax = plt.subplots(1,2,figsize=(20,8))
sns.heatmap(train_data.isnull(), yticklabels=False, cbar=False, cmap='inferno', ax=ax[0]);
sns.heatmap(test_data.isnull(), yticklabels=False, cbar=False, cmap='inferno', ax=ax[1]);

**Quelques remarques**
>- Nombre d'observations : **32561** dans le train set et **16281** dans le test set
>- Présence de variables catégoriques et numériques
>- Les colonnes **workClass**, **occupation**, **native_country** ont des valeurs manquantes

On va pas faire l'imputation des valeurs manquantes dans cette étape mais directement dans la Pipeline de preprocessing que l'on créera un peu plus loin. Ce n'est pas du tout obligatoire et on pourrait choisir de s'en occuper ici et maintenant.

### **Un peu de visualisation**

On regarde maintenant plus en détail nos variables : leur distribution, leur plage de valeurs, des éventuelles corrélations

#### **Cas des variables numériques**

On peut sélectionner les valeurs numériques avec la fonction [select_dtypes](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.select_dtypes.html)

In [None]:
varnum = train_data.select_dtypes(include=['int'])
varnum.columns

**Quelques remarques**
> Les variables *age*, *education_num* et *hours_per_week* sont suffisament explicites. Pour les autres :
>- *fnlwgt* : poids d'échantillonage, on ne s'en servira pas ici
>- *capital_gain/loss* : revenu ou perte dûs à d'autres sources que le salaire

In [None]:
varnum.hist(figsize=(10,10));

In [None]:
varnum.describe()

**Quelques remarques**
>- Pas de valeurs manquantes pour les variables numériques
>- Échelles très différentes et donc nécessité de passer par l'étape *feature scaling*

#### **Cas des variables catégoriques**

In [None]:
varcat = train_data.select_dtypes(include=['object'])
varcat.columns

In [None]:
fig = plt.figure(figsize=(22,28))
plt.subplots_adjust(wspace=0.4, hspace=0.3)
for i in range(varcat.shape[1]-1):
    var = varcat.columns[i]
    fig.add_subplot(4,2,i+1)
    sns.countplot(y=var, hue='income', data=varcat);

**Quelques remarques**
> Les variables *workClass*, *occupation* et *native_country* ont des valeurs manquantes : pour simplifier, on va imputer la valeur la plus fréquente. Une stratégie pourrait être de mettre en place en kNN en prenant comme train set les données complètes et affecter à chaque individu le mode des plus proches voisins.

#### **Nettoyage des datasets et création de X et y**

On a choisi de ne pas conserver : *education* et *fnlwgt*. Par ailleurs, on peut ici construire notre matrice X des variables indépendantes et y le vecteur contenant la variable prédite. De plus, notre variable prédite prend 2 valeurs : "<=50K" et ">50K". On va recoder donc cette variable en 0 et 1 directement.

In [None]:
y_train = train_data["income"].apply(lambda x:0 if x=='<=50K' else 1)
y_test = test_data["income"].apply(lambda x:0 if x=='<=50K.' else 1) #on n'oublie pas le "."

In [None]:
X_train = train_data.drop(['fnlwgt', 'education', 'income'], axis=1)
X_test = test_data.drop(['fnlwgt', 'education', 'income'], axis=1)

In [None]:
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

In [None]:
y_test.value_counts()

## **4. Pipeline pour le preprocessing**

Il va falloir gérer différement les valeurs catégoriques et numériques. Les variables numériques doivent être *"mises à l'échelle"* alors que les variables catégoriques doivent être encodées en dummies.

Comme évoqué, on peut utiliser pour ces enchaînements de processus un [Pipeline](http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html). Parfois, on peut aussi avoir besoin de construire nous-même nos *transformers* qui pourront être utilisés directement dans un Pipeline mais ce ne devrait pas être le cas ici.

Pour les variables numériques, il n'y a pas d'imputation à faire donc on a juste à utiliser un scaler (StandardScaler ou RobustScaler selon la décision prise). En revanche pour les variables catégoriques, il faut d'abord imputer les valeurs manquantes puis encoder numériquement les variables. On va donc d'abord créer une Pipeline pour la gestion des variables catégoriques qu'on pourra ensuite intégrer dans un objet de la classe ColumnTransformer.

In [None]:
# la Pipeline pour les variables catégoriques
cat_pipe = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder(drop='first')) #handle_unknown='ignore' paramètre pour ignore les nouvelles modalités s'il y en a dans le test set
])

In [None]:
# ColumnTransformer
preprocessor = ColumnTransformer(transformers=[
    ("num", StandardScaler(), make_column_selector(dtype_include=np.number)),
    ("cat", cat_pipe, make_column_selector(dtype_exclude=np.number))
])

On ajuste notre proprecessor sur X_train et on transforme ensuite X_train et X_test avec le même preprocessor.

In [None]:
# Preprocessor appliqué aux données X_train et X_test
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

## **5. Entraînement du modèle**

In [None]:
reglog = LogisticRegression(solver='liblinear', max_iter=1000)

In [None]:
reglog.fit(X_train_processed, y_train)

In [None]:
# On peut aussi faire une nouvelle pipeline contenant le processor + estimator 
reglog2 = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(solver='liblinear', max_iter=1000))
])

# On ajuste ensuite cette pipeline sur X_train
reglog2.fit(X_train, y_train)

## **6. Évaluation du modèle**

In [None]:
print('train =', reglog.score(X_train_processed,y_train), 'et test =', reglog.score(X_test_processed,y_test))

In [None]:
print('train =', reglog2.score(X_train,y_train), 'et test =', reglog2.score(X_test,y_test))

In [None]:
print(classification_report(y_test,reglog.predict(X_test_processed)))

Comme on va vraisemblablement tester plusieurs modèles et les évaluer on peut définir une fonction qui affiche un certain nombre d'informations et de graphes pour évaluer un modèle de classification donné. On pourra y mettre :
- les mesures de l'accuracy, précision et recall
- la matrice de confusion
- la courbe ROC avec l'AUC

In [None]:
def evaluation(model):
    y_pred = model.predict(X_test_processed)
    proba_1 = model.predict_proba(X_test_processed)[:, 1]
    fpr, tpr, thresholds = roc_curve(y_test, proba_1, pos_label=1, drop_intermediate=False)
    aucf = auc(fpr, tpr)
    cm = confusion_matrix(y_pred, y_test)
    accuracy = accuracy_score(y_pred, y_test)
    precision, rappel = precision_recall_fscore_support(y_test, y_pred, pos_label=1, average='macro')[0:2]

    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18,8))
    ax1.plot([0, 1], [0, 1], 'k--')
    ax1.plot(fpr, tpr, label='auc=%1.5f' % aucf)
    ax1.set_title('Courbe ROC')
    ax1.text(0.5, 0.3, "plus mauvais que\nle hasard dans\ncette zone")
    ax1.legend()

    sns.heatmap(cm, annot=True, fmt="d", linewidths=0.5, cmap="YlGnBu", ax=ax2)
    ax2.set_xlabel('Classes prédites')
    ax2.set_ylabel('Classes réelles')

    plt.suptitle("Accuracy = {:0.5} ; Precision = {:0.5} ; Rappel = {:0.5}".format(accuracy,precision,rappel), fontsize = 15 )
    plt.show()

In [None]:
evaluation(reglog)

## **7. Validation Croisée**

On va utiliser une validation croisée ave la méthode [StratifiedKFold](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html) et [cross_val_score](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) pour calculer le score sur chaque découpage de la validation croisée. Le paramètre **cv** détermine la méthode utilisée.

In [None]:
scores = cross_val_score(reglog, X_train_processed, y_train, cv=5)
print(scores)
print(np.mean(scores))

## **8. Affinage des hyperparamètres**

Les paramètres par défaut de la régression logistique sont les suivants :  
LogisticRegression(*C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False*)
          
On peut utiliser la validation croisée et plus particulièrement la classe [GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) pour affiner les hyperparamètres en testant le modèle pour différentes valeurs de ces paramètres que l'on spécifie.          

In [None]:
# On crée notre liste d'hyperparamètres à tester sous forme de dictionnaire qui sera ensuite passé en paramètre de GridSearchCV
hyperparam = dict(C=[0.01,0.1,1,10,100,1000], penalty=['l1', 'l2'])

In [None]:
reglog_cv = GridSearchCV(estimator = reglog, param_grid = hyperparam, cv=StratifiedKFold(5))
reglog_cv.fit(X_train_processed, y_train)

In [None]:
# Affichage des hyperparamètres optimaux et de l'accuracy pour chaque jeu d'hyperparamètres
print("Meilleurs hyperparamètres sur le jeu d'entraînement:")
print(reglog_cv.best_params_)
print("\nRésultats de la validation croisée :")
for mean, std, params in zip(
        reglog_cv.cv_results_['mean_test_score'], # score moyen
        reglog_cv.cv_results_['std_test_score'],  # écart-type du score
        reglog_cv.cv_results_['params']           # valeur de l'hyperparamètre
    ):

    print("'accuracy' = {:.5f} (+/-{:.03f}) for {}".format(mean,std*2,params))

## **9. Sauvegarde du modèle avec le module pickle**

Maintenant qu'on a fait tout le boulot, on pourrait vouloir sauvegarder le modèle pour le réutiliser plus tard pour prédire de nouvelles données par exemple. On peut faire ça avec [pickle](https://docs.python.org/2/library/pickle.html).

In [None]:
# sauvegarder le modèle
filename = 'logistique_final.sav'
pickle.dump(reglog_cv.best_estimator_, open(filename, 'wb'))

In [None]:
# recharger le modèle
logisitique_sauvegarde = pickle.load(open(filename, 'rb')) 
print(logisitique_sauvegarde)

## **10. Autres modèles**

### **Un kNN**

On effectue directement l'étape de validation croisée pour déterminer les meilleurs hyperparamètres. 

In [None]:
# Cellule commentée car temps d'exécution un peu long : on obtient k=22
# On fixe les valeurs des hyperparamètres à tester
# On peut tester 'metric':['euclidean','manhattan'], 'weights':['uniform','distance'] mais c'est long
# et on obtient 'euclidean' et 'uniform' comme meilleurs param
"""hyperparam = {'n_neighbors':list(range(2,41,2))}
knn_cv = GridSearchCV(KNeighborsClassifier(), param_grid=hyperparam, cv=4, scoring='accuracy')
knn_cv.fit(X_train_processed, y_train)

print("Meilleurs hyperparamètres sur le jeu d'entraînement:")
print(knn_cv.best_params_)
print("\nRésultats de la validation croisée :")
for mean, std, params in zip(knn_cv.cv_results_['mean_test_score'],knn_cv.cv_results_['std_test_score'], knn_cv.cv_results_['params']):
    print("'accuracy' = {:.5f} (+/-{:.03f}) for {}".format(mean,std*2,params))"""

In [None]:
knn = KNeighborsClassifier(n_neighbors=22)
knn.fit(X_train_processed,y_train)

In [None]:
# Évaluation du modèle
evaluation(knn)

### **Un SVM**

In [None]:
# Attention,c'est un peu long. On pourrait aussi tester d'autres hyperparamètres (kernel, gamma, etc...)
hyperparam = {'C': [0.001, 1, 100, 1000]}
svm_cv = GridSearchCV(SVC(kernel = 'rbf', random_state=0), param_grid=hyperparam, cv=3, scoring='accuracy')
svm_cv.fit(X_train_processed, y_train)

# Affichage des hyperparamètres optimaux et de l'accuracy pour chaque jeu d'hyperparamètres
print("Meilleurs hyperparamètres sur le jeu d'entraînement:")
print(svm_cv.best_params_)
print("\nRésultats de la validation croisée :")
for mean, std, params in zip(svm_cv.cv_results_['mean_test_score'], svm_cv.cv_results_['std_test_score'], svm_cv.cv_results_['params']):
    print("'accuracy' = {:.5f} (+/-{:.03f}) for {}".format(mean,std*2,params))

On peut ajouter le paramètre `probability=True` pour avoir un calcul des probabilités et pouvoir tracer la courbe ROC. Pour rappel, ce calcul se fait par validation croisée en utilisant une régression logistique. Plusieurs problèmes :
- les probabilités obtenues ne sont pas toujours en accord avec la prédiction du classifieur SVM
- cela augmente considérablement le temps d'exécution

In [None]:
svm = SVC(C=1, probability=True)
svm.fit(X_train_processed, y_train)

In [None]:
evaluation(svm)