# 📝 Exercice 2.2

## Travailler avec des données numériques

Dans le notebook précédent, nous avons entraîné un modèle de k-plus proches voisins sur quelques données.

Cependant, nous avons trop simplifié la procédure en chargeant un jeu de données qui contenait exclusivement des données numériques. De plus, nous avons utilisé des jeux de données déjà divisés en jeux d'entraînement et de test.

Dans ce notebook, nous visons à :

* identifier les données numériques dans un jeu de données hétérogène ;
* Sélectionner le sous-ensemble de colonnes correspondant aux données numériques ;
* utiliser une aide de scikit-learn pour séparer les données en ensembles d'entraînement et de test ;
* formation et évaluation d'un modèle scikit-learn plus complexe.

Nous commencerons par charger l'ensemble de données de recensement des adultes utilisé pendant l'exploration l'exploration des données dont le chemin est 'datasets/adult-census.csv'.

## Chargement de l'ensemble des données

Comme dans le notebook précédent, nous nous appuyons sur pandas pour ouvrir le fichier CSV en un dataframe pandas.

In [15]:
import pandas as pd

df = pd.read_csv('../datasets/adult-census.csv')
print(df)

       age      workclass      education  education-num       marital-status  \
0       25        Private           11th              7        Never-married   
1       38        Private        HS-grad              9   Married-civ-spouse   
2       28      Local-gov     Assoc-acdm             12   Married-civ-spouse   
3       44        Private   Some-college             10   Married-civ-spouse   
4       18              ?   Some-college             10        Never-married   
...    ...            ...            ...            ...                  ...   
48837   27        Private     Assoc-acdm             12   Married-civ-spouse   
48838   40        Private        HS-grad              9   Married-civ-spouse   
48839   58        Private        HS-grad              9              Widowed   
48840   22        Private        HS-grad              9        Never-married   
48841   52   Self-emp-inc        HS-grad              9   Married-civ-spouse   

               occupation relationship 

L'étape suivante consiste à séparer la cible des données. Nous avons effectué la même procédure dans le notebook précédent.

In [16]:
df_data = df.drop(columns=['class'])

In [17]:
df_target = df['class']

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p class="last"> A partir de maintenant, nous utilisons le nom <tt class="docutils literal">data</tt> et <tt class="docutils literal">target</tt> pour être explicite. Dans la documentation de
scikit-learn, <tt class="docutils literal">data</tt> est communément appelé <tt class="docutils literal">X</tt> et <tt class="docutils literal">target</tt> est communément appelé <tt class="docutils literal">y</tt>.</p>
</div>

À ce stade, nous pouvons nous concentrer sur les données que nous voulons utiliser pour entraîner notre modèle prédictif.

## Identifier les données numériques

Les données numériques sont représentées par des nombres. Elles sont liées à des données mesurables (quantitatives), comme l'âge ou le nombre d'heures qu'une personne travaille par semaine.

Les modèles prédictifs sont nativement conçus pour travailler avec des données numériques. De plus, les données numériques nécessitent généralement peu de travail avant de commencer l'entraînement.

La première tâche sera d'identifier les données numériques dans notre jeu de données.


<div class="admonition caution alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Attention!</p>
<p class="last"> Les données numériques sont représentées par des nombres, mais les nombres ne représentent pas toujours des données numériques. Des catégories pourraient déjà être codées avec des nombres et vous devrez identifier ces caractéristiques.</p>
</div>

Ainsi, nous pouvons vérifier le type de données pour chacune des colonnes de l'ensemble de données.

Il semble que nous n'ayons que deux types de données. Nous pouvons nous en assurer en vérifiant les
types de données.

In [19]:
print(df_data.columns)
for column in df_data:
    print(df_data[column].dtype)

Index(['age', 'workclass', 'education', 'education-num', 'marital-status',
       'occupation', 'relationship', 'race', 'sex', 'capital-gain',
       'capital-loss', 'hours-per-week', 'native-country'],
      dtype='object')
int64
object
object
int64
object
object
object
object
object
int64
int64
int64
object


En effet, les deux seuls types présents dans l'ensemble de données sont integer et object. Nous pouvons regarder les premières lignes du dataframe pour comprendre la la signification du type de données `objet`.

In [20]:
print(df_data['workclass'])
print(df_data['education'])
print(df_data['marital-status'])

0              Private
1              Private
2            Local-gov
3              Private
4                    ?
             ...      
48837          Private
48838          Private
48839          Private
48840          Private
48841     Self-emp-inc
Name: workclass, Length: 48842, dtype: object
0                 11th
1              HS-grad
2           Assoc-acdm
3         Some-college
4         Some-college
             ...      
48837       Assoc-acdm
48838          HS-grad
48839          HS-grad
48840          HS-grad
48841          HS-grad
Name: education, Length: 48842, dtype: object
0              Never-married
1         Married-civ-spouse
2         Married-civ-spouse
3         Married-civ-spouse
4              Never-married
                ...         
48837     Married-civ-spouse
48838     Married-civ-spouse
48839                Widowed
48840          Never-married
48841     Married-civ-spouse
Name: marital-status, Length: 48842, dtype: object


Nous voyons que le type de données `object` correspond à des colonnes contenant des chaînes de caractères.
Comme nous l'avons vu dans la section exploration, ces colonnes contiennent des catégories et nous verrons plus tard comment les gérer. Nous pouvons sélectionner les colonnes contenant des entiers et vérifier leur contenu.

In [21]:
age = df_data['age']
education_num = df_data['education-num']
capital_gain = df_data['capital-gain']
capital_loss = df_data['capital-loss']
hours_per_week = df_data['hours-per-week']

Maintenant que nous avons limité l'ensemble de données aux seules colonnes numériques, nous pouvons analyser ces nombres pour savoir ce qu'ils représentent. 

La colonne, `"age"`, est auto-explicative. Nous pouvons noter que les valeurs sont continues, ce qui signifie qu'elles peuvent prendre n'importe quel nombre dans une plage donnée. Nous allons découvrons quelle est cette plage :

In [22]:
print("age", age.min(), age.max())

age 17 90


Nous pouvons voir que l'âge varie entre 17 et 90 ans.

Nous pourrions étendre notre analyse et nous trouverions que `"capital-gain"`,
`"capital-loss"`, et `"hours-per-week"`  représentent aussi des données quantitatives.


Maintenant, nous stockons le sous-ensemble de colonnes numériques dans un nouveau dataframe.

In [23]:
print("capital-gain", capital_gain.min(), capital_gain.max())
print("capital-loss", capital_loss.min(), capital_loss.max())
print("hours-per-week", hours_per_week.min(), hours_per_week.max())

df_num = df[['age','education-num', 'capital-gain', 'capital-loss', 'hours-per-week']]
print(df_num)

capital-gain 0 99999
capital-loss 0 4356
hours-per-week 1 99
       age  education-num  capital-gain  capital-loss  hours-per-week
0       25              7             0             0              40
1       38              9             0             0              50
2       28             12             0             0              40
3       44             10          7688             0              40
4       18             10             0             0              30
...    ...            ...           ...           ...             ...
48837   27             12             0             0              38
48838   40              9             0             0              40
48839   58              9             0             0              40
48840   22              9             0             0              20
48841   52              9         15024             0              40

[48842 rows x 5 columns]


## Diviser le jeu de données en sous-ensembles train et test

Dans le notebook précédent, nous avons chargé deux jeux de données distincts : un jeu de données d'entraînement et un jeu de données de test. Cependant, avoir des jeux de données séparés dans deux fichiers distincts est inhabituel: la plupart du temps, nous avons un seul fichier contenant toutes les données que nous devons diviser une fois chargées dans la mémoire.


Lors de la construction d'un modèle d'apprentissage automatique, il est important d'évaluer le modèle formé sur des données qui n'ont pas été utilisées pour l'ajuster, car la généralisation est plus attendue que la mémorisation (ce qui signifie que nous voulons une règle qui se généralise à de nouvelles données, sans comparaison avec les données que nous avons mémorisées). Il est plus difficile de conclure sur des données jamais vues que sur des données déjà vues.

Une évaluation correcte est facilement réalisée en laissant de côté un sous-ensemble de données lors de la formation du modèle et en l'utilisant ensuite pour l'évaluation du modèle. Les données utilisées pour ajuster un modèle sont appelées données d'entraînement, tandis que les données utilisées pour évaluer un modèle sont appelées données de test.

Scikit-learn fournit la fonction d'aide suivante `sklearn.model_selection.train_test_split` qui est utilisée pour automatiquement l'ensemble de données en deux sous-ensembles.

Diviser le jeu de données chargé dans la section précédente en deux sous-ensembles train(75%) et test.

In [24]:
from sklearn.model_selection import train_test_split

df = pd.read_csv('../datasets/adult-census-numeric.csv')

target = df["class"]
target.head()

data = df.drop(columns=['class'])
data.head()

data_train, data_test, target_train, target_test = train_test_split(data, target, test_size = 0.25)

<div class="admonition tip alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Conseil</p>
<p class="last">Dans scikit-learn, le paramètre <tt class="docutils literal">random_state</tt> permet d'obtenir des résultats déterministes lorsque l'on utilise un générateur de nombres aléatoires. Dans le cas de la méthode de
<tt class="docutils literal">train_test_split</tt> le caractère aléatoire vient du brassage des données, qui
décide de la façon dont l'ensemble de données est divisé en un ensemble d'entraînement et un ensemble de test.</p>
</div>

En appelant la fonction `train_test_split`, nous avons spécifié que nous aimerions avoir 25% des points dans l'ensemble de test tandis que les points restants (75%) seront disponibles dans l'ensemble d'entraînement. Vérifier rapidement si nous avons ce que nous attendions.

In [25]:
print(data_train)
print(data_test)
print(target_train)
print(target_test)
print("Il y a ", len(data_train) / len(data)," % sur le dataframe de training" )

       age  capital-gain  capital-loss  hours-per-week
20660   29             0             0              36
27998   26             0             0              40
28005   40             0             0              40
26661   28             0             0              50
35035   21             0             0              40
...    ...           ...           ...             ...
30593   25             0             0              40
16663   29             0             0              40
12213   58             0          1887              40
12600   38             0             0              40
26729   43             0             0              38

[29304 rows x 4 columns]
       age  capital-gain  capital-loss  hours-per-week
31439   21             0             0              40
34046   24             0             0              38
31056   40             0             0              50
2664    31             0             0              40
32912   25             0             0 

Dans le notebook précédent, nous avons utilisé un modèle de k-plus proches voisins (k-nearest neighbors). Bien que ce modèle soit intuitif à comprendre, il n'est pas largement utilisé dans la pratique. Nous allons maintenant utiliser un modèle plus utile, appelé régression logistique (un classifieur), qui appartient à la famille des modèles linéaires.

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p> En bref, les modèles linéaires trouvent un ensemble de poids pour combiner les caractéristiques de manière linéaire et prédire la cible. Par exemple, le modèle peut trouver une règle telle que :</p>
<ul class="simple">
<li>si <tt class="docutils literal">0.1 * age + 3.3 * <span class="pre">hours-per-week</span> - 15.1 &gt; 0</tt>, prédire <tt class="docutils literal"><span class="pre">high-income</span></tt></li>
<li>sinon prédire <tt class="docutils literal"><span class="pre">low-income</span></tt></li>
</ul>
<p class="last"> </p>
</div>

Créer un modèle de régression logistique en utilisant la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html):

In [26]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(random_state=0)

Maintenant que le modèle a été créé, vous pouvez l'utiliser exactement de la même manière que nous avons utilisé le modèle des k-plus proches voisins dans le notebook précédent. En particulier, nous pouvons utiliser la méthode `fit` pour entraîner le modèle en utilisant les données d'entraînement et les étiquettes(target):

In [27]:
clf.fit(data_train, target_train)

Utiliser la méthode `score` pour vérifier la performance de généralisation du modèle sur l'ensemble de test.

In [28]:
clf.score(data_test, target_test)

0.7993653393387246

Dans scikit-learn, la méthode `score` d'un modèle de classification retourne la précision, c'est-à-dire la fraction de points correctement classés. Dans ce cas, environ 8 fois sur 10, la régression logistique prédit le bon revenu d'une personne. Maintenant, la vraie question est : cette performance de généralisation est-elle pertinente d'un bon modèle prédictif ? Découvrez-le en résolvant l'exercice suivant !

Dans ce notebook, nous avons appris à :

* identifier les données numériques dans un ensemble de données hétérogènes ;
* sélectionner le sous-ensemble de colonnes correspondant aux données numériques ;
* utiliser la fonction scikit-learn `train_test_split` pour séparer les données en un ensemble de formation et de test données en un ensemble de formation et un ensemble de test ;
* entraîner et évaluer un modèle de régression logistique.