# üìù Exercice 2.2

## Travailler avec des donn√©es num√©riques

Dans le notebook pr√©c√©dent, nous avons entra√Æn√© un mod√®le de k-plus proches voisins sur quelques donn√©es.

Cependant, nous avons trop simplifi√© la proc√©dure en chargeant un jeu de donn√©es qui contenait exclusivement des donn√©es num√©riques. De plus, nous avons utilis√© des jeux de donn√©es d√©j√† divis√©s en jeux d'entra√Ænement et de test.

Dans ce notebook, nous visons √† :

* identifier les donn√©es num√©riques dans un jeu de donn√©es h√©t√©rog√®ne ;
* S√©lectionner le sous-ensemble de colonnes correspondant aux donn√©es num√©riques ;
* utiliser une aide de scikit-learn pour s√©parer les donn√©es en ensembles d'entra√Ænement et de test ;
* formation et √©valuation d'un mod√®le scikit-learn plus complexe.

Nous commencerons par charger l'ensemble de donn√©es de recensement des adultes utilis√© pendant l'exploration l'exploration des donn√©es dont le chemin est 'datasets/adult-census.csv'.

## Chargement de l'ensemble des donn√©es

Comme dans le notebook pr√©c√©dent, nous nous appuyons sur pandas pour ouvrir le fichier CSV en un dataframe pandas.

In [15]:
import pandas as pd

df = pd.read_csv('../datasets/adult-census.csv')
print(df)

       age      workclass      education  education-num       marital-status  \
0       25        Private           11th              7        Never-married   
1       38        Private        HS-grad              9   Married-civ-spouse   
2       28      Local-gov     Assoc-acdm             12   Married-civ-spouse   
3       44        Private   Some-college             10   Married-civ-spouse   
4       18              ?   Some-college             10        Never-married   
...    ...            ...            ...            ...                  ...   
48837   27        Private     Assoc-acdm             12   Married-civ-spouse   
48838   40        Private        HS-grad              9   Married-civ-spouse   
48839   58        Private        HS-grad              9              Widowed   
48840   22        Private        HS-grad              9        Never-married   
48841   52   Self-emp-inc        HS-grad              9   Married-civ-spouse   

               occupation relationship 

L'√©tape suivante consiste √† s√©parer la cible des donn√©es. Nous avons effectu√© la m√™me proc√©dure dans le notebook pr√©c√©dent.

In [16]:
df_data = df.drop(columns=['class'])

In [17]:
df_target = df['class']

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p class="last"> A partir de maintenant, nous utilisons le nom <tt class="docutils literal">data</tt> et <tt class="docutils literal">target</tt> pour √™tre explicite. Dans la documentation de
scikit-learn, <tt class="docutils literal">data</tt> est commun√©ment appel√© <tt class="docutils literal">X</tt> et <tt class="docutils literal">target</tt> est commun√©ment appel√© <tt class="docutils literal">y</tt>.</p>
</div>

√Ä ce stade, nous pouvons nous concentrer sur les donn√©es que nous voulons utiliser pour entra√Æner notre mod√®le pr√©dictif.

## Identifier les donn√©es num√©riques

Les donn√©es num√©riques sont repr√©sent√©es par des nombres. Elles sont li√©es √† des donn√©es mesurables (quantitatives), comme l'√¢ge ou le nombre d'heures qu'une personne travaille par semaine.

Les mod√®les pr√©dictifs sont nativement con√ßus pour travailler avec des donn√©es num√©riques. De plus, les donn√©es num√©riques n√©cessitent g√©n√©ralement peu de travail avant de commencer l'entra√Ænement.

La premi√®re t√¢che sera d'identifier les donn√©es num√©riques dans notre jeu de donn√©es.


<div class="admonition caution alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Attention!</p>
<p class="last"> Les donn√©es num√©riques sont repr√©sent√©es par des nombres, mais les nombres ne repr√©sentent pas toujours des donn√©es num√©riques. Des cat√©gories pourraient d√©j√† √™tre cod√©es avec des nombres et vous devrez identifier ces caract√©ristiques.</p>
</div>

Ainsi, nous pouvons v√©rifier le type de donn√©es pour chacune des colonnes de l'ensemble de donn√©es.

Il semble que nous n'ayons que deux types de donn√©es. Nous pouvons nous en assurer en v√©rifiant les
types de donn√©es.

In [19]:
print(df_data.columns)
for column in df_data:
    print(df_data[column].dtype)

Index(['age', 'workclass', 'education', 'education-num', 'marital-status',
       'occupation', 'relationship', 'race', 'sex', 'capital-gain',
       'capital-loss', 'hours-per-week', 'native-country'],
      dtype='object')
int64
object
object
int64
object
object
object
object
object
int64
int64
int64
object


En effet, les deux seuls types pr√©sents dans l'ensemble de donn√©es sont integer et object. Nous pouvons regarder les premi√®res lignes du dataframe pour comprendre la la signification du type de donn√©es `objet`.

In [20]:
print(df_data['workclass'])
print(df_data['education'])
print(df_data['marital-status'])

0              Private
1              Private
2            Local-gov
3              Private
4                    ?
             ...      
48837          Private
48838          Private
48839          Private
48840          Private
48841     Self-emp-inc
Name: workclass, Length: 48842, dtype: object
0                 11th
1              HS-grad
2           Assoc-acdm
3         Some-college
4         Some-college
             ...      
48837       Assoc-acdm
48838          HS-grad
48839          HS-grad
48840          HS-grad
48841          HS-grad
Name: education, Length: 48842, dtype: object
0              Never-married
1         Married-civ-spouse
2         Married-civ-spouse
3         Married-civ-spouse
4              Never-married
                ...         
48837     Married-civ-spouse
48838     Married-civ-spouse
48839                Widowed
48840          Never-married
48841     Married-civ-spouse
Name: marital-status, Length: 48842, dtype: object


Nous voyons que le type de donn√©es `object` correspond √† des colonnes contenant des cha√Ænes de caract√®res.
Comme nous l'avons vu dans la section exploration, ces colonnes contiennent des cat√©gories et nous verrons plus tard comment les g√©rer. Nous pouvons s√©lectionner les colonnes contenant des entiers et v√©rifier leur contenu.

In [21]:
age = df_data['age']
education_num = df_data['education-num']
capital_gain = df_data['capital-gain']
capital_loss = df_data['capital-loss']
hours_per_week = df_data['hours-per-week']

Maintenant que nous avons limit√© l'ensemble de donn√©es aux seules colonnes num√©riques, nous pouvons analyser ces nombres pour savoir ce qu'ils repr√©sentent. 

La colonne, `"age"`, est auto-explicative. Nous pouvons noter que les valeurs sont continues, ce qui signifie qu'elles peuvent prendre n'importe quel nombre dans une plage donn√©e. Nous allons d√©couvrons quelle est cette plage :

In [22]:
print("age", age.min(), age.max())

age 17 90


Nous pouvons voir que l'√¢ge varie entre 17 et 90 ans.

Nous pourrions √©tendre notre analyse et nous trouverions que `"capital-gain"`,
`"capital-loss"`, et `"hours-per-week"`  repr√©sentent aussi des donn√©es quantitatives.


Maintenant, nous stockons le sous-ensemble de colonnes num√©riques dans un nouveau dataframe.

In [23]:
print("capital-gain", capital_gain.min(), capital_gain.max())
print("capital-loss", capital_loss.min(), capital_loss.max())
print("hours-per-week", hours_per_week.min(), hours_per_week.max())

df_num = df[['age','education-num', 'capital-gain', 'capital-loss', 'hours-per-week']]
print(df_num)

capital-gain 0 99999
capital-loss 0 4356
hours-per-week 1 99
       age  education-num  capital-gain  capital-loss  hours-per-week
0       25              7             0             0              40
1       38              9             0             0              50
2       28             12             0             0              40
3       44             10          7688             0              40
4       18             10             0             0              30
...    ...            ...           ...           ...             ...
48837   27             12             0             0              38
48838   40              9             0             0              40
48839   58              9             0             0              40
48840   22              9             0             0              20
48841   52              9         15024             0              40

[48842 rows x 5 columns]


## Diviser le jeu de donn√©es en sous-ensembles train et test

Dans le notebook pr√©c√©dent, nous avons charg√© deux jeux de donn√©es distincts : un jeu de donn√©es d'entra√Ænement et un jeu de donn√©es de test. Cependant, avoir des jeux de donn√©es s√©par√©s dans deux fichiers distincts est inhabituel: la plupart du temps, nous avons un seul fichier contenant toutes les donn√©es que nous devons diviser une fois charg√©es dans la m√©moire.


Lors de la construction d'un mod√®le d'apprentissage automatique, il est important d'√©valuer le mod√®le form√© sur des donn√©es qui n'ont pas √©t√© utilis√©es pour l'ajuster, car la g√©n√©ralisation est plus attendue que la m√©morisation (ce qui signifie que nous voulons une r√®gle qui se g√©n√©ralise √† de nouvelles donn√©es, sans comparaison avec les donn√©es que nous avons m√©moris√©es). Il est plus difficile de conclure sur des donn√©es jamais vues que sur des donn√©es d√©j√† vues.

Une √©valuation correcte est facilement r√©alis√©e en laissant de c√¥t√© un sous-ensemble de donn√©es lors de la formation du mod√®le et en l'utilisant ensuite pour l'√©valuation du mod√®le. Les donn√©es utilis√©es pour ajuster un mod√®le sont appel√©es donn√©es d'entra√Ænement, tandis que les donn√©es utilis√©es pour √©valuer un mod√®le sont appel√©es donn√©es de test.

Scikit-learn fournit la fonction d'aide suivante `sklearn.model_selection.train_test_split` qui est utilis√©e pour automatiquement l'ensemble de donn√©es en deux sous-ensembles.

Diviser le jeu de donn√©es charg√© dans la section pr√©c√©dente en deux sous-ensembles train(75%) et test.

In [24]:
from sklearn.model_selection import train_test_split

df = pd.read_csv('../datasets/adult-census-numeric.csv')

target = df["class"]
target.head()

data = df.drop(columns=['class'])
data.head()

data_train, data_test, target_train, target_test = train_test_split(data, target, test_size = 0.25)

<div class="admonition tip alert alert-warning">
<p class="first admonition-title" style="font-weight: bold;">Conseil</p>
<p class="last">Dans scikit-learn, le param√®tre <tt class="docutils literal">random_state</tt> permet d'obtenir des r√©sultats d√©terministes lorsque l'on utilise un g√©n√©rateur de nombres al√©atoires. Dans le cas de la m√©thode de
<tt class="docutils literal">train_test_split</tt> le caract√®re al√©atoire vient du brassage des donn√©es, qui
d√©cide de la fa√ßon dont l'ensemble de donn√©es est divis√© en un ensemble d'entra√Ænement et un ensemble de test.</p>
</div>

En appelant la fonction `train_test_split`, nous avons sp√©cifi√© que nous aimerions avoir 25% des points dans l'ensemble de test tandis que les points restants (75%) seront disponibles dans l'ensemble d'entra√Ænement. V√©rifier rapidement si nous avons ce que nous attendions.

In [25]:
print(data_train)
print(data_test)
print(target_train)
print(target_test)
print("Il y a ", len(data_train) / len(data)," % sur le dataframe de training" )

       age  capital-gain  capital-loss  hours-per-week
20660   29             0             0              36
27998   26             0             0              40
28005   40             0             0              40
26661   28             0             0              50
35035   21             0             0              40
...    ...           ...           ...             ...
30593   25             0             0              40
16663   29             0             0              40
12213   58             0          1887              40
12600   38             0             0              40
26729   43             0             0              38

[29304 rows x 4 columns]
       age  capital-gain  capital-loss  hours-per-week
31439   21             0             0              40
34046   24             0             0              38
31056   40             0             0              50
2664    31             0             0              40
32912   25             0             0 

Dans le notebook pr√©c√©dent, nous avons utilis√© un mod√®le de k-plus proches voisins (k-nearest neighbors). Bien que ce mod√®le soit intuitif √† comprendre, il n'est pas largement utilis√© dans la pratique. Nous allons maintenant utiliser un mod√®le plus utile, appel√© r√©gression logistique (un classifieur), qui appartient √† la famille des mod√®les lin√©aires.

<div class="admonition note alert alert-info">
<p class="first admonition-title" style="font-weight: bold;">Note</p>
<p> En bref, les mod√®les lin√©aires trouvent un ensemble de poids pour combiner les caract√©ristiques de mani√®re lin√©aire et pr√©dire la cible. Par exemple, le mod√®le peut trouver une r√®gle telle que :</p>
<ul class="simple">
<li>si <tt class="docutils literal">0.1 * age + 3.3 * <span class="pre">hours-per-week</span> - 15.1 &gt; 0</tt>, pr√©dire <tt class="docutils literal"><span class="pre">high-income</span></tt></li>
<li>sinon pr√©dire <tt class="docutils literal"><span class="pre">low-income</span></tt></li>
</ul>
<p class="last"> </p>
</div>

Cr√©er un mod√®le de r√©gression logistique en utilisant la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html):

In [26]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(random_state=0)

Maintenant que le mod√®le a √©t√© cr√©√©, vous pouvez l'utiliser exactement de la m√™me mani√®re que nous avons utilis√© le mod√®le des k-plus proches voisins dans le notebook pr√©c√©dent. En particulier, nous pouvons utiliser la m√©thode `fit` pour entra√Æner le mod√®le en utilisant les donn√©es d'entra√Ænement et les √©tiquettes(target):

In [27]:
clf.fit(data_train, target_train)

Utiliser la m√©thode `score` pour v√©rifier la performance de g√©n√©ralisation du mod√®le sur l'ensemble de test.

In [28]:
clf.score(data_test, target_test)

0.7993653393387246

Dans scikit-learn, la m√©thode `score` d'un mod√®le de classification retourne la pr√©cision, c'est-√†-dire la fraction de points correctement class√©s. Dans ce cas, environ 8 fois sur 10, la r√©gression logistique pr√©dit le bon revenu d'une personne. Maintenant, la vraie question est : cette performance de g√©n√©ralisation est-elle pertinente d'un bon mod√®le pr√©dictif ? D√©couvrez-le en r√©solvant l'exercice suivant !

Dans ce notebook, nous avons appris √† :

* identifier les donn√©es num√©riques dans un ensemble de donn√©es h√©t√©rog√®nes ;
* s√©lectionner le sous-ensemble de colonnes correspondant aux donn√©es num√©riques ;
* utiliser la fonction scikit-learn `train_test_split` pour s√©parer les donn√©es en un ensemble de formation et de test donn√©es en un ensemble de formation et un ensemble de test ;
* entra√Æner et √©valuer un mod√®le de r√©gression logistique.