# Indicateur de satisfaction à l’égard de la vie

Après un premier TD basé sur une tâche de classification, vous reproduirez sensiblement les mêmes étapes afin d’obtenir un modèle prédictif entraîné grâce à un algorithme de régression linéaire.

Parmi les autres nouveautés, vous gérerez un peu plus finement les données manquantes plutôt que de simplement les supprimer et calculerez un score de performance adapté à la régression linéaire.

## À propos du jeu de données

Le fichier [*Life satisfaction*](../data/life-satisfaction-women-2021.csv) est une extraction de deux indicateurs de l’enquête *Better Life 2021* menée par l’Organisation de coopération et de développement économiques (OCDE) :
- La satisfaction à l’égard de la vie ;
- les années de scolarité.

Précisons que les données sélectionnées ne concernent que l’enquête menée auprès des femmes des pays de l’OCDE. Pour en savoir plus sur ces indicateurs, reportez-vous à [la documentation officielle](https://www.oecd.org/fr/wise/OCDE-indicateur-du-vivre-mieux-definitions-et-metadonnees-2021.pdf).

## Description des données

Le jeu de données est constitué de 38 observations décrites par deux variables aléatoires :

|Variable|Signification|Type de variable|
|-|-|:-:|
|*country*|Pays|qualitative|
|*life_satisfaction*|Satisfaction des femmes à l’égard de la vie, sur une échelle de Cantril de 0 à 10.|quantitative continue|
|*years_in_education*|Nombre moyen d’années de scolarisation espéré par une femme de 5 à 39 ans.|quantitative discrète|

Chaque observation est un pays de l’OCDE (+ Russie et Afrique du Sud).

### Définition de la tâche

Vous formulez l’hypothèse selon laquelle la satisfaction à l’égard de la vie augmente pour les femmes avec le nombre moyen d’années de scolarisation espérées, et souhaitez programmer une fonction de prédiction qui fournisse une estimation de cet indice de satisfaction.

**Variable cible (*target*) :** *life_satisfaction*  
**Caractéristiques (*features*) :** *years_in_education*

## Aperçu des données

Votre premier réflexe est de vous approprier les données en exécutant quelques instructions routinières.

### Exploration

Chargeons tout d’abord le fichier :

In [None]:
import pandas as pd

df = pd.read_csv("../data/life-satisfaction-women-2021.csv")

Quelle est la taille du *data frame* ?

In [None]:
df.shape

Jetez maintenant un coup d’œil aux premières lignes du jeu de données :

In [None]:
df.head()

Quel est le nom des variables, leur type et existe-t-il des données manquantes ?

In [None]:
df.info()

Il manque une donnée pour la variable *years_in_education*. où se situe-t-elle ?

In [None]:
df[df["years_in_education"].isnull()]

### Visualisation

Regardons la distribution de la variable cible grâce à la méthode `.displot()` de la librairie *Seaborn*, en affichant une estimation de la densité de probabilité (*kernel density estimation*) :

In [None]:
import seaborn as sns

_ = sns.displot(data=df, x='life_satisfaction', kde=True);

La distribution nous paraît normale, sans donnée aberrante (*outliers*).

Imprimons désormais un nuage de points :

In [None]:
_ = sns.scatterplot(data=df, x="years_in_education", y="life_satisfaction")

La répartition des points montre une légère tendance vers le haut, que l’on peut matérialiser avec une droite de régression :

In [None]:
_ = sns.regplot(data=df, x="years_in_education", y="life_satisfaction", ci=None);

## Préparation des données

Dans un premier temps, définissez les variables `target` et `features`, puis constituez un nouveau *data frame* nommé `data` avec la variable de cible à la fin :

In [None]:
# your code here

Rappelez-vous qu’il manquait une donnée à votre *data frame* : le nombre d’années de scolarité pour l’Afrique du Sud. Plutôt que de supprimer cette observation, vous allez lui attribuer une valeur. Calculez la moyenne du nombre d’années de scolarité pour tous les autres pays et, grâce à la méthode `.fillna()` de *Pandas* et aux paramètres `value` pour affecter la moyenne calculée. N’oubliez pas que le nombre d’années est un entier positif.

In [None]:
# your code here

À présent, séparez votre *data frame* en deux structures, `X` et `y`, respectivement pour la série comprenant les années de scolarité et celle sur l’indicateur de satisfaction à l’égard de la vie :

In [None]:
# your code here

Il ne vous reste plus qu’à préparer les jeux d’entraînement et de test :

In [None]:
# your code here

## Programmation du modèle

Dans cette partie, vous allez programmer un modèle de régression linéaire. Importez la classe `LinearRegression` depuis `sklearn.linear_model` et créez une nouvelle instance dans une variable `model` :

In [None]:
# your code here

Entraînez à présent le modèle avec le jeu d’entraînement. Pour éviter de l’entraîner avec le nom des variables (*years_in_education*), appliquez la propriété `values` :

In [None]:
# your code here

Faites une prédiction pour un pays dont le nombre d’années de scolarité serait de 20 :

In [None]:
# your code here

Et comparez avec les pays qui ont un indicateur similaire (Belgique, Danemark, Finlande, Islande, Suède) :

In [None]:
# your code here

## Évaluation du modèle

La méthode `.score()` ici renvoie le coefficient de détermination de Pearson (*R-squared* ou R$^2$), un indice de la qualité de la prédiction d’une régression linéaire. Affichez-le pour le jeu d’entraînement et le jeu de test, afin de révéler que la prédiction n’est vraiment pas probante :

In [None]:
# your code here

Une autre mesure statistique fréquemment utilisée avec une tâche de régression linéaire est la racine de l’erreur quadratique moyenne (*root mean squared error* ou RMSE), qui mesure la distance entre deux vecteurs et fournit ainsi une évaluation des erreurs de prédiction. Importez la fonction `mean_squared_error()` depuis le module `sklearn.metrics` et calculez l’indice pour les deux jeux de données.

**Attention !** La méthode `.mean_squared_error()` compare une série de valeurs observées avec une série de valeurs prédites.

In [None]:
# your code here

En résumé, vous devriez obtenir le tableau suivant :

|Jeu de données|R$^2$|RMSE|
|-|:-:|:-:|
|Entraînement|0.11|0.46|
|Test|0.05|0.62|

Si le R$^2$ montre que les prédictions ne seront pas du tout de bonne qualité, la RMSE indique en revanche qu’elles ne seront pas très éloignées de la vérité car on s’attend à un écart de seulement 0,62 points. Quelle interprétation donner à ces résultats ? L’intuition première serait de considérer que l’indicateur choisi n’est pas vraiment corrélé avec la cible. On aurait pu le mettre en évidence avec le coefficient de corrélation de Pearson, ou *r* de Pearson :

In [None]:
# a correlation matrix
df.corr()