# Régression linéaire

## World Hapiness

Le but de ce prrojet est de **prédire l'indice de bonheur** (variable `Score`) des différents pays du monde en fonction de diverses variables, telles que la production économique, le niveau de corruption perçu, l'espérance de vie, etc.

Pour plus de précision sur les data, voir les liens suivants:
- https://www.kaggle.com/unsdsn/world-happiness
- https://www.kaggle.com/unsdsn/world-happiness/2019.csv

## Exercice


### Load Data
1. Loadez les data.<br>
    `df = pd.read_csv("./data/WorldHapiness/2019.csv")`


### Data Analysis
2. Supprimez la variable `Overall rank`.


3. Visualisez la matrice des correlations ainsi que les "scatter plots" des correlations:<br> 
    `df.corr()`, `sns.heatmap(...)`, `sns.pairplot(...)`.


4. Visualisez la répatition de la variable `Score` (indice de bonheur à prédire):<br>
    `sns.distplot(df['Score'])`


5. Visualisez la valeur de `Score` pour les différents pays:<br>
```
plt.figure(figsize=(25, 10))
sns.barplot(x="Country or region", y="Score", data=df)
plt.xticks(rotation=90)
plt.show()
```


### Data Preprocessing and Splitting
6. Obtenez les **features** `X` et les **targets** `y` à partir de votre dataframe.<br>
    Les **features** corrrespondent à toutes les colonnes sauf `Score` et `Country or region`.<br>
    Les targets corrrespondent à la colonne `Score`.<br>
    Utilisez `df.drop(...)`.


7. Splittez les data en un **train set** et un **test set**.<br>
    Utilisez la fonction `train_test_split(...)`<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html


8. Standardisez les features en utilisant un `StandardScaler`:<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html<br>
    Que fait cet objet? À quoi cela sert-il de standardiser les donées?


### Model and Results
9. Instanciez et entraînez une **régression linéaire** `LinearRegression` sur vos data:<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html<br>
    Le processus s'effectue en 3 étapes:
    1. Instanciation du modèle
    2. Entraînement du modèle sur le train set (méthode `fit(...)`)
    3. Prédictions sur le test set


10. Calculez la **mean squared error**, la **mean absolute error** et le **R2 score** du modèle sur le test set.<br>
    Que représentent ces scores?<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html<br>
    
    
11. Représentez le graphe des targets en fonctions des prédictions sur le test set.<br>
    Qu'est-ce que vous pouvez déduire de l'aspect de ce graphe?
    
    
### Other Models
12. Entraînez également les modèles suivants de `scikit-learn`. Vous pouvez vous référer à la documentation de ces modèles pour plus d'information sur leurs utilisations.<br>
    1. `KNeighborsRegressor`
    2. `DecisionTreeRegressor`
    3. `RandomForestRegressor`
    4. `GradientBoostingRegressor`
    5. `AdaBoostRegressor`

# Libraries

In [28]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score

import seaborn as sns
import matplotlib.pyplot as plt

## Load Data

In [8]:
df = pd.read_csv("./data/WorldHapiness/2019.csv")
df.head()

Unnamed: 0,Overall rank,Country or region,Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption
0,1,Finland,7.769,1.34,1.587,0.986,0.596,0.153,0.393
1,2,Denmark,7.6,1.383,1.573,0.996,0.592,0.252,0.41
2,3,Norway,7.554,1.488,1.582,1.028,0.603,0.271,0.341
3,4,Iceland,7.494,1.38,1.624,1.026,0.591,0.354,0.118
4,5,Netherlands,7.488,1.396,1.522,0.999,0.557,0.322,0.298


## Data Analysis

## Data Preprocessing and Splitting

## Model and Results

## Other Models
### KNN, Linear Regression, Random Forest, Gradient Boosting, AdaBoost

### Save and Load Model