# Objectifs

Les objectifs de la leçon sont les suivants:
* Calculer la correlation entre 2 variables
* Fit une régression linéaire avec `statsmodels`
* Interpreter la qualité de la régression linéaire

# Importer les librairies

In [1]:
import pandas as pd
import numpy as np
import os

# Visualisation
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Machine learning
import statsmodels.api as sm

ImportError: dlopen(/Users/levkiwi/Dev/62-62.2-Data-Analysis/.venv/lib/python3.12/site-packages/statsmodels/tsa/statespace/_representation.cpython-312-darwin.so, 0x0002): symbol not found in flat namespace '_npy_cabs'

# Loader les données

In [None]:
# Loader les data
filepath = os.getcwd() + "/Data/salary_data.csv"
data = pd.read_csv(
    filepath,
    delimiter=","
)

data

# (rapide) Analyse exploratoire des données

## Analyse rapide

In [None]:
# Quelques statistics 
data.describe()

In [None]:
# Manque-t-il des valeurs (NaN)?
data.info()

## Analyse bivariée

[`sns.pairplot()`](https://seaborn.pydata.org/generated/seaborn.pairplot.html) permet de visualiser les relations entre les variables de notre jeu de données.

In [None]:
# Etudier la relation entre les variables indépentes et la variable dépendente
sns.pairplot(
    data=data,
    corner=False # pour eviter d'avoir les scatter plots en double
)
plt.show()

Les 2 variables quantitatives semblent être **liées d'un point de vue linéaire**. On s'attend donc à avoir un **coefficient de correlation positif et donc proche de 1**.

## Correlation

La fonction [`.corr()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html) permet de calculer la correlation entre les variables **quantitatives**.

In [None]:
# Calculons le coefficient de correlation entre les 2 variables
data.corr()

Le coefficient de correlation étant entre 0.6 et 1.0, la **correlation est donc élevée**.

# Régression linéaire

Nos premières assumptions sont confirmées: les variables sont liées linéairement, corréléees et on aimerait trouver la droite de best fit qui passe entre ces 2 variables. Pour cela, nous allons utiliser la fonction [`statsmodels.OLS`](https://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLS.html) (Ordinary Least Squares), qui est la méthode classique.  

## Fit une régression linéaire

Il faut dans un premier temps que nous séparions en deux dataframes les variables: une variable X et une variable Y.

In [None]:
# Séparer les variables
x = data["YearsExperience"]
y = data["Salary"]

Voici le modèle que nous allons produire:

$$ \underbrace{\text{Salary}}_{y} = \underbrace{a}_{\text{slope/pente}} \cdot  \underbrace{YearsExperience}_{\text{x}} + \underbrace{b}_{\text{intercept}} $$

In [None]:
# Générer un model de régression linéaire
model = sm.OLS(
    y,
    sm.add_constant(x) # il faut rajouter une constante, qui n'est pas là par défaut
)

# Fit le model
model_fit = model.fit()

# Quel est le résumé?
print(model_fit.summary())

Un tas d'information nous ai présenté dans le résumé ci-dessus. On remarque notamment que le **R-squared est de 95.7%**, ce qui est très élevé. Ceci était attendu puisque le coefficient de correlation était supérieur à 0.9.

On note aussi que la **slope/pente est positive et élevé** (9449), ce qui confirme que plus l'on a d'années d'expérience, plus notre salaire semble être élevé.

In [None]:
# Faisons un plot de la régression linéaire
sns.regplot(
    data=data,
    x=x,
    y=y,
    ci=False, # no need for the confidence interval
    line_kws={"color": "red"} # red line
)
plt.show()