In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression         # comment définir un modèle linéaire?
from sklearn.metrics import mean_squared_error
from pathlib import Path

from cloud_io.gcp.io import download_file
from reglin.tools.common_path import ROOT_PATH, BUCKET_NAME

![title](../images/simple_workflow.png)

# Collecte des données

## Lecture

https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who

In [2]:
VERBOSE = True

In [None]:
download_path = Path(ROOT_PATH, "data/Life Expectancy Data.csv")
path_data = download_file(download_path, bucket_as_local=ROOT_PATH, bucket_name=BUCKET_NAME)

In [None]:
df = pd.read_csv(path_data)
df_2015 = df[df.Year == 2014]
df_2015 = df_2015.drop("Year",axis=1)
df_2015.set_index("Country",inplace = True)

In [None]:
data = df_2015[['Life expectancy ','Schooling']]
data = data.dropna(axis=0)

In [None]:
data.head()

## Définition

**Schooling**: Les années de scolarisation sont le nombre d'années qu'un enfant en âge d'entrer à l'école est censé passer à l'école ou à l'université, y compris les années passées à redoubler. Il s'agit de la somme des taux de scolarisation par âge dans l'enseignement primaire, secondaire, post-secondaire non tertiaire et tertiaire.

**Life expectancy**: Nombre moyen d'années qu'un nouveau-né pourrait espérer vivre s'il était exposé aux taux de mortalité par sexe et par âge en vigueur au moment de sa naissance, pour une année donnée, dans un pays, un territoire ou une zone géographique donné(e).

# Définition du modèle

On va faire un modèle de régression linéaire: $Y = a \times X + b$

In [None]:
if VERBOSE:
    fig, ax = plt.subplots(figsize=(10,8))
    ax.scatter(y = data['Life expectancy '],x = data['Schooling'])
    plt.xlabel("Temps d'étude")
    plt.ylabel("Espérance de vie")
    plt.title("Espérance de vie vs. Temps d'étude")
    plt.show()

In [None]:
modele_simple = LinearRegression()

# Calibrage du modèle

On va chercher les meilleurs paramètres $a$ et $b$

In [None]:
modele_simple.fit(data[['Schooling']],data['Life expectancy '])

In [None]:
modele_simple.intercept_

In [None]:
modele_simple.coef_

In [None]:
if VERBOSE:
    fig, ax = plt.subplots(figsize=(10,8))
    ax.scatter(y = data['Life expectancy '],x = data['Schooling'])

    Y_model = modele_simple.predict(data[['Schooling']])
    ax.plot(data['Schooling'],Y_model,"red")

    plt.xlabel("Temps d'étude")
    plt.ylabel("Espérance de vie")
    plt.title("Espérance de vie vs. Temps d'étude")
    plt.show()

In [None]:
mean_squared_error(y_true = data['Life expectancy '], 
                   y_pred = Y_model,
                   squared=False)

# Nouvelle donnée

https://www.nationmaster.com/country-info/profiles/Benin/Education

In [None]:
nouvelle_donnee = pd.DataFrame({"Schooling":[5]}
)

In [None]:
modele_simple.predict(nouvelle_donnee)

# **FIN** 