# Analyse de données
## Tutorial sur l'implémentation de régression linéaire

Ce Notebook est une implémentation de la régression régression linéaire sur un jeu de données factice. Il sert comme support au cours à la page [allophysique.com//docs/NSI_1/algo/page1/](allophysique.com//docs/NSI_1/algo/page1/)

### Chargement des diverses librairies utiles pour ce notebook 

In [None]:
# chargement de bibliothéques 
"""
instruction specifique pour utiliser matplotlib dans un notebook 
quand on utilise les notebooks Jupyter pour utiliser Matplotlib
"""
%matplotlib inline  
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

## Chargement du jeu de données
On met le tableau dans un *Dataframe* et on l'observe. Les données de population sont exprimées en 10 000 habitants et celles du profit en 10 000 USD

In [None]:
# Version Jupyterlite
import pandas as pd  # on importe la librairie pandas 
from js import fetch

URL = "https://raw.githubusercontent.com/tix06/jupyterlite_NSI/master/files/datas/datas_trucks.csv"

res = await fetch(URL)
text = await res.text()

filename = 'datas_trucks.csv'

with open(filename, 'w') as f:
    f.write(text)

df = pd.read_csv(filename, sep=';')

In [None]:
df

## Creation des listes population, profit et trucks

In [None]:
X = df['population']
Y = df['profit']
Z = df['trucks']

## Visualisation du jeu de données
Recherche des **correlations entre X, Y et Z**

In [None]:
# Correlation X, Y
axes = plt.axes()
axes.grid()
plt.title("profit - population")
plt.xlabel("X")
plt.ylabel("Y")
plt.scatter(X,Y)
plt.show()

In [None]:
# Correlation X, Z
plt.clf()
axes = plt.axes()
axes.grid()
# à completer


In [None]:
# Correlation Z, Y
plt.clf()
axes = plt.axes()
axes.grid()
# à completer


### régression linéaire


On peut utiliser le module librairie SciPy (Scientific Python) pour implémenter une régression linéaire. Le sous package stats propose la fonction linregress qui calcule une régression à partir d'un jeu de donnée d'entrainement 

In [None]:
slope, intercept, r_value, p_value, std_err = stats.linregress(X, Y)
slope, intercept, r_value

### Modèle obtenu

Le fonction de prédiction pour une régression linéaire a pour équation :


\begin{align}
H(x) = intercept + slope * x
\end{align}

avec :
* $slope$ : représente la **pente** de la courbe modélisée (la fonction de prédiction) 
* $intercept$ : représente l'**ordonnée à l'orgine** (le point d'intersection avec l'axe des ordonnées)
* $r_value$: le **coefficient de correlation**
    * Une valeur proche de 1 signifie qu'il y a une bonne correlatoin entre les grandeurs, et que l'on peut considérer le modèle comme valide.
    * Une faible valeur (inf à 0.8 par exemple) signifie que les grandeurs ne sont pas vraiment correlées.
    
Ainsi notre fonction $H(X)$ se décrit comme suit : 

\begin{align}
H(X) = -4.211504005424089 + 1.2135472539083585 * X\\
r = 0.837873232526341
\end{align}


### Regression linéaire sur X - Z
calculer les coefficients de regression pour Z = f(X)

In [None]:
# à completer


### Regression linéaire sur Z - Y
calculer les coefficients de regression pour Y = f(Z)

In [None]:
# à completer


## Ecriture de la fonction de prédiction avec Python

Vu qu'on dispose de notre fonction des coefficients de notre fonction de prédiction, on peut écrire celle-ci en python. 

> Compléter la fonction `H` pour que celle-ci renvoie la valeur calculée H(X) à l'aide des coefficients calculée `slope` et `intercept`

In [None]:
def H(x, slope, intercept):
    # à completer


## Dessiner la fonction de prédiction 

On peut utiliser la fonction de prédiction qu'on vient de définir pour avoir la valeur prédite par la fonction hypothèse pour chacune des observations de notre jeu d'entrainement. Ainsi on pourra voir visuellement comment la fonction de prédiction "approche" le jeu d'entrainement.

In [None]:
slope, intercept, r_value, p_value, std_err = stats.linregress(X, Y)

axes = plt.axes()
axes.grid()
plt.scatter(X,Y)
fitLine = H(X,slope, intercept)
plt.plot(X, fitLine, c='r')
plt.show()

## Prédiction d'une nouvelle observation

On voit que pour pour la valeur x = 11.7, la valeur de y est environ 25. Utilisons la fonction `H` pour trouver une estimation de `H(x = 11.7)`

In [None]:
H(11.7,slope,intercept)

### Calculer l'écart avec la valeur du tableau
filtrer le tableau selon la valeur `filtre = df['population'] == 11.7` et afficher la ligne *Dataframe df* correspondante.

In [None]:
# à completer


### Calculer alors l'écart constaté avec la prédiction

In [None]:
# à completer

### La partie de la courbe pour laquelle la population est comprise entre 15 et 20 est vide de points. Calculer l'une de ces valeurs avec la fonction `H`

In [None]:
# à completer

## Profit relatif au nombre de trucks-food
On peut rechercher également quel est le *profit relatif* au nombre de trucks-food déjà present dans une ville.

Créer une nouvelle colonne dans le *Dataframe* avec:

```python
df['profil_rel'] = df['profit']*10000 / df['trucks'] 
```

In [None]:
# à completer


### Graphique `profit-rel` 
visualiser l'eventuelle correlation entre le *profit relatif* et l'une des données du tableau

In [None]:
# à completer

## Trier les données du *Dataframe* selon la colonne *profit_rel*
Et retrouver ainsi le meilleur emplacement

La fonction de tri sur un *Dataframe* a été vue dans `TP4/datas_analyse_pandas.ipynb` ainsi que dans `TP1/sequence2.ipynb`