# ${1^{ère}}$ formation - Simple Linear Regression   
> ## Codecademy - 4 heures

Cette première formation est prévue pour **repartir de 0**, surtout pour m'assurer de mes fondations, et gagner confiance en mes compétences.  
Comme précisé ailleurs, j'ai déja une formation en **régression linéaire** via ma **licence de Mathématiques**.  
Suite à certains **oublis**, j'ai décidé de rajouter une **formation complète** en régression **linéaire** et **multiple**.  
Voici un **compte rendu** non exhaustif du **déroulé** du premier socle de cette formation.

## Résumé :

La formation s'est déroulée en **3 étapes majeures** :  
- Explication des **méthodes principales** de **régression linéaire** simple à travers des **mini-projets**
  > très intéressant et ludique. J'ai vraiment l'impression d'avoir parcouru les **essentiels** de la régression simple
- **Quizz** de vérification d'acquis
  > **Moins pertinent** que la première étape. Un quizz un peu léger, avec des code à trous. Pas inutile, mais pas essentiel.
- **Projet final** ou l'on passe en revue l'**entièreté** de ce qu'on a appris
  > Vraiment la partie **la plus intéressante**. **Autonomie** sur un jeu de donnée ou il faut **tout appliquer**.

In [77]:
# Load libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import codecademylib3

# Read in the data
codecademy = pd.read_csv('codecademy.csv')

# Print the first five rows
print(codecademy.head())
# Create a scatter plot of score vs completed
plt.scatter(codecademy.completed, codecademy.score)
# Show then clear plot
plt.show()
plt.clf()
# Fit a linear regression to predict score based on prior lessons completed
model = sm.OLS.from_formula("score ~ completed", data = codecademy)
results = model.fit()
param = results.params
print(param)
# Intercept interpretation:
#The score without taking any prior lesson is 13.214
# Slope interpretation:
#One added lesson adds 1.307 to your score
# Plot the scatter plot with the line on top
plt.scatter(codecademy.completed, codecademy.score)
x = codecademy.completed
y = param[0] + param[1] * x
plt.plot(x, y, 'r')

# Show then clear plot
plt.show()
plt.clf()
# Predict score for learner who has completed 20 prior lessons
predict_20pl = results.predict({"completed" : 20})
print(predict_20pl)
# Calculate fitted values
fitted_values = results.predict(codecademy.completed)
# Calculate residuals
residuals = codecademy.score - fitted_values
# Check normality assumption
plt.hist(residuals)
# Show then clear the plot
plt.show()
plt.clf()
# Check homoscedasticity assumption
plt.scatter(residuals, fitted_values)
# Show then clear the plot
plt.show()
plt.clf()
# Create a boxplot of score vs lesson
sns.boxplot(codecademy.lesson, codecademy.score)
# Show then clear plot
plt.show()
plt.clf()
# Fit a linear regression to predict score based on which lesson they took
results = sm.OLS.from_formula("score ~ lesson", data = codecademy).fit()
print(results.params)
# Calculate and print the group means and mean difference (for comparison)
meanA = codecademy.score[codecademy.lesson == "Lesson A"].mean()
meanB = codecademy.score[codecademy.lesson == "Lesson B"].mean()
print(meanA)
print(meanB)
print(meanA - meanB)

# Use `sns.lmplot()` to plot `score` vs. `completed` colored by `lesson`
sns.lmplot(x = 'completed', y = 'score', hue = 'lesson', data = codecademy)
plt.show()

ModuleNotFoundError: No module named 'codecademylib3'

> le code n'est pas exécutable car il dépend de la librarie codecademy propre à codecademy.  
> Je l'ai inséré ici pour avoir une idée de ce que j'ai pu faire lors de cette formation.

## Les compétences clés de la formation : 

#### **matplotlib**

- **scatter**: nuage de point sur un graphe (déja vu et revu en licence)
- **plot**: tracé une courbe sur un graphe (idem)
- **show**: permet l'affichage du graphe
- **hist**: histogramme de la bibliothèque matplotlib

#### **statsmodels.api**

- **OLS.from_formula()** : modèle de régression linéaire de la bibliothèque citée.  
Cette méthode sert à préparer le modèle. Elle réunit les éléments nécessaire au fonctionnement du modèle.
- **fit()** : méthode appliquée au modèle qui va le lancer, donner les coefficients de la formule linéaire ainsi que plusieurs méthodes importantes :
  - **fitted values** (valeurs prédites par le modèle)
  - **résidus** (différence entre valeurs réelles et valeurs prédites)
  - **params** : les coefficients de la formule linéarisée
  - **predict** : c'est la focntion de prédiction du modèle. prends en entrée un paramêtre et renvoie une estimation en fonction

#### **Distribution normale/ Hypothèse de normalité**

C'est un **indicateur** que je n'avais pas vu en licence. Il sert à **vérifier** si les **résidus** sont dispersés de manière **normale** (gaussienne).   
Le cas **échéant**, on conclura que le modèle linéaire **n'est pas** une **bonne solution** de prédiction.

#### **Homoscedasticity Assumption (homoscédasticité)**

Deuxième **indicateur** que je n'avais pas vu. Il s'agit de **générer un graphe** qui met en relation les **valeurs prédites** avec les **résidus**. Le but ici est d'obtenir une **distribution uniforme**, bien "étalée".

#### **caractéristiques qualitatives (categorical)**

Ici, il s'agissait de traiter des données **binaires** (0/1)  
Les données correspondantes sont des **données qualitatives** à deux options (**oui/non**, choix1/choix2)  
>On implémente le modèle de la même manière

#### **seaborn**

- **boxplot** : pour graphes boites à moustaches (*vu en licence*)
- **lmplot** : utile pour colorier les points du graphe en fonction d'une colonne.  
  Trace automatiquement les regressions linéaires en fonction de la coloration des points. (*pas vu en licence*)

## Suite de la formation :

A la suite de cette formation, codecademy me propose une **suite logique** de formation sur la **régression multi-linéaire**.  
On reste alors sur la même plateforme.

Concernant la **régression simple**. Je suis satisfait de ce qu'elle m'a apporté. Celle-ci **manquait d'analyse plus profondes**.   
Je compte donc suivre une formation **complémentaire**, plus centrée sur les **outils** et **analyses**.