
# 📘 Cours : Régression Linéaire et Régression Logistique

## 📈 1. Régression linéaire
- Objectif : prédire une valeur numérique (ex : une note, un prix, une consommation).
- Forme du modèle : y = a·x + b (fonction affine)
- Outil Python : `LinearRegression` de `scikit-learn`

## 🤖 2. Régression logistique
- Objectif : prédire une classe binaire (ex : Oui / Non) sous forme de probabilité.
- Forme du modèle : sigmoïde : P = 1 / (1 + exp(–(ax + b)))
- Outil Python : `LogisticRegression` de `scikit-learn`
    


## 📊 Visualisation des modèles
Nous allons tracer :
- Une **droite de régression linéaire** (ex : note en fonction des heures d’étude)
- Une **courbe sigmoïde de régression logistique** (ex : probabilité de réussite en fonction de la note)
    

In [None]:
# Installation des bibliothèques
!pip install pandas numpy scikit-learn matplotlib

In [None]:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import LabelEncoder

# Régression linéaire
X_lin = np.array([5, 8, 10, 12, 15]).reshape(-1, 1)
y_lin = np.array([10, 12, 14, 15, 17])
lin_reg = LinearRegression()
lin_reg.fit(X_lin, y_lin)
X_range = np.linspace(4, 16, 100).reshape(-1, 1)
y_pred_lin = lin_reg.predict(X_range)

# Régression logistique
X_log = np.array([8, 10, 12, 14, 15]).reshape(-1, 1)
y_log = np.array(['Non', 'Non', 'Oui', 'Oui', 'Oui'])
enc = LabelEncoder()
y_log_encoded = enc.fit_transform(y_log)
log_reg = LogisticRegression()
log_reg.fit(X_log, y_log_encoded)
X_range_log = np.linspace(6, 17, 300).reshape(-1, 1)
y_prob_log = log_reg.predict_proba(X_range_log)[:, 1]

# Affichage
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X_lin, y_lin, color='blue', label="Données")
plt.plot(X_range, y_pred_lin, color='red', label="Régression linéaire")
plt.title("Régression linéaire : Note vs Heures d’étude")
plt.xlabel("Heures d’étude")
plt.ylabel("Note finale")
plt.legend()
plt.grid(True)

plt.subplot(1, 2, 2)
plt.scatter(X_log, y_log_encoded, color='green', label="Données (0 = Non, 1 = Oui)")
plt.plot(X_range_log, y_prob_log, color='purple', label="Régression logistique")
plt.title("Régression logistique : Réussite vs Note moyenne")
plt.xlabel("Note moyenne")
plt.ylabel("Probabilité de réussite")
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()


Les courbes de régression sont celles qui approximent le mieux les nuages de points issues des données. Pour ce faire, on fait des calculs pour **minimiser les erreurs entre les résultats et les valeurs prédites** (variance, coût logarithmique) e.
On calculera cela en NSI Terminale :).

*Exemples* : 
1. Pour la régression linéaire, on peut estimer la note finale à 15.5 pour 13 heures de travail.
2. Pour la régression logistique, on peut estimer à 70% le taux de réussite à un examen d'un élève ayant 12 de moyenne générale.

# 🧪 TP 1 : Régression Linéaire - Prédire une note d'élève

Dans ce TP, vous allez construire un modèle de régression linéaire pour prédire la note finale d’un élève
à partir de deux variables :
- le nombre d'heures d'étude par semaine
- le nombre de devoirs rendus

L’objectif est de comprendre comment une droite de régression peut modéliser une tendance générale dans un jeu de données
et permettre des prédictions numériques.


In [None]:

# Importation des bibliothèques nécessaires
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Création du jeu de données simulant la progression d’un élève
data = pd.DataFrame({
    'heures': [5, 8, 10, 12, 15],
    'devoirs': [2, 3, 4, 5, 6],
    'note': [10, 12, 14, 15, 17]
})

# Séparation des variables explicatives et de la variable cible
X = data[['heures', 'devoirs']]
y = data['note']

# Création et entraînement du modèle de régression linéaire
modele = LinearRegression()
modele.fit(X, y)

# Prédiction pour un nouvel élève : 11h d’étude, 4 devoirs rendus
nouvel_eleve = [[11, 4]]
prediction = modele.predict(nouvel_eleve)

# Affichage de la note prédite
print("Note prédite :", round(prediction[0], 2))


# 🧪 TP 2 : Régression Logistique - Prédire une réussite

Dans ce TP, vous allez entraîner un modèle de régression logistique pour prédire si un élève va réussir son année
à partir de :
- sa note moyenne
- son assiduité en cours

La sortie du modèle sera une probabilité, convertie ensuite en une classe : réussite (Oui) ou non-réussite (Non).


In [None]:
# Importation des bibliothèques nécessaires
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Jeu de données : note moyenne, assiduité, réussite (Oui/Non)
data = pd.DataFrame({
    'note_moyenne': [8, 10, 12, 14, 15, 9],
    'assiduite': [0, 0, 1, 1, 1, 0],
    'reussite': ['Non', 'Non', 'Oui', 'Oui', 'Oui', 'Non']
})

# Encodage de la variable cible : Oui/Non → 1/0
enc = LabelEncoder()
data['reussite'] = enc.fit_transform(data['reussite'])

# Séparation des variables d’entrée et de la sortie
X = data[['note_moyenne', 'assiduite']]
y = data['reussite']

# Création et entraînement du modèle de régression logistique
logreg = LogisticRegression()
logreg.fit(X, y)

# Prédiction pour un élève ayant 13 de moyenne, assidu
eleve = [[13, 1]]
prediction = logreg.predict(eleve)
proba = logreg.predict_proba(eleve)

# Affichage de la prédiction et de la probabilité
print("Réussite prédite :", enc.inverse_transform(prediction)[0])
print("Probabilité de réussite :", round(proba[0][1], 2))

# 🧪 TP 3 : Régression Linéaire - Prédire la consommation de carburant

Dans ce TP, vous allez prédire la consommation d’un véhicule (en L/100km) en fonction de :
- sa vitesse moyenne
- sa masse
- son type de motorisation (essence ou diesel)

Ce modèle permettra de mieux comprendre comment plusieurs facteurs combinés (y compris une variable catégorielle) influencent une variable continue.


In [None]:
# Importation des bibliothèques nécessaires
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd


# Création du jeu de données avec 3 variables explicatives
data = pd.DataFrame({
    'vitesse_moyenne': [60, 80, 100, 120, 140, 100, 130],
    'masse': [1000, 1100, 1200, 1300, 1400, 1250, 1350],
    'type': ['essence', 'essence', 'essence', 'diesel', 'diesel', 'diesel', 'essence'],
    'conso': [4.5, 5.2, 6.0, 6.5, 7.0, 5.8, 6.7]
})


# Encodage de la variable catégorielle "type" (essence/diesel)
############### A COMPLETER #############################


# Séparation des variables explicatives et de la cible
############## A COMPLETER ##############################

# Création et entraînement du modèle de régression linéaire
modele = LinearRegression()
modele.fit(X, y)


# Prédiction pour un véhicule de test
# Données : 110 km/h, 1150 kg, motorisation essence
voiture = [[110, 1150, enc.transform(['essence'])[0]]]
prediction = modele.predict(voiture)

# Affichage du résultat
print("Consommation prédite :", round(prediction[0], 2), "L/100km")


### ❓ Questions :
1. Compléter le programme
2. Que se passe-t-il si la vitesse augmente mais la masse diminue ?
3. Le modèle peut-il faire une prédiction pour 200 km/h ?



# 🧪 TP 4 : Régression Logistique - Prédire un risque médical

Dans ce TP, vous allez entraîner un modèle de régression logistique pour estimer le risque de maladie d’une personne
à partir de :
- son âge
- son indice de masse corporelle (IMC)
- son activité physique (oui/non)
- sa consommation de tabac (oui/non)

Le modèle donnera une probabilité, qui sera utilisée pour prédire la présence ou non d’un risque médical.


In [None]:

# Importation des bibliothèques nécessaires
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Création du jeu de données avec 4 variables explicatives
data = pd.DataFrame({
    'age': [25, 30, 45, 50, 60, 35, 55],
    'imc': [21, 24, 27, 29, 32, 23, 30],
    'activite_physique': ['oui', 'oui', 'non', 'non', 'non', 'oui', 'non'],
    'tabac': ['non', 'non', 'oui', 'oui', 'oui', 'non', 'oui'],
    'risque': ['Non', 'Non', 'Oui', 'Oui', 'Oui', 'Non', 'Oui']
})


# Encodage des variables catégorielles (oui/non)
############### A COMPLETER #############################


# Séparation des variables explicatives et de la cible
############## A COMPLETER ##############################


# Création et entraînement du modèle de régression logistique
logreg = LogisticRegression()
logreg.fit(X, y)

# Prédiction pour une personne de 40 ans, IMC = 26, non sportive, fumeuse
############## A COMPLETER ##############################

# Affichage du résultat
print("Risque prédit :", enc_risque.inverse_transform(prediction)[0])
print("Probabilité de risque :", round(proba[0][1], 2))



### ❓ Questions :
1. Compléter le programme
1. Quelle est la probabilité de risque pour une personne de 40 ans, IMC = 26, non sportive, fumeuse ?
2. Si on augmente l’IMC à 34, que devient la prédiction ?