
# üìò Cours : R√©gression Lin√©aire et R√©gression Logistique

## üìà 1. R√©gression lin√©aire
- Objectif : pr√©dire une valeur num√©rique (ex : une note, un prix, une consommation).
- Forme du mod√®le : y = a¬∑x + b (fonction affine)
- Outil Python : `LinearRegression` de `scikit-learn`

## ü§ñ 2. R√©gression logistique
- Objectif : pr√©dire une classe binaire (ex : Oui / Non) sous forme de probabilit√©.
- Forme du mod√®le : sigmo√Øde : P = 1 / (1 + exp(‚Äì(ax + b)))
- Outil Python : `LogisticRegression` de `scikit-learn`
    


## üìä Visualisation des mod√®les
Nous allons tracer :
- Une **droite de r√©gression lin√©aire** (ex : note en fonction des heures d‚Äô√©tude)
- Une **courbe sigmo√Øde de r√©gression logistique** (ex : probabilit√© de r√©ussite en fonction de la note)
    

In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib

In [None]:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import LabelEncoder

# R√©gression lin√©aire
X_lin = np.array([5, 8, 10, 12, 15]).reshape(-1, 1)
y_lin = np.array([10, 12, 14, 15, 17])
lin_reg = LinearRegression()
lin_reg.fit(X_lin, y_lin)
X_range = np.linspace(4, 16, 100).reshape(-1, 1)
y_pred_lin = lin_reg.predict(X_range)

# R√©gression logistique
X_log = np.array([8, 10, 12, 14, 15]).reshape(-1, 1)
y_log = np.array(['Non', 'Non', 'Oui', 'Oui', 'Oui'])
enc = LabelEncoder()
y_log_encoded = enc.fit_transform(y_log)
log_reg = LogisticRegression()
log_reg.fit(X_log, y_log_encoded)
X_range_log = np.linspace(6, 17, 300).reshape(-1, 1)
y_prob_log = log_reg.predict_proba(X_range_log)[:, 1]

# Affichage
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X_lin, y_lin, color='blue', label="Donn√©es")
plt.plot(X_range, y_pred_lin, color='red', label="R√©gression lin√©aire")
plt.title("R√©gression lin√©aire : Note vs Heures d‚Äô√©tude")
plt.xlabel("Heures d‚Äô√©tude")
plt.ylabel("Note finale")
plt.legend()
plt.grid(True)

plt.subplot(1, 2, 2)
plt.scatter(X_log, y_log_encoded, color='green', label="Donn√©es (0 = Non, 1 = Oui)")
plt.plot(X_range_log, y_prob_log, color='purple', label="R√©gression logistique")
plt.title("R√©gression logistique : R√©ussite vs Note moyenne")
plt.xlabel("Note moyenne")
plt.ylabel("Probabilit√© de r√©ussite")
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()


Les courbes de r√©gression sont celles qui approximent le mieux les nuages de points issues des donn√©es. Pour ce faire, on fait des calculs pour **minimiser les erreurs entre les r√©sultats et les valeurs pr√©dites** (variance, co√ªt logarithmique) e.
On calculera cela en NSI Terminale :).

*Exemples* : 
1. Pour la r√©gression lin√©aire, on peut estimer la note finale √† 15.5 pour 13 heures de travail.
2. Pour la r√©gression logistique, on peut estimer √† 70% le taux de r√©ussite √† un examen d'un √©l√®ve ayant 12 de moyenne g√©n√©rale.

# üß™ TP 1 : R√©gression Lin√©aire - Pr√©dire une note d'√©l√®ve

Dans ce TP, vous allez construire un mod√®le de r√©gression lin√©aire pour pr√©dire la note finale d‚Äôun √©l√®ve
√† partir de deux variables :
- le nombre d'heures d'√©tude par semaine
- le nombre de devoirs rendus

L‚Äôobjectif est de comprendre comment une droite de r√©gression peut mod√©liser une tendance g√©n√©rale dans un jeu de donn√©es
et permettre des pr√©dictions num√©riques.


In [None]:

# Importation des biblioth√®ques n√©cessaires
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Cr√©ation du jeu de donn√©es simulant la progression d‚Äôun √©l√®ve
data = pd.DataFrame({
    'heures': [5, 8, 10, 12, 15],
    'devoirs': [2, 3, 4, 5, 6],
    'note': [10, 12, 14, 15, 17]
})

# S√©paration des variables explicatives et de la variable cible
X = data[['heures', 'devoirs']]
y = data['note']

# Cr√©ation et entra√Ænement du mod√®le de r√©gression lin√©aire
modele = LinearRegression()
modele.fit(X, y)

# Pr√©diction pour un nouvel √©l√®ve : 11h d‚Äô√©tude, 4 devoirs rendus
nouvel_eleve = [[11, 4]]
prediction = modele.predict(nouvel_eleve)

# Affichage de la note pr√©dite
print("Note pr√©dite :", round(prediction[0], 2))


# üß™ TP 2 : R√©gression Logistique - Pr√©dire une r√©ussite

Dans ce TP, vous allez entra√Æner un mod√®le de r√©gression logistique pour pr√©dire si un √©l√®ve va r√©ussir son ann√©e
√† partir de :
- sa note moyenne
- son assiduit√© en cours

La sortie du mod√®le sera une probabilit√©, convertie ensuite en une classe : r√©ussite (Oui) ou non-r√©ussite (Non).


In [None]:
# Importation des biblioth√®ques n√©cessaires
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Jeu de donn√©es : note moyenne, assiduit√©, r√©ussite (Oui/Non)
data = pd.DataFrame({
    'note_moyenne': [8, 10, 12, 14, 15, 9],
    'assiduite': [0, 0, 1, 1, 1, 0],
    'reussite': ['Non', 'Non', 'Oui', 'Oui', 'Oui', 'Non']
})

# Encodage de la variable cible : Oui/Non ‚Üí 1/0
enc = LabelEncoder()
data['reussite'] = enc.fit_transform(data['reussite'])

# S√©paration des variables d‚Äôentr√©e et de la sortie
X = data[['note_moyenne', 'assiduite']]
y = data['reussite']

# Cr√©ation et entra√Ænement du mod√®le de r√©gression logistique
logreg = LogisticRegression()
logreg.fit(X, y)

# Pr√©diction pour un √©l√®ve ayant 13 de moyenne, assidu
eleve = [[13, 1]]
prediction = logreg.predict(eleve)
proba = logreg.predict_proba(eleve)

# Affichage de la pr√©diction et de la probabilit√©
print("R√©ussite pr√©dite :", enc.inverse_transform(prediction)[0])
print("Probabilit√© de r√©ussite :", round(proba[0][1], 2))

# üß™ TP 3 : R√©gression Lin√©aire - Pr√©dire la consommation de carburant

Dans ce TP, vous allez pr√©dire la consommation d‚Äôun v√©hicule (en L/100km) en fonction de :
- sa vitesse moyenne
- sa masse
- son type de motorisation (essence ou diesel)

Ce mod√®le permettra de mieux comprendre comment plusieurs facteurs combin√©s (y compris une variable cat√©gorielle) influencent une variable continue.


In [None]:
# Importation des biblioth√®ques n√©cessaires
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd


# Cr√©ation du jeu de donn√©es avec 3 variables explicatives
data = pd.DataFrame({
    'vitesse_moyenne': [60, 80, 100, 120, 140, 100, 130],
    'masse': [1000, 1100, 1200, 1300, 1400, 1250, 1350],
    'type': ['essence', 'essence', 'essence', 'diesel', 'diesel', 'diesel', 'essence'],
    'conso': [4.5, 5.2, 6.0, 6.5, 7.0, 5.8, 6.7]
})


# Encodage de la variable cat√©gorielle "type" (essence/diesel)
############### A COMPLETER #############################


# S√©paration des variables explicatives et de la cible
############## A COMPLETER ##############################

# Cr√©ation et entra√Ænement du mod√®le de r√©gression lin√©aire
modele = LinearRegression()
modele.fit(X, y)


# Pr√©diction pour un v√©hicule de test
# Donn√©es : 110 km/h, 1150 kg, motorisation essence
voiture = [[110, 1150, enc.transform(['essence'])[0]]]
prediction = modele.predict(voiture)

# Affichage du r√©sultat
print("Consommation pr√©dite :", round(prediction[0], 2), "L/100km")


### ‚ùì Questions :
1. Compl√©ter le programme
2. Que se passe-t-il si la vitesse augmente mais la masse diminue ?
3. Le mod√®le peut-il faire une pr√©diction pour 200 km/h ?



# üß™ TP 4 : R√©gression Logistique - Pr√©dire un risque m√©dical

Dans ce TP, vous allez entra√Æner un mod√®le de r√©gression logistique pour estimer le risque de maladie d‚Äôune personne
√† partir de :
- son √¢ge
- son indice de masse corporelle (IMC)
- son activit√© physique (oui/non)
- sa consommation de tabac (oui/non)

Le mod√®le donnera une probabilit√©, qui sera utilis√©e pour pr√©dire la pr√©sence ou non d‚Äôun risque m√©dical.


In [None]:

# Importation des biblioth√®ques n√©cessaires
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Cr√©ation du jeu de donn√©es avec 4 variables explicatives
data = pd.DataFrame({
    'age': [25, 30, 45, 50, 60, 35, 55],
    'imc': [21, 24, 27, 29, 32, 23, 30],
    'activite_physique': ['oui', 'oui', 'non', 'non', 'non', 'oui', 'non'],
    'tabac': ['non', 'non', 'oui', 'oui', 'oui', 'non', 'oui'],
    'risque': ['Non', 'Non', 'Oui', 'Oui', 'Oui', 'Non', 'Oui']
})


# Encodage des variables cat√©gorielles (oui/non)
############### A COMPLETER #############################


# S√©paration des variables explicatives et de la cible
############## A COMPLETER ##############################


# Cr√©ation et entra√Ænement du mod√®le de r√©gression logistique
logreg = LogisticRegression()
logreg.fit(X, y)

# Pr√©diction pour une personne de 40 ans, IMC = 26, non sportive, fumeuse
############## A COMPLETER ##############################

# Affichage du r√©sultat
print("Risque pr√©dit :", enc_risque.inverse_transform(prediction)[0])
print("Probabilit√© de risque :", round(proba[0][1], 2))



### ‚ùì Questions :
1. Compl√©ter le programme
1. Quelle est la probabilit√© de risque pour une personne de 40 ans, IMC = 26, non sportive, fumeuse ?
2. Si on augmente l‚ÄôIMC √† 34, que devient la pr√©diction ?