# TP 2 – Régression linéaire sur chauves-souris
**Membres du groupe :** Nom 1, Nom 2

Ce notebook contient le code source et les résultats du TP 2 de Machine Learning I sur la régression linéaire simple.

## Partie A – Chargement et exploration des données

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Chargement du fichier tabBats.txt
# Adapter le chemin si nécessaire
df = pd.read_csv("tabBats.txt", sep=r"\s+|,", engine="python", comment='#')

# Aperçu du jeu de données
display(df.head())
print(df.dtypes)
display(df.describe())

# Variables pertinentes
data = df[['Species','Diet','BOW','BRW']].copy()
display(data.head())

: 

## Partie B – Première régression linéaire simple

In [None]:
# Nuage de points BRW vs BOW
plt.figure(figsize=(7,5))
plt.scatter(data['BOW'], data['BRW'], s=40, alpha=0.7)
plt.xlabel("BOW (Body mass)")
plt.ylabel("BRW (Brain mass)")
plt.title("Nuage de points : BRW en fonction de BOW")
plt.grid(True)
plt.show()

In [None]:
# Ajustement du modèle linéaire simple
model1 = smf.ols(formula="BRW ~ BOW", data=data).fit()
print(model1.summary())

In [None]:
# Diagnostics des résidus
resid = model1.resid
fitted = model1.fittedvalues

plt.figure(figsize=(7,5))
plt.scatter(fitted, resid, alpha=0.7)
plt.axhline(0, color='black', linewidth=0.8)
plt.xlabel("Valeurs ajustées")
plt.ylabel("Résidus")
plt.title("Résidus vs valeurs ajustées (modèle 1)")
plt.grid(True)
plt.show()

sm.qqplot(resid, line='45', fit=True)
plt.title("QQ-plot des résidus (modèle 1)")
plt.show()

In [None]:
# Tracer la droite de régression sur le nuage
x_vals = np.linspace(data['BOW'].min(), data['BOW'].max(), 100)
y_vals = model1.params['Intercept'] + model1.params['BOW'] * x_vals

plt.figure(figsize=(7,5))
plt.scatter(data['BOW'], data['BRW'], s=40, alpha=0.7, label='Observations')
plt.plot(x_vals, y_vals, color='red', linewidth=2, label='Droite de régression')
plt.xlabel("BOW")
plt.ylabel("BRW")
plt.title("BRW vs BOW avec droite de régression (modèle 1)")
plt.legend()
plt.grid(True)
plt.show()

## Partie C – Retrait de l’espèce atypique *Pteropus vampyrus*

In [None]:
# Retrait de Pteropus vampyrus
tab2 = data[data['Species'] != 'Pteropus_vampyrus'].copy()

# Comparaison visuelle
plt.figure(figsize=(12,5))
plt.subplot(1,2,1)
plt.scatter(data['BOW'], data['BRW'], alpha=0.7)
plt.title("Avec Pteropus vampyrus")
plt.xlabel("BOW")
plt.ylabel("BRW")
plt.grid(True)

plt.subplot(1,2,2)
plt.scatter(tab2['BOW'], tab2['BRW'], alpha=0.7)
plt.title("Sans Pteropus vampyrus")
plt.xlabel("BOW")
plt.ylabel("BRW")
plt.grid(True)

plt.tight_layout()
plt.show()

# Ajustement du second modèle
model2 = smf.ols(formula="BRW ~ BOW", data=tab2).fit()
print(model2.summary())

In [None]:
# Superposition des deux droites de régression
x_vals = np.linspace(data['BOW'].min(), data['BOW'].max(), 100)
y1 = model1.params['Intercept'] + model1.params['BOW'] * x_vals
y2 = model2.params['Intercept'] + model2.params['BOW'] * x_vals

plt.figure(figsize=(7,5))
plt.scatter(data['BOW'], data['BRW'], s=35, alpha=0.6, label='Avec P. vampyrus')
plt.scatter(tab2['BOW'], tab2['BRW'], s=35, alpha=0.6, marker='x', label='Sans P. vampyrus')
plt.plot(x_vals, y1, label='Droite avec P. vampyrus', linewidth=2)
plt.plot(x_vals, y2, label='Droite sans P. vampyrus', linewidth=2, linestyle='--')
plt.legend()
plt.xlabel("BOW")
plt.ylabel("BRW")
plt.title("Comparaison des droites de régression")
plt.grid(True)
plt.show()