
# TP IA n°1 : Classification linéaire

## Objectifs pédagogiques
- Comprendre ce qu’est un **classificateur linéaire** et ses limites.  
- Introduire les notions de frontière de décision, de séparabilité et d’évaluation d’un modèle.  

---

© 2025 Christie Vassilian.  
Ce document est protégé par la licence **CC BY-NC-ND 4.0** :  
- Toute utilisation commerciale est interdite.  
- Aucune modification ou diffusion n’est autorisée sans l’autorisation écrite de l’auteur.  
- Seul un usage strictement personnel est permis.  


---

### 📜 Licence d'utilisation

Ce document est protégé sous licence **Creative Commons BY-NC-ND 4.0 International**  
🔒 **Aucune modification ni réutilisation sans autorisation explicite de l'auteur.**

- 👤 Auteur : Christie Vassilian  
- 📥 Téléchargement autorisé uniquement à usage pédagogique personnel  
- 🚫 Réutilisation commerciale ou modification interdite  

[![Licence CC BY-NC-ND](https://licensebuttons.net/l/by-nc-nd/4.0/88x31.png)](https://creativecommons.org/licenses/by-nc-nd/4.0/)


# 🌟 Classificateur Linéaire Simplifié

Ce notebook te permet de comprendre ce qu’est un **classificateur linéaire**.  
Nous allons :
- Créer des données simples en 2D
- Tracer les points
- Apprendre un classificateur linéaire
- Visualiser la frontière de séparation

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## 🔧 Génération de données

## 👥 Exemple réaliste : prédire Homme ou Femme à partir de la taille et du poids

In [None]:
# Simulation : taille en cm et poids en kg
np.random.seed(1)

# Hommes : taille moyenne 175 cm, poids moyen 75 kg
taille_h = np.random.normal(175, 6, 50)
poids_h = np.random.normal(75, 8, 50)

# Femmes : taille moyenne 162 cm, poids moyen 62 kg
taille_f = np.random.normal(162, 5, 50)
poids_f = np.random.normal(62, 6, 50)

X = np.vstack((np.column_stack((taille_h, poids_h)),
               np.column_stack((taille_f, poids_f))))
y = np.array([0]*50 + [1]*50)  # 0 : Homme, 1 : Femme

In [None]:
# 🔎 Visualisation des données brutes (avant apprentissage)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='bwr', edgecolors='k')
plt.xlabel("Taille (cm)")
plt.ylabel("Poids (kg)")
plt.title("Données : taille et poids selon le genre")
plt.grid(True)
plt.show()

In [None]:
model = LogisticRegression()
model.fit(X, y)
print("Score de précision :", model.score(X, y))

### 🔍 Visualisation du résultat

Nous affichons maintenant :
- Les points (taille, poids) colorés selon la classe (homme ou femme),
- Et la **frontière de séparation** calculée par le modèle de régression logistique.

## ✏️ Visualisation de la frontière

In [None]:
# Visualisation de la frontière adaptée aux données
x_min, x_max = X[:, 0].min() - 2, X[:, 0].max() + 2
y_min, y_max = X[:, 1].min() - 2, X[:, 1].max() + 2

xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                     np.linspace(y_min, y_max, 200))
grid = np.c_[xx.ravel(), yy.ravel()]
probs = model.predict_proba(grid)[:, 1].reshape(xx.shape)

plt.contourf(xx, yy, probs, levels=[0, 0.5, 1], cmap="bwr", alpha=0.2)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="bwr", edgecolors='k')
plt.xlabel("Taille (cm)")
plt.ylabel("Poids (kg)")
plt.title("Frontière de décision du classificateur")
plt.grid(True)
plt.show()

👉 Ce classificateur trace une droite qui **sépare deux groupes**. Il apprendra à faire de même dans des cas plus complexes avec les réseaux de neurones.

## 🧪 Limite du classificateur linéaire

## 🧪 Exemple 2 : Peut-on deviner si une personne est heureuse selon son niveau de stress et d'excitation ?

On simule ici deux groupes :
- les personnes heureuses : niveau de stress **faible ou élevé**, mais excitation **moyenne**
- les personnes non heureuses : stress **moyen**, mais excitation **faible ou élevée**

Cela crée un motif **non linéaire**, qu’un classificateur linéaire ne peut pas correctement séparer.

In [None]:
from sklearn.datasets import make_circles

# Données en forme de cercles imbriqués
X2, y2 = make_circles(n_samples=200, noise=0.1, factor=0.5, random_state=0)

# Affichage
plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap='bwr', edgecolors='k')
plt.title("Données non-linéaires (cercles imbriqués)")
plt.xlabel("x1")
plt.ylabel("x2")
plt.grid(True)
plt.axis('equal')
plt.show()

In [None]:
model2 = LogisticRegression()
model2.fit(X2, y2)
print("Score de précision :", model2.score(X2, y2))

In [None]:
# Visualisation de la prédiction
xx, yy = np.meshgrid(np.linspace(-1.5, 1.5, 200), np.linspace(-1.5, 1.5, 200))
grid = np.c_[xx.ravel(), yy.ravel()]
probs = model2.predict_proba(grid)[:, 1].reshape(xx.shape)

plt.contourf(xx, yy, probs, levels=[0, 0.5, 1], cmap="bwr", alpha=0.2)
plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap="bwr", edgecolors='k')
plt.title("Le classificateur linéaire échoue ici")
plt.xlabel("x1")
plt.ylabel("x2")
plt.grid(True)
plt.axis('equal')
plt.show()

👉 Ce deuxième exemple montre que la **régression logistique ne peut tracer qu'une droite**.  
Elle échoue donc à séparer des données en forme de cercle.

C’est pour cela que l’on utilise des **modèles plus puissants comme les réseaux de neurones** : ils peuvent apprendre à tracer des **frontières complexes**, non linéaires.

## 🧠 Exercice final : À vous de jouer !

On cherche à savoir si une personne est **sportive** ou non à partir de deux informations simples :
- Son **temps moyen de sommeil par nuit** (en heures)
- Le **nombre d'heures de sport par semaine**

Les données ci-dessous sont issues d'une enquête simplifiée auprès de 100 personnes (50 sportives, 50 non sportives).

### 🎯 Objectif :
Utilisez le **code vu précédemment** pour :
1. Entraîner un classificateur linéaire
2. Afficher la frontière de séparation
3. Mesurer la précision du modèle

*Les données sont déjà prêtes ci-dessous, à vous de jouer !*

In [None]:
# Génération de données fictives
np.random.seed(3)

# Sportifs : dorment en moyenne 7h, font 6h de sport
sommeil_s = np.random.normal(7, 0.5, 50)
sport_s = np.random.normal(6, 1, 50)

# Non sportifs : dorment 6.5h mais très peu de sport
sommeil_ns = np.random.normal(6.5, 0.6, 50)
sport_ns = np.random.normal(0.5, 0.4, 50)

X3 = np.vstack((np.column_stack((sommeil_s, sport_s)),
                np.column_stack((sommeil_ns, sport_ns))))
y3 = np.array([1]*50 + [0]*50)  # 1 : sportif, 0 : non sportif

# Visualisation des données
plt.scatter(X3[:, 0], X3[:, 1], c=y3, cmap='bwr', edgecolors='k')
plt.xlabel("Sommeil (h/nuit)")
plt.ylabel("Heures de sport (h/semaine)")
plt.title("Êtes-vous sportif ?")
plt.grid(True)
plt.show()

---

### 📜 Licence d'utilisation

Ce document est protégé sous licence **Creative Commons BY-NC-ND 4.0 International**  
🔒 **Aucune modification ni réutilisation sans autorisation explicite de l'auteur.**

- 👤 Auteur : Christie Vassilian  
- 📥 Téléchargement autorisé uniquement à usage pédagogique personnel  
- 🚫 Réutilisation commerciale ou modification interdite  

[![Licence CC BY-NC-ND](https://licensebuttons.net/l/by-nc-nd/4.0/88x31.png)](https://creativecommons.org/licenses/by-nc-nd/4.0/)
