# Test machine learning

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
from sklearn.mixture import GaussianMixture

# STEP1 : DATASET

In [2]:
iris = load_iris()
X, y = iris.data, iris.target
print(iris.feature_names)
print(iris.data)
print(iris.target)
print(iris.target_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3

# STEP2 : MODEL

C’est un algorithme d’apprentissage supervisé utilisé en classification (il existe aussi en régression).
Il fonctionne en construisant un arbre de décision qui sépare progressivement les données en sous-groupes homogènes selon leurs caractéristiques (features).

In [3]:
# Define models
models = {
    'RandomForestClassifier': RandomForestClassifier(),
    'LogisticRegression': LogisticRegression(random_state=42, max_iter=200),
    'KNeighborsClassifier': KNeighborsClassifier(),
    'DecisionTreeClassifier': DecisionTreeClassifier(max_depth=3, random_state=42),
    'SVC': SVC(),
    'GaussianNB': GaussianNB(),
    'GradientBoostingClassifier': GradientBoostingClassifier(),
    'LinearDiscriminantAnalysis': LinearDiscriminantAnalysis(),
    'KMeans': KMeans(n_clusters=3, random_state=42),
    'Gaussian Mixture Model (GMM)': GaussianMixture(n_components=3, random_state=42)
    
}

# Split the data (for supervised models only)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# STEP3: TRAIN

In [None]:
# Train and evaluate
for name, model in models.items():
    if name not in ['KMeans', 'Gaussian Mixture Model (GMM)']:
        # Supervised models
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        acc = accuracy_score(y_test, y_pred)
        print(f"{name} Accuracy: {acc:.2f}")
    else:
        # Unsupervised models
        model.fit(X)
        print(f"{name} fitted (unsupervised model)")

RandomForestClassifier Accuracy: 1.00
LogisticRegression Accuracy: 1.00
KNeighborsClassifier Accuracy: 1.00
DecisionTreeClassifier Accuracy: 1.00
SVC Accuracy: 1.00
GaussianNB Accuracy: 0.98
GradientBoostingClassifier Accuracy: 1.00
LinearDiscriminantAnalysis Accuracy: 1.00
KMeans fitted (unsupervised model)
Gaussian Mixture Model (GMM) fitted (unsupervised model)


# STEP 4 : TEST

In [5]:
prediction = model.predict([[5, 2, 4, 3]])
print(prediction)
print(iris.target_names[prediction])


[0]
['setosa']


#  Modèles de Machine Learning sur le jeu de données Iris

## Modèles d’apprentissage supervisé
Les modèles supervisés apprennent à partir de **données étiquetées** — ils connaissent déjà les bonnes réponses pendant l’entraînement.

## 1. DecisionTreeClassifier

- Imaginez-le comme un **jeu de questions**.  
- Le modèle pose des **questions Oui/Non** sur les données (ex. : “La longueur des pétales > 2 cm ?”).  
- Chaque question divise les données en petits groupes jusqu’à décider à quelle classe appartient la fleur.  
- À la fin, cela ressemble à un **arbre de décisions**, d’où le nom *Decision Tree*.

**En résumé :**  
 Il prend des décisions en **posant des questions simples étape par étape**.


##  2. RandomForestClassifier

- Une *Random Forest* est juste un **groupe de nombreux arbres de décision** qui travaillent ensemble.  
- Chaque arbre donne sa propre décision, et la forêt prend le **vote majoritaire** pour décider de la réponse finale.  
- Comme elle utilise beaucoup d’arbres, elle est **plus précise et stable** qu’un seul arbre.

**En résumé :**  
C’est comme **demander l’avis de plusieurs petits arbres** et prendre le vote majoritaire.

## 3. Support Vector Classifier (SVC)  

- Le SVC essaie de **tracer la meilleure ligne (ou frontière)** qui sépare les classes.  
- Il recherche **l’écart le plus large possible** entre les groupes de points de données.  
- Fonctionne très bien lorsque les classes sont clairement séparées, ou même lorsqu’elles ne le sont pas (en utilisant des transformations spéciales appelées *kernels*).

**En résumé :**  
Il **trace la frontière la plus claire possible** entre différents groupes de données.

### Régression Logistique vs Classificateur à Vecteurs de Support (SVC)

**Idée :** Les deux modèles classifient les données (décident de la classe d’un échantillon), mais ils le font différemment.

### 🔹 Régression Logistique
- Regarde **tous les points de données** et prédit la **probabilité** de chaque classe.  
- Exemple : “Cette fleur a **80% de chances** d’être Setosa.”  
- Crée une **frontière de décision douce**.

### 🔹 Classificateur à Vecteurs de Support (SVC)
- Se concentre uniquement sur les **points les plus proches de la frontière**.  
- Trace la **séparation la plus large possible** entre les classes.  
- Exemple : “Cette fleur est du côté droit → c’est Versicolor.”  
- Crée une **frontière stricte** (étiquette de classe, pas de probabilité).

**En résumé :**  
- Régression Logistique = décision basée sur la probabilité  
- SVC = séparation basée sur la marge

##  4. GaussianNB (Naive Bayes)  

**Idée :**  
Il regarde la fréquence à laquelle chaque valeur de caractéristique apparaît dans chaque classe et utilise les **probabilités** pour deviner la classe la plus probable.

**Comment ça fonctionne (version simple) :**
- Il vérifie la probabilité de chaque valeur pour chaque classe.  
- Puis il multiplie ces probabilités (en supposant que chaque caractéristique est indépendante).  
- Enfin, il choisit la classe avec la **probabilité totale la plus élevée**.

**Exemple :**  
Imaginez que vous deviez deviner de quelle ville vient quelqu’un :
- Dans la ville A, 80% aiment le thé et 40% aiment le football.  
- Dans la ville B, 30% aiment le thé et 90% aiment le football.  
Si quelqu’un aime le thé et le football → ville A (0,8×0,4=0,32) vs ville B (0,3×0,9=0,27).   Résultat → probablement ville A.

**Pourquoi "Gaussian" ?**  
Parce qu’il suppose que les nombres (comme la longueur des pétales) suivent une **courbe en cloche (distribution normale)**.

**En résumé :**  
*Il “compte” la fréquence des événements et choisit la classe la plus probable.*

##  5. GradientBoostingClassifier

- Construit **plusieurs petits arbres de décision**, l’un après l’autre.  
- Chaque nouvel arbre essaie de **corriger les erreurs** faites par le précédent.  
- Le résultat final est un modèle puissant qui combine la connaissance de tous les arbres.

**En résumé :**  
Il **apprend étape par étape**, chaque arbre améliorant le précédent.

##  6. Logistic Regression

**Idée :**  
Il trace une **ligne frontière** entre les classes et calcule la **probabilité** que chaque point appartienne à une classe.

**Comment ça fonctionne (version simple) :**
- Il combine les caractéristiques en une **équation linéaire**, comme en régression linéaire.  
- Puis il applique la **fonction logistique (sigmoïde)** pour transformer le résultat en **probabilité entre 0 et 1**.  
- La classe avec la probabilité la plus élevée est choisie.

**Exemple :**  
Séparer des points rouges et bleus sur une feuille.  
- “Côté gauche = Rouge”  
- “Côté droit = Bleu”

**En résumé :**  
*Il utilise une équation linéaire pour séparer les classes et prédit la catégorie à partir des probabilités.*

### 7. KNeighborsClassifier (KNN)    
- Examine les **voisins les plus proches** pour décider de la classe d’un point.  
- “Montre-moi tes amis, et je te dirai qui tu es.”

### 8. LinearDiscriminantAnalysis (LDA) 

LDA est une technique qui nous aide à **séparer les classes plus clairement** en créant **de nouvelles caractéristiques** à partir des originales.

####  Ce qu’il fait vraiment :
- LDA regarde comment chaque classe (Iris-setosa, Iris-versicolor, etc.) est **répartie** dans les données.  
- Il crée ensuite de **nouveaux axes** qui rendent les classes **aussi séparées que possible**.  
- Ces nouveaux axes sont **des combinaisons intelligentes des caractéristiques originales** (longueur sépale, largeur pétale, etc.).

####  Point important :
- LDA **transforme** vos données — les valeurs numériques changent — mais le **sens reste le même**.

####  Exemple :
Si vous avez 4 caractéristiques dans le dataset Iris, LDA peut les réduire à **1 ou 2 nouvelles caractéristiques** tout en gardant le même motif et en rendant la séparation entre espèces plus claire.

 LDA ne détruit pas vos données — il les **réorganise** pour rendre la classification **plus simple et précise**.

##  Modèles d’apprentissage non supervisé
Les modèles non supervisés apprennent à partir de **données non étiquetées** — ils découvrent des structures ou motifs cachés.

### 9.  KMeans   
- Regroupe les données en **clusters** basés sur leur similarité.  
- Exemple : trouve 3 groupes de fleurs Iris sans utiliser les labels.

### 10.  Gaussian Mixture Model (GMM)

**Idée :**  
C’est comme une version plus intelligente de **KMeans** pour regrouper les données sans étiquettes.

**Comment ça marche :**  
- Imagine que chaque groupe est un **nuage (une "gaussienne")** au lieu d’un simple cercle. 
- Chaque point peut appartenir **à plusieurs groupes en même temps**, avec une **probabilité** pour chacun.  
- Le modèle apprend la **forme et la position** de chaque nuage pour mieux représenter les données.

**Différence avec KMeans :**  
| Modèle | Forme des groupes | Attribution |
|--------|------------------|-------------|
| **KMeans** | Ronds | Chaque point = 1 seul groupe |
| **GMM** | Ovaux / flexibles | Chaque point = plusieurs groupes (avec des probabilités) |

**En résumé :**  
*Gaussian Mixture regroupe les données comme KMeans, mais de façon plus flexible et plus réaliste.*

##  Résumé

| Type | Modèle | But |
|------|--------|------|
| Supervised | Decision Tree | Classer avec des splits |
| Supervised | Random Forest | Combiner plusieurs arbres |
| Supervised | Logistic Regression | Séparer les classes avec une ligne |
| Supervised | KNN | Utiliser les voisins proches |
| Supervised | SVC | Tracer la meilleure frontière |
| Supervised | Naive Bayes | Utiliser les probabilités |
| Supervised | Gradient Boosting | Apprendre des erreurs |
| Supervised | LDA | Trouver la meilleure combinaison de caractéristiques |
| Unsupervised | KMeans | Regrouper les données |
| Unsupervised | PCA | Réduire les dimensions |


** Sources :** Simplifié à partir de la [documentation Scikit-learn](https://scikit-learn.org/stable/) et  
*“Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow” (Aurélien Géron, O’Reilly 2023).*