# Test machine learning

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
from sklearn.mixture import GaussianMixture

# STEP1 : DATASET

In [2]:
iris = load_iris()
X, y = iris.data, iris.target
print(iris.feature_names)
print(iris.data)
print(iris.target)
print(iris.target_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3

# STEP2 : MODEL

C‚Äôest un algorithme d‚Äôapprentissage supervis√© utilis√© en classification (il existe aussi en r√©gression).
Il fonctionne en construisant un arbre de d√©cision qui s√©pare progressivement les donn√©es en sous-groupes homog√®nes selon leurs caract√©ristiques (features).

In [3]:
# Define models
models = {
    'RandomForestClassifier': RandomForestClassifier(),
    'LogisticRegression': LogisticRegression(random_state=42, max_iter=200),
    'KNeighborsClassifier': KNeighborsClassifier(),
    'DecisionTreeClassifier': DecisionTreeClassifier(max_depth=3, random_state=42),
    'SVC': SVC(),
    'GaussianNB': GaussianNB(),
    'GradientBoostingClassifier': GradientBoostingClassifier(),
    'LinearDiscriminantAnalysis': LinearDiscriminantAnalysis(),
    'KMeans': KMeans(n_clusters=3, random_state=42),
    'Gaussian Mixture Model (GMM)': GaussianMixture(n_components=3, random_state=42)
    
}

# Split the data (for supervised models only)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# STEP3: TRAIN

In [None]:
# Train and evaluate
for name, model in models.items():
    if name not in ['KMeans', 'Gaussian Mixture Model (GMM)']:
        # Supervised models
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        acc = accuracy_score(y_test, y_pred)
        print(f"{name} Accuracy: {acc:.2f}")
    else:
        # Unsupervised models
        model.fit(X)
        print(f"{name} fitted (unsupervised model)")

RandomForestClassifier Accuracy: 1.00
LogisticRegression Accuracy: 1.00
KNeighborsClassifier Accuracy: 1.00
DecisionTreeClassifier Accuracy: 1.00
SVC Accuracy: 1.00
GaussianNB Accuracy: 0.98
GradientBoostingClassifier Accuracy: 1.00
LinearDiscriminantAnalysis Accuracy: 1.00
KMeans fitted (unsupervised model)
Gaussian Mixture Model (GMM) fitted (unsupervised model)


# STEP 4 : TEST

In [5]:
prediction = model.predict([[5, 2, 4, 3]])
print(prediction)
print(iris.target_names[prediction])


[0]
['setosa']


#  Mod√®les de Machine Learning sur le jeu de donn√©es Iris

## Mod√®les d‚Äôapprentissage supervis√©
Les mod√®les supervis√©s apprennent √† partir de **donn√©es √©tiquet√©es** ‚Äî ils connaissent d√©j√† les bonnes r√©ponses pendant l‚Äôentra√Ænement.

## 1. DecisionTreeClassifier

- Imaginez-le comme un **jeu de questions**.  
- Le mod√®le pose des **questions Oui/Non** sur les donn√©es (ex. : ‚ÄúLa longueur des p√©tales > 2 cm ?‚Äù).  
- Chaque question divise les donn√©es en petits groupes jusqu‚Äô√† d√©cider √† quelle classe appartient la fleur.  
- √Ä la fin, cela ressemble √† un **arbre de d√©cisions**, d‚Äôo√π le nom *Decision Tree*.

**En r√©sum√© :**  
 Il prend des d√©cisions en **posant des questions simples √©tape par √©tape**.


##  2. RandomForestClassifier

- Une *Random Forest* est juste un **groupe de nombreux arbres de d√©cision** qui travaillent ensemble.  
- Chaque arbre donne sa propre d√©cision, et la for√™t prend le **vote majoritaire** pour d√©cider de la r√©ponse finale.  
- Comme elle utilise beaucoup d‚Äôarbres, elle est **plus pr√©cise et stable** qu‚Äôun seul arbre.

**En r√©sum√© :**  
C‚Äôest comme **demander l‚Äôavis de plusieurs petits arbres** et prendre le vote majoritaire.

## 3. Support Vector Classifier (SVC)  

- Le SVC essaie de **tracer la meilleure ligne (ou fronti√®re)** qui s√©pare les classes.  
- Il recherche **l‚Äô√©cart le plus large possible** entre les groupes de points de donn√©es.  
- Fonctionne tr√®s bien lorsque les classes sont clairement s√©par√©es, ou m√™me lorsqu‚Äôelles ne le sont pas (en utilisant des transformations sp√©ciales appel√©es *kernels*).

**En r√©sum√© :**  
Il **trace la fronti√®re la plus claire possible** entre diff√©rents groupes de donn√©es.

### R√©gression Logistique vs Classificateur √† Vecteurs de Support (SVC)

**Id√©e :** Les deux mod√®les classifient les donn√©es (d√©cident de la classe d‚Äôun √©chantillon), mais ils le font diff√©remment.

### üîπ R√©gression Logistique
- Regarde **tous les points de donn√©es** et pr√©dit la **probabilit√©** de chaque classe.  
- Exemple : ‚ÄúCette fleur a **80% de chances** d‚Äô√™tre Setosa.‚Äù  
- Cr√©e une **fronti√®re de d√©cision douce**.

### üîπ Classificateur √† Vecteurs de Support (SVC)
- Se concentre uniquement sur les **points les plus proches de la fronti√®re**.  
- Trace la **s√©paration la plus large possible** entre les classes.  
- Exemple : ‚ÄúCette fleur est du c√¥t√© droit ‚Üí c‚Äôest Versicolor.‚Äù  
- Cr√©e une **fronti√®re stricte** (√©tiquette de classe, pas de probabilit√©).

**En r√©sum√© :**  
- R√©gression Logistique = d√©cision bas√©e sur la probabilit√©  
- SVC = s√©paration bas√©e sur la marge

##  4. GaussianNB (Naive Bayes)  

**Id√©e :**  
Il regarde la fr√©quence √† laquelle chaque valeur de caract√©ristique appara√Æt dans chaque classe et utilise les **probabilit√©s** pour deviner la classe la plus probable.

**Comment √ßa fonctionne (version simple) :**
- Il v√©rifie la probabilit√© de chaque valeur pour chaque classe.  
- Puis il multiplie ces probabilit√©s (en supposant que chaque caract√©ristique est ind√©pendante).  
- Enfin, il choisit la classe avec la **probabilit√© totale la plus √©lev√©e**.

**Exemple :**  
Imaginez que vous deviez deviner de quelle ville vient quelqu‚Äôun :
- Dans la ville A, 80% aiment le th√© et 40% aiment le football.  
- Dans la ville B, 30% aiment le th√© et 90% aiment le football.  
Si quelqu‚Äôun aime le th√© et le football ‚Üí ville A (0,8√ó0,4=0,32) vs ville B (0,3√ó0,9=0,27).   R√©sultat ‚Üí probablement ville A.

**Pourquoi "Gaussian" ?**  
Parce qu‚Äôil suppose que les nombres (comme la longueur des p√©tales) suivent une **courbe en cloche (distribution normale)**.

**En r√©sum√© :**  
*Il ‚Äúcompte‚Äù la fr√©quence des √©v√©nements et choisit la classe la plus probable.*

##  5. GradientBoostingClassifier

- Construit **plusieurs petits arbres de d√©cision**, l‚Äôun apr√®s l‚Äôautre.  
- Chaque nouvel arbre essaie de **corriger les erreurs** faites par le pr√©c√©dent.  
- Le r√©sultat final est un mod√®le puissant qui combine la connaissance de tous les arbres.

**En r√©sum√© :**  
Il **apprend √©tape par √©tape**, chaque arbre am√©liorant le pr√©c√©dent.

##  6. Logistic Regression

**Id√©e :**  
Il trace une **ligne fronti√®re** entre les classes et calcule la **probabilit√©** que chaque point appartienne √† une classe.

**Comment √ßa fonctionne (version simple) :**
- Il combine les caract√©ristiques en une **√©quation lin√©aire**, comme en r√©gression lin√©aire.  
- Puis il applique la **fonction logistique (sigmo√Øde)** pour transformer le r√©sultat en **probabilit√© entre 0 et 1**.  
- La classe avec la probabilit√© la plus √©lev√©e est choisie.

**Exemple :**  
S√©parer des points rouges et bleus sur une feuille.  
- ‚ÄúC√¥t√© gauche = Rouge‚Äù  
- ‚ÄúC√¥t√© droit = Bleu‚Äù

**En r√©sum√© :**  
*Il utilise une √©quation lin√©aire pour s√©parer les classes et pr√©dit la cat√©gorie √† partir des probabilit√©s.*

### 7. KNeighborsClassifier (KNN)    
- Examine les **voisins les plus proches** pour d√©cider de la classe d‚Äôun point.  
- ‚ÄúMontre-moi tes amis, et je te dirai qui tu es.‚Äù

### 8. LinearDiscriminantAnalysis (LDA) 

LDA est une technique qui nous aide √† **s√©parer les classes plus clairement** en cr√©ant **de nouvelles caract√©ristiques** √† partir des originales.

####  Ce qu‚Äôil fait vraiment :
- LDA regarde comment chaque classe (Iris-setosa, Iris-versicolor, etc.) est **r√©partie** dans les donn√©es.  
- Il cr√©e ensuite de **nouveaux axes** qui rendent les classes **aussi s√©par√©es que possible**.  
- Ces nouveaux axes sont **des combinaisons intelligentes des caract√©ristiques originales** (longueur s√©pale, largeur p√©tale, etc.).

####  Point important :
- LDA **transforme** vos donn√©es ‚Äî les valeurs num√©riques changent ‚Äî mais le **sens reste le m√™me**.

####  Exemple :
Si vous avez 4 caract√©ristiques dans le dataset Iris, LDA peut les r√©duire √† **1 ou 2 nouvelles caract√©ristiques** tout en gardant le m√™me motif et en rendant la s√©paration entre esp√®ces plus claire.

 LDA ne d√©truit pas vos donn√©es ‚Äî il les **r√©organise** pour rendre la classification **plus simple et pr√©cise**.

##  Mod√®les d‚Äôapprentissage non supervis√©
Les mod√®les non supervis√©s apprennent √† partir de **donn√©es non √©tiquet√©es** ‚Äî ils d√©couvrent des structures ou motifs cach√©s.

### 9.  KMeans   
- Regroupe les donn√©es en **clusters** bas√©s sur leur similarit√©.  
- Exemple : trouve 3 groupes de fleurs Iris sans utiliser les labels.

### 10.  Gaussian Mixture Model (GMM)

**Id√©e :**  
C‚Äôest comme une version plus intelligente de **KMeans** pour regrouper les donn√©es sans √©tiquettes.

**Comment √ßa marche :**  
- Imagine que chaque groupe est un **nuage (une "gaussienne")** au lieu d‚Äôun simple cercle. 
- Chaque point peut appartenir **√† plusieurs groupes en m√™me temps**, avec une **probabilit√©** pour chacun.  
- Le mod√®le apprend la **forme et la position** de chaque nuage pour mieux repr√©senter les donn√©es.

**Diff√©rence avec KMeans :**  
| Mod√®le | Forme des groupes | Attribution |
|--------|------------------|-------------|
| **KMeans** | Ronds | Chaque point = 1 seul groupe |
| **GMM** | Ovaux / flexibles | Chaque point = plusieurs groupes (avec des probabilit√©s) |

**En r√©sum√© :**  
*Gaussian Mixture regroupe les donn√©es comme KMeans, mais de fa√ßon plus flexible et plus r√©aliste.*

##  R√©sum√©

| Type | Mod√®le | But |
|------|--------|------|
| Supervised | Decision Tree | Classer avec des splits |
| Supervised | Random Forest | Combiner plusieurs arbres |
| Supervised | Logistic Regression | S√©parer les classes avec une ligne |
| Supervised | KNN | Utiliser les voisins proches |
| Supervised | SVC | Tracer la meilleure fronti√®re |
| Supervised | Naive Bayes | Utiliser les probabilit√©s |
| Supervised | Gradient Boosting | Apprendre des erreurs |
| Supervised | LDA | Trouver la meilleure combinaison de caract√©ristiques |
| Unsupervised | KMeans | Regrouper les donn√©es |
| Unsupervised | PCA | R√©duire les dimensions |


** Sources :** Simplifi√© √† partir de la [documentation Scikit-learn](https://scikit-learn.org/stable/) et  
*‚ÄúHands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow‚Äù (Aur√©lien G√©ron, O‚ÄôReilly 2023).*