# Module Machine Learning Fondamental

## Plateforme IA-Solution RDC

**Niveau :** Débutant/Intermédiaire  
**Durée :** 6 semaines  
**Prérequis :** Python, bases de mathématiques

---

### 🎯 Objectifs

- Comprendre le Machine Learning
- Maîtriser les algorithmes fondamentaux
- Entraîner et valider des modèles
- Appliquer le ML à des cas RDC

In [None]:
# Installation
!pip install scikit-learn pandas numpy matplotlib seaborn -q

print("✅ Bibliothèques installées !")

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score, mean_squared_error, r2_score

np.random.seed(42)
print("✅ Imports terminés !")

---

# Chapitre 1 : Introduction au ML

## 1.1 Qu'est-ce que le Machine Learning ?

Le **Machine Learning** permet aux ordinateurs d'apprendre à partir de données sans être explicitement programmés.

### Types d'apprentissage

1. **Supervisé** : Données avec labels (X, y)
   - Régression : Prédire valeurs continues
   - Classification : Prédire catégories

2. **Non supervisé** : Données sans labels (X)
   - Clustering : Regrouper données similaires

In [None]:
# Exemple de données
# Prédire le prix du manioc en fonction de la quantité

quantite = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
prix = np.array([5000, 9500, 14000, 18500, 23000, 27500, 32000, 36500, 41000, 45500])

plt.figure(figsize=(10, 6))
plt.scatter(quantite, prix, s=100)
plt.xlabel('Quantité (kg)')
plt.ylabel('Prix (FC)')
plt.title('Prix du manioc en fonction de la quantité')
plt.grid(True, alpha=0.3)
plt.show()

---

# Chapitre 2 : Régression linéaire

## 2.1 Principe

Trouver la droite qui s'ajuste le mieux aux données : **y = ax + b**

In [None]:
# Préparer les données
X = quantite.reshape(-1, 1)  # Features
y = prix  # Target

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train: {len(X_train)} exemples")
print(f"Test: {len(X_test)} exemples")

In [None]:
# Entraîner le modèle
model = LinearRegression()
model.fit(X_train, y_train)

print(f"Coefficient (a): {model.coef_[0]:.2f}")
print(f"Intercept (b): {model.intercept_:.2f}")
print(f"\nÉquation: y = {model.coef_[0]:.2f}x + {model.intercept_:.2f}")

In [None]:
# Prédictions
y_pred = model.predict(X_test)

# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse:.2f}")
print(f"R²: {r2:.3f}")

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X, y, label='Données réelles', s=100)
plt.plot(X, model.predict(X), 'r-', linewidth=2, label='Régression')
plt.xlabel('Quantité (kg)')
plt.ylabel('Prix (FC)')
plt.title('Régression linéaire')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### 🎯 Exercice 1 : Régression linéaire

Prédire le rendement agricole en fonction de la quantité d'engrais

In [None]:
# Exercice 1 : À vous de jouer !

engrais = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
rendement = np.array([2, 3.5, 5, 6.2, 7.5, 8.5, 9.2, 9.8, 10.2, 10.5])

# TODO:
# 1. Créer et entraîner un modèle
# 2. Faire des prédictions
# 3. Calculer R²
# 4. Visualiser


In [None]:
# Solution Exercice 1

engrais = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
rendement = np.array([2, 3.5, 5, 6.2, 7.5, 8.5, 9.2, 9.8, 10.2, 10.5])

X = engrais.reshape(-1, 1)
y = rendement

model_rend = LinearRegression()
model_rend.fit(X, y)

y_pred = model_rend.predict(X)
r2 = r2_score(y, y_pred)

print(f"R²: {r2:.3f}")

plt.figure(figsize=(10, 6))
plt.scatter(X, y, s=100, label='Données')
plt.plot(X, y_pred, 'r-', linewidth=2, label='Régression')
plt.xlabel('Engrais (kg/ha)')
plt.ylabel('Rendement (tonnes/ha)')
plt.title('Rendement vs Engrais')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

---

# Chapitre 3 : Régression logistique

## 3.1 Classification binaire

Prédire une catégorie (0 ou 1)

In [None]:
# Données : Détection du paludisme
# Features : [Température, Fatigue (0-10)]
# Target : 0 = Sain, 1 = Paludisme

np.random.seed(42)

# Cas positifs
X_pos = np.random.randn(50, 2) * np.array([1, 1.5]) + np.array([39.5, 8])
y_pos = np.ones(50)

# Cas négatifs
X_neg = np.random.randn(50, 2) * np.array([0.5, 2]) + np.array([37, 3])
y_neg = np.zeros(50)

X = np.vstack([X_pos, X_neg])
y = np.hstack([y_pos, y_neg])

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X[y==0, 0], X[y==0, 1], label='Sain', alpha=0.6)
plt.scatter(X[y==1, 0], X[y==1, 1], label='Paludisme', alpha=0.6)
plt.xlabel('Température (°C)')
plt.ylabel('Fatigue (0-10)')
plt.title('Données de diagnostic')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Split et entraînement
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_log = LogisticRegression()
model_log.fit(X_train, y_train)

# Prédictions
y_pred = model_log.predict(X_test)

# Évaluation
accuracy = accuracy_score(y_test, y_pred)
print(f"Précision: {accuracy * 100:.2f}%")

### 🎯 Exercice 2 : Classification

Classifier des SMS (spam/normal)

In [None]:
# Exercice 2 : À vous de jouer !

# Features : [Longueur, Nombre de mots en majuscules]
# Target : 0 = Normal, 1 = Spam

# TODO: Créer des données et entraîner un modèle


In [None]:
# Solution Exercice 2

# Spam : longs, beaucoup de majuscules
X_spam = np.random.randn(40, 2) * np.array([20, 5]) + np.array([150, 15])
y_spam = np.ones(40)

# Normal : courts, peu de majuscules
X_normal = np.random.randn(60, 2) * np.array([15, 2]) + np.array([50, 3])
y_normal = np.zeros(60)

X_sms = np.vstack([X_spam, X_normal])
y_sms = np.hstack([y_spam, y_normal])

X_train, X_test, y_train, y_test = train_test_split(X_sms, y_sms, test_size=0.2, random_state=42)

model_sms = LogisticRegression()
model_sms.fit(X_train, y_train)

accuracy = accuracy_score(y_test, model_sms.predict(X_test))
print(f"Précision: {accuracy * 100:.2f}%")

---

# Chapitre 4 : k-Nearest Neighbors

## 4.1 Principe

Classer selon les k voisins les plus proches

In [None]:
# Données : Classification de fruits
# Features : [Longueur, Largeur]
# Target : 0 = Banane, 1 = Mangue, 2 = Ananas

np.random.seed(42)

# Bananes : allongées
X_banane = np.random.randn(30, 2) * np.array([2, 1]) + np.array([18, 4])
y_banane = np.zeros(30)

# Mangues : ovales
X_mangue = np.random.randn(30, 2) * np.array([2, 2]) + np.array([12, 8])
y_mangue = np.ones(30)

# Ananas : gros
X_ananas = np.random.randn(30, 2) * np.array([3, 3]) + np.array([25, 12])
y_ananas = np.full(30, 2)

X_fruits = np.vstack([X_banane, X_mangue, X_ananas])
y_fruits = np.hstack([y_banane, y_mangue, y_ananas])

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_fruits[y_fruits==0, 0], X_fruits[y_fruits==0, 1], label='Banane', alpha=0.6)
plt.scatter(X_fruits[y_fruits==1, 0], X_fruits[y_fruits==1, 1], label='Mangue', alpha=0.6)
plt.scatter(X_fruits[y_fruits==2, 0], X_fruits[y_fruits==2, 1], label='Ananas', alpha=0.6)
plt.xlabel('Longueur (cm)')
plt.ylabel('Largeur (cm)')
plt.title('Classification de fruits')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Entraînement kNN
X_train, X_test, y_train, y_test = train_test_split(X_fruits, y_fruits, test_size=0.2, random_state=42)

model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)

accuracy = accuracy_score(y_test, model_knn.predict(X_test))
print(f"Précision: {accuracy * 100:.2f}%")

### 🎯 Exercice 3 : kNN

Tester différentes valeurs de k et trouver la meilleure

In [None]:
# Exercice 3 : À vous de jouer !

# TODO: Tester k = 1, 3, 5, 7, 9, 11
# Afficher la précision pour chaque k


In [None]:
# Solution Exercice 3

k_values = [1, 3, 5, 7, 9, 11]
accuracies = []

for k in k_values:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X_train, y_train)
    acc = accuracy_score(y_test, model.predict(X_test))
    accuracies.append(acc)
    print(f"k={k}: {acc * 100:.2f}%")

# Graphique
plt.figure(figsize=(10, 6))
plt.plot(k_values, accuracies, marker='o', linewidth=2, markersize=8)
plt.xlabel('k')
plt.ylabel('Précision')
plt.title('Précision vs k')
plt.grid(True, alpha=0.3)
plt.show()

best_k = k_values[np.argmax(accuracies)]
print(f"\nMeilleur k: {best_k}")

---

# Chapitre 5 : Arbres de décision et Clustering

## 5.1 Arbres de décision

In [None]:
# Arbre de décision sur les fruits
model_tree = DecisionTreeClassifier(max_depth=3, random_state=42)
model_tree.fit(X_train, y_train)

accuracy = accuracy_score(y_test, model_tree.predict(X_test))
print(f"Précision: {accuracy * 100:.2f}%")

## 5.2 Clustering (k-Means)

In [None]:
# k-Means sur les fruits (sans labels)
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_fruits)

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_fruits[:, 0], X_fruits[:, 1], c=clusters, cmap='viridis', alpha=0.6)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], 
            marker='X', s=300, c='red', edgecolors='black', linewidths=2, label='Centres')
plt.xlabel('Longueur (cm)')
plt.ylabel('Largeur (cm)')
plt.title('Clustering k-Means')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### 🎯 Exercice 4 : Clustering

Segmenter des clients en 3 groupes

In [None]:
# Exercice 4 : À vous de jouer !

# Données clients : [Revenu, Dépenses]
np.random.seed(42)
clients = np.random.randn(150, 2) * np.array([20000, 5000]) + np.array([50000, 15000])

# TODO: Appliquer k-Means et visualiser


In [None]:
# Solution Exercice 4

np.random.seed(42)
clients = np.random.randn(150, 2) * np.array([20000, 5000]) + np.array([50000, 15000])

kmeans_clients = KMeans(n_clusters=3, random_state=42)
segments = kmeans_clients.fit_predict(clients)

plt.figure(figsize=(10, 6))
plt.scatter(clients[:, 0], clients[:, 1], c=segments, cmap='viridis', alpha=0.6)
plt.scatter(kmeans_clients.cluster_centers_[:, 0], kmeans_clients.cluster_centers_[:, 1],
            marker='X', s=300, c='red', edgecolors='black', linewidths=2)
plt.xlabel('Revenu (FC)')
plt.ylabel('Dépenses (FC)')
plt.title('Segmentation clients')
plt.grid(True, alpha=0.3)
plt.show()

print(f"Segment 0: {np.sum(segments == 0)} clients")
print(f"Segment 1: {np.sum(segments == 1)} clients")
print(f"Segment 2: {np.sum(segments == 2)} clients")

---

# Validation croisée

In [None]:
# Validation croisée sur kNN
scores = cross_val_score(model_knn, X_fruits, y_fruits, cv=5)

print(f"Scores: {scores}")
print(f"Moyenne: {scores.mean():.3f}")
print(f"Écart-type: {scores.std():.3f}")

### 🎯 Exercice 5 : Projet complet

Prédire le prix du manioc avec plusieurs modèles

In [None]:
# Exercice 5 : Projet complet

# Données : Prix du manioc
# Features : [Quantité, Saison (0-3), Pluie (mm)]

np.random.seed(42)
n = 200

quantite = np.random.randint(10, 100, n)
saison = np.random.randint(0, 4, n)
pluie = np.random.randint(50, 200, n)

# Prix = f(quantité, saison, pluie) + bruit
prix = (quantite * 450 + saison * 2000 - pluie * 10 + np.random.randn(n) * 1000)

X_manioc = np.column_stack([quantite, saison, pluie])
y_manioc = prix

# TODO:
# 1. Split train/test
# 2. Entraîner LinearRegression
# 3. Évaluer avec R²
# 4. Faire des prédictions
# 5. Visualiser résultats


In [None]:
# Solution Exercice 5

np.random.seed(42)
n = 200

quantite = np.random.randint(10, 100, n)
saison = np.random.randint(0, 4, n)
pluie = np.random.randint(50, 200, n)

prix = (quantite * 450 + saison * 2000 - pluie * 10 + np.random.randn(n) * 1000)

X_manioc = np.column_stack([quantite, saison, pluie])
y_manioc = prix

# 1. Split
X_train, X_test, y_train, y_test = train_test_split(X_manioc, y_manioc, test_size=0.2, random_state=42)

# 2. Entraînement
model_manioc = LinearRegression()
model_manioc.fit(X_train, y_train)

# 3. Évaluation
y_pred = model_manioc.predict(X_test)
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f"R²: {r2:.3f}")
print(f"MSE: {mse:.2f}")

# 4. Prédiction exemple
nouveau = np.array([[50, 2, 100]])  # 50kg, saison 2, 100mm pluie
prix_predit = model_manioc.predict(nouveau)
print(f"\nPrix prédit pour 50kg: {prix_predit[0]:.2f} FC")

# 5. Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', linewidth=2)
plt.xlabel('Prix réel (FC)')
plt.ylabel('Prix prédit (FC)')
plt.title(f'Prédiction du prix du manioc (R²={r2:.3f})')
plt.grid(True, alpha=0.3)
plt.show()

---

## 🎓 Résumé

### Compétences acquises

- ✅ Régression linéaire
- ✅ Régression logistique
- ✅ k-Nearest Neighbors
- ✅ Arbres de décision
- ✅ Clustering (k-Means)
- ✅ Train/Test split
- ✅ Validation croisée
- ✅ Métriques d'évaluation

**Félicitations ! Module ML Fondamental terminé ! 🎉**