# Introduction au Machine Learning
## Une approche pratique avec scikit-learn

Ce notebook présente une introduction au Machine Learning avec des exemples pratiques utilisant scikit-learn.

## Installation des packages nécessaires

In [None]:
!pip install numpy pandas matplotlib seaborn scikit-learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris, fetch_california_housing
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import mean_squared_error, r2_score

%matplotlib inline

# 1. Qu'est-ce que le Machine Learning ?

Le Machine Learning est une branche de l'intelligence artificielle qui permet aux systèmes d'apprendre à partir des données.

Applications courantes :
- Recommandations (Netflix, Amazon)
- Reconnaissance d'images
- Détection de fraudes
- Prédiction des ventes

# 2. Premier exemple : Classification des Iris

Commençons par un exemple classique : la classification des fleurs Iris.

In [None]:
# Chargement du dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

# Conversion en DataFrame pour une meilleure visualisation
iris_df = pd.DataFrame(X, columns=iris.feature_names)
iris_df['target'] = y

print("Aperçu des données :")
print(iris_df.head())
print("\nInformations sur le dataset :")
print(iris_df.info())

## 2.1 Visualisation des données

In [None]:
# Création d'un pair plot pour visualiser les relations entre les features
sns.pairplot(iris_df, hue='target', diag_kind='hist')
plt.show()

## 2.2 Préparation des données

In [None]:
# Split des données
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Standardisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 2.3 Entraînement du modèle

In [None]:
# Création et entraînement du Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# Prédictions
y_pred = rf_model.predict(X_test_scaled)

# Affichage des résultats
print("Classification Report:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

In [None]:
# Visualisation de la matrice de confusion
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.title('Matrice de confusion')
plt.xlabel('Prédiction')
plt.ylabel('Réalité')
plt.show()

# 3. Exercice pratique : Prédiction des prix immobiliers

Maintenant, passons à un problème de régression avec le dataset California Housing.

In [None]:
# Chargement des données
housing = fetch_california_housing()
X = pd.DataFrame(housing.data, columns=housing.feature_names)
y = housing.target

print("Description des features :")
print(X.describe())

# Distribution des prix
plt.figure(figsize=(10, 6))
plt.hist(y, bins=50)
plt.title('Distribution des prix des maisons')
plt.xlabel('Prix (100k$)')
plt.ylabel('Fréquence')
plt.show()

## 3.1 Préparation des données

In [None]:
# Split et standardisation
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 3.2 Comparaison de modèles

In [None]:
# Régression linéaire
lr_model = LinearRegression()
lr_model.fit(X_train_scaled, y_train)
lr_pred = lr_model.predict(X_test_scaled)

print("Résultats de la régression linéaire :")
print(f"MSE: {mean_squared_error(y_test, lr_pred):.4f}")
print(f"R²: {r2_score(y_test, lr_pred):.4f}")

In [None]:
# Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)
rf_pred = rf_model.predict(X_test_scaled)

print("\nRésultats du Random Forest :")
print(f"MSE: {mean_squared_error(y_test, rf_pred):.4f}")
print(f"R²: {r2_score(y_test, rf_pred):.4f}")

## 3.3 Analyse des features importantes

In [None]:
# Visualisation de l'importance des features
feature_importance = pd.DataFrame({
    'feature': housing.feature_names,
    'importance': rf_model.feature_importances_
})
feature_importance = feature_importance.sort_values('importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(data=feature_importance, x='importance', y='feature')
plt.title('Importance des features')
plt.show()

## 3.4 Validation croisée

In [None]:
# Validation croisée pour le Random Forest
cv_scores = cross_val_score(rf_model, X_train_scaled, y_train, cv=5)
print("Scores de validation croisée:", cv_scores)
print(f"Score moyen: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# 4. Exercices proposés

1. Essayez d'améliorer les performances du modèle Random Forest en ajustant ses hyperparamètres
2. Testez d'autres algorithmes (ex: SVR, XGBoost)
3. Créez de nouvelles features à partir des features existantes
4. Analysez les erreurs du modèle pour comprendre ses faiblesses

# 5. Resources additionnelles

- Documentation scikit-learn: https://scikit-learn.org/
- Cours en ligne: Coursera, edX
- Kaggle pour la pratique
- Forums et communautés