# Introduction à Scikit-Learn

Scikit-Learn est une bibliothèque open-source de machine learning en Python. Elle fournit des outils simples et efficaces pour l'analyse et l'exploration de données. Elle est construite sur NumPy, SciPy et Matplotlib et est largement utilisée pour le développement de modèles d'apprentissage automatique.

### Avantages de Scikit-Learn :
- Interface simple et cohérente pour différentes méthodes de machine learning.
- Large choix d'algorithmes de classification, régression et clustering.
- Outils intégrés pour le prétraitement des données, la validation des modèles et l'optimisation des hyperparamètres.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


## Prétraitement des données
Scikit-Learn propose plusieurs outils pour normaliser et transformer les données :
- `StandardScaler` : Standardisation des variables.
- `MinMaxScaler` : Mise à l'échelle entre 0 et 1.
- `LabelEncoder` : Transformation des variables catégorielles en valeurs numériques.

In [2]:
from sklearn.preprocessing import StandardScaler
data = np.random.rand(10, 3)  # Génération de données aléatoires
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
print(data_scaled)

[[ 1.102271    1.09975887  0.07947057]
 [-0.24584768 -0.58170292  0.36747138]
 [-0.13898719 -1.27167466  1.11054078]
 [ 1.82136088 -1.20979669 -1.12802909]
 [ 1.36607282  1.23023321 -1.44658005]
 [-0.73977826 -0.07262153  1.19469429]
 [-0.32211636  0.30909789  0.01001657]
 [-0.97825079  0.54451365 -1.0720508 ]
 [-1.22827243  1.29128822  1.51285843]
 [-0.63645198 -1.33909602 -0.62839208]]


## Exemple de Classification avec Scikit-Learn

In [3]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Chargement des données
iris = load_iris()
X, y = iris.data, iris.target

# Séparation en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialisation et entraînement du modèle
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred = model.predict(X_test)
print(f'Accuracy: {accuracy_score(y_test, y_pred):.2f}')

Accuracy: 1.00


## Évaluation des Modèles
L'évaluation des modèles est une étape clé en machine learning. Scikit-Learn propose plusieurs métriques :
- `accuracy_score` : Pour la classification.
- `mean_squared_error` : Pour la régression.
- `confusion_matrix` : Pour analyser les erreurs de classification.

In [4]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print(cm)

[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]


# Conclusion
Scikit-Learn est une bibliothèque incontournable pour le machine learning en Python. Elle permet d'expérimenter rapidement avec différents modèles et techniques, tout en fournissant des outils avancés pour le prétraitement et l'évaluation des modèles.