# Partie 1 : Chargement d'un dataset simple (Iris)

Pour commencer, nous allons utiliser un dataset classique - le dataset Iris. 
Ce dataset contient des mesures de fleurs d'iris et leur espèce correspondante.

Le dataset Iris est idéal pour débuter car :
- Il est petit et facile à comprendre
- Il est propre (pas de valeurs manquantes)
- Il contient à la fois des caractéristiques numériques et une cible catégorielle
"""

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

In [2]:
# Chargement du dataset Iris
iris = load_iris()

# Conversion en DataFrame pandas pour une meilleure visualisation
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df['species'] = iris_df['target'].apply(lambda x: iris.target_names[x])

# Affichage des 5 premières lignes
print("Aperçu du dataset Iris:")
display(iris_df.head())

Aperçu du dataset Iris:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,species
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


"""
# Partie 2 : Visualisation de base avec Pandas/Matplotlib (Hassib ;) )

Maintenant que nous avons chargé nos données, visualisons-les pour mieux comprendre leur distribution.
"""

"""
# Partie 3 : Séparation features/target et split train/test

Avant d'entraîner un modèle, nous devons :
1. Séparer les caractéristiques (X) de la cible (y)
2. Diviser les données en ensembles d'entraînement et de test
"""

In [4]:
from sklearn.model_selection import train_test_split

# Séparation features (X) et target (y)
X = iris_df[iris.feature_names]  # Toutes les colonnes de caractéristiques
y = iris_df['target']            # La colonne cible

# Division en train/test (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, 
                                                    random_state=42,
                                                    stratify=y)

print(f"Taille de l'ensemble d'entraînement: {X_train.shape[0]} échantillons")
print(f"Taille de l'ensemble de test: {X_test.shape[0]} échantillons")

# Vérification de la distribution des classes dans les splits
print("\nDistribution des classes dans y_train:")
print(y_train.value_counts(normalize=True))

print("\nDistribution des classes dans y_test:")
print(y_test.value_counts(normalize=True))

Taille de l'ensemble d'entraînement: 120 échantillons
Taille de l'ensemble de test: 30 échantillons

Distribution des classes dans y_train:
target
0    0.333333
2    0.333333
1    0.333333
Name: proportion, dtype: float64

Distribution des classes dans y_test:
target
0    0.333333
2    0.333333
1    0.333333
Name: proportion, dtype: float64
