# üìä Analyse Interactive du Dataset Iris

## Objectif
Ce notebook effectue une analyse compl√®te du dataset Iris en utilisant pandas, matplotlib et seaborn. Nous allons explorer, nettoyer, analyser et visualiser les donn√©es √©tape par √©tape.

**Dataset** : Iris Dataset (150 observations de 3 esp√®ces d'iris)
**Variables** : 4 mesures florales + 1 classification d'esp√®ce

## Section 1 : Charger et Inspecter le Dataset

Nous allons charger le dataset Iris en utilisant sklearn et pandas, puis afficher les premi√®res lignes.

In [None]:
# Importer les biblioth√®ques n√©cessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from datetime import datetime, timedelta
import warnings

warnings.filterwarnings('ignore')

# Configuration pour les visualisations
sns.set_style("whitegrid")
sns.set_palette("husl")

print("‚úì Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")

In [None]:
# Charger le dataset Iris avec gestion des erreurs
try:
    # Charger les donn√©es
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['species'] = iris.target_names[iris.target]
    
    # Ajouter une colonne de date pour la visualisation temporelle
    dates = pd.date_range(start='2023-01-01', periods=len(df), freq='2D')
    df['date'] = dates
    
    print(f"‚úì Dataset charg√© avec succ√®s!")
    print(f"  ‚Ä¢ Nombre de lignes: {df.shape[0]}")
    print(f"  ‚Ä¢ Nombre de colonnes: {df.shape[1]}")
    
except Exception as e:
    print(f"‚úó Erreur lors du chargement: {e}")

In [None]:
# Afficher les premi√®res lignes du dataset
print("\n" + "="*80)
print("PREMI√àRES LIGNES DU DATASET (.head())")
print("="*80 + "\n")
print(df.head(10))
print(f"\n... Total de {len(df)} lignes disponibles ...")

## Section 2 : Explorer la Structure des Donn√©es

V√©rifions les types, la forme du dataset et recherchons des valeurs manquantes.

In [None]:
# Types de donn√©es et information g√©n√©rale
print("Types de donn√©es (.dtypes):")
print(df.dtypes)

print("\nR√©sum√© du dataset (.info()):")
print(df.info())

# Valeurs manquantes
print("\nValeurs manquantes par colonne:")
print(df.isnull().sum())

# Pourcentage des valeurs manquantes
missing_percent = (df.isnull().sum() / len(df)) * 100
print("\nPourcentage des valeurs manquantes:")
print(missing_percent)

## Section 3 : Nettoyer le Dataset

Strat√©gies :
- Supprimer les doublons
- Remplir les valeurs manquantes (si pr√©sentes) avec la m√©diane pour les colonnes num√©riques
- V√©rifier √† nouveau la qualit√© des donn√©es

In [None]:
# Nettoyage des donn√©es
print("Nombre de doublons avant nettoyage:", df.duplicated().sum())
df_clean = df.drop_duplicates()
print("Nombre de doublons apr√®s nettoyage:", df_clean.duplicated().sum())

# Remplir les valeurs manquantes si n√©cessaire
if df_clean.isnull().sum().sum() > 0:
    numeric_cols = df_clean.select_dtypes(include=[np.number]).columns
    df_clean[numeric_cols] = df_clean[numeric_cols].fillna(df_clean[numeric_cols].median())
    print("Valeurs manquantes remplies avec la m√©diane")
else:
    print("Aucune valeur manquante d√©tect√©e")

# V√©rification finale
print("\nDataset apr√®s nettoyage:")
print(df_clean.shape)
print(df_clean.isnull().sum())

## Section 4 : Calculer les Statistiques Descriptives

Utilisation de `.describe()` pour obtenir les statistiques de base et interpr√©tation rapide.

In [None]:
# Statistiques descriptives
stats = df_clean.describe()
print(stats)

# Calculs additionnels (m√©diane, variance)
print("\nM√©dianes:")
print(df_clean.median(numeric_only=True))

print("\n√âcarts-types:")
print(df_clean.std(numeric_only=True))

## Section 5 : Regroupements et Analyses

Nous allons grouper par `species` et calculer les moyennes des colonnes num√©riques.

In [None]:
# Regroupement par esp√®ce
species_group = df_clean.groupby('species')
print("Moyennes par esp√®ce:")
print(species_group.mean())

# Comptage par esp√®ce
print("\nNombre par esp√®ce:")
print(df_clean['species'].value_counts())

# Statistiques suppl√©mentaires par esp√®ce
print("\nStatistiques (mean, std) par esp√®ce pour les colonnes num√©riques:")
print(species_group.agg(['mean', 'std']))

# Observations rapides
print("\nObservations rapides:")
for s in df_clean['species'].unique():
    mean_petal = df_clean[df_clean['species'] == s]['petal length (cm)'].mean()
    print(f" - {s}: longueur moyenne du p√©tale = {mean_petal:.2f} cm")

## Section 6 : Graphique Lin√©aire (Tendance Temporelle)

Nous tra√ßons la moyenne quotidienne de la longueur des s√©pales pour visualiser une tendance temporelle (les dates sont simul√©es).

In [None]:
# Graphique lin√©aire - moyenne quotidienne de la longueur des s√©pales
plt.figure(figsize=(12, 5))
daily_avg = df_clean.groupby('date')['sepal length (cm)'].mean()
plt.plot(daily_avg.index, daily_avg.values, marker='o', linestyle='-', color='#1f77b4')
plt.fill_between(daily_avg.index, daily_avg.values, alpha=0.2, color='#1f77b4')
plt.title('Tendance temporelle de la longueur des s√©pales')
plt.xlabel('Date')
plt.ylabel('Longueur des s√©pales (cm)')
plt.xticks(rotation=45)
plt.grid(alpha=0.3)
plt.show()

## Section 7 : Graphique en Barres

Comparaison de la longueur moyenne des p√©tales par esp√®ce.

In [None]:
# Graphique en barres - longueur moyenne des p√©tales par esp√®ce
plt.figure(figsize=(8, 5))
species_petal = df_clean.groupby('species')['petal length (cm)'].mean()
sns.barplot(x=species_petal.index, y=species_petal.values, palette='pastel')
plt.title('Longueur moyenne des p√©tales par esp√®ce')
plt.xlabel('Esp√®ce')
plt.ylabel('Longueur des p√©tales (cm)')
for i, v in enumerate(species_petal.values):
    plt.text(i, v + 0.05, f"{v:.2f}", ha='center', fontweight='bold')
plt.show()

## Section 8 : Histogramme

Distribution d'une variable num√©rique (longueur des s√©pales).

In [None]:
# Histogramme - distribution de la longueur des s√©pales
plt.figure(figsize=(8, 5))
plt.hist(df_clean['sepal length (cm)'], bins=20, color='#2ca02c', edgecolor='black', alpha=0.7)
plt.title('Histogramme : Longueur des S√©pales')
plt.xlabel('Longueur des S√©pales (cm)')
plt.ylabel('Fr√©quence')
plt.axvline(df_clean['sepal length (cm)'].mean(), color='red', linestyle='--', label=f"Moyenne: {df_clean['sepal length (cm)'].mean():.2f}")
plt.legend()
plt.show()

## Section 9 : Nuage de Points (Scatter Plot)

Visualiser la relation entre la longueur des s√©pales et la longueur des p√©tales.

In [None]:
# Scatter plot - sepal length vs petal length colored by species
plt.figure(figsize=(8, 6))
palette = {'setosa': '#1f77b4', 'versicolor': '#ff7f0e', 'virginica': '#2ca02c'}
for s in df_clean['species'].unique():
    subset = df_clean[df_clean['species'] == s]
    plt.scatter(subset['sepal length (cm)'], subset['petal length (cm)'], label=s, 
                s=80, alpha=0.7, edgecolor='black')

# Ligne de tendance g√©n√©rale
z = np.polyfit(df_clean['sepal length (cm)'], df_clean['petal length (cm)'], 1)
p = np.poly1d(z)
x_vals = np.linspace(df_clean['sepal length (cm)'].min(), df_clean['sepal length (cm)'].max(), 100)
plt.plot(x_vals, p(x_vals), "k--", linewidth=1.8, label='Tendance')

plt.title('Relation: Longueur S√©pale vs Longueur P√©tale')
plt.xlabel('Longueur S√©pale (cm)')
plt.ylabel('Longueur P√©tale (cm)')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

## Fin et Conclusion

R√©sum√© des √©tapes r√©alis√©es et suggestions pour aller plus loin (mod√©lisation, PCA, clustering).