# Analyse du Dataset Iris

Ce notebook charge le dataset Iris et utilise diverses fonctions pour comprendre sa structure.

## Objectifs :
- Charger le dataset Iris depuis UCI ML Repository
- Afficher les premières lignes
- Compter le nombre d'observations et de caractéristiques
- Identifier les types de données de chaque caractéristique
- Analyser la structure du dataset

## 1. Import des librairies nécessaires

In [None]:
import pandas as pd
import numpy as np
from ucimlrepo import fetch_ucirepo
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration pour un meilleur affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
plt.style.use('default')
sns.set_palette("husl")

## 2. Chargement du dataset Iris

In [None]:
# Fetch dataset from UCI ML Repository
iris = fetch_ucirepo(id=53)

# Data (as pandas dataframes)
X = iris.data.features
y = iris.data.targets

print("Dataset Iris chargé avec succès!")
print(f"Shape des features (X): {X.shape}")
print(f"Shape des targets (y): {y.shape}")

## 3. Exploration de la structure du dataset

In [None]:
# Combiner X et y pour avoir le dataset complet
dataset = pd.concat([X, y], axis=1)

print("=" * 50)
print("INFORMATIONS GÉNÉRALES SUR LE DATASET")
print("=" * 50)
print(f"Nombre total d'observations: {len(dataset)}")
print(f"Nombre de caractéristiques (features): {X.shape[1]}")
print(f"Nombre de variables cibles: {y.shape[1]}")
print(f"Dimensions complètes du dataset: {dataset.shape}")

print("\nNoms des colonnes:")
print(f"Features: {list(X.columns)}")
print(f"Target: {list(y.columns)}")

## 4. Affichage des premières lignes

In [None]:
print("Premières 10 lignes du dataset:")
print("=" * 50)
dataset.head(10)

## 5. Types de données de chaque caractéristique

In [None]:
print("Types de données par colonne:")
print("=" * 30)
for column in dataset.columns:
    dtype = dataset[column].dtype
    print(f"{column:20}: {dtype}")

print("\nRésumé des types:")
print(dataset.dtypes.value_counts())

## 6. Informations détaillées sur le dataset

In [None]:
# Informations générales
print("Informations détaillées sur le dataset:")
print("=" * 40)
dataset.info()

## 7. Statistiques descriptives

In [None]:
print("Statistiques descriptives des caractéristiques numériques:")
X.describe()

## 8. Vérification des valeurs manquantes

In [None]:
print("Vérification des valeurs manquantes:")
print("=" * 35)
missing_values = dataset.isnull().sum()

if missing_values.sum() == 0:
    print("✅ Aucune valeur manquante détectée!")
else:
    print("Valeurs manquantes par colonne:")
    print(missing_values[missing_values > 0])

print(f"\nTotal des valeurs manquantes: {missing_values.sum()}")

## 9. Distribution des classes cibles

In [None]:
print("Distribution des classes cibles:")
print("=" * 32)

for column in y.columns:
    print(f"\nDistribution de {column}:")
    print(y[column].value_counts().sort_index())
    
    print(f"\nPourcentages pour {column}:")
    percentages = y[column].value_counts(normalize=True).sort_index() * 100
    for idx, pct in percentages.items():
        print(f"  {idx}: {pct:.1f}%")

## 10. Métadonnées et informations sur les variables

In [None]:
print("Métadonnées du dataset:")
print("=" * 25)
print(iris.metadata)

In [None]:
print("Informations sur les variables:")
print("=" * 32)
print(iris.variables)

## 11. Visualisations de base

In [None]:
# Configuration de la figure
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Analyse visuelle du dataset Iris', fontsize=16)

# 1. Histogrammes des caractéristiques
X.hist(ax=axes[0, 0], bins=20, alpha=0.7)
axes[0, 0].set_title('Distribution des caractéristiques')

# 2. Boxplot des caractéristiques par classe
melted_data = pd.melt(dataset, id_vars=[dataset.columns[-1]], 
                     value_vars=dataset.columns[:-1])
sns.boxplot(data=melted_data, x='variable', y='value', 
            hue=dataset.columns[-1], ax=axes[0, 1])
axes[0, 1].set_title('Boxplot par classe')
axes[0, 1].tick_params(axis='x', rotation=45)

# 3. Matrice de corrélation
corr_matrix = X.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', ax=axes[1, 0])
axes[1, 0].set_title('Matrice de corrélation')

# 4. Scatter plot des deux premières caractéristiques
scatter = axes[1, 1].scatter(X.iloc[:, 0], X.iloc[:, 1], 
                            c=pd.Categorical(y.iloc[:, 0]).codes, 
                            cmap='viridis', alpha=0.7)
axes[1, 1].set_xlabel(X.columns[0])
axes[1, 1].set_ylabel(X.columns[1])
axes[1, 1].set_title('Scatter plot des 2 premières caractéristiques')
plt.colorbar(scatter, ax=axes[1, 1])

plt.tight_layout()
plt.show()

## 12. Résumé de l'analyse

In [None]:
print("=" * 60)
print("RÉSUMÉ DE L'ANALYSE DU DATASET IRIS")
print("=" * 60)
print(f"📊 Dataset: {len(dataset)} observations, {X.shape[1]} caractéristiques")
print(f"🎯 Classes: {y.iloc[:, 0].nunique()} classes différentes")
print(f"📈 Types de données: {len(dataset.dtypes.unique())} types différents")
print(f"❌ Valeurs manquantes: {dataset.isnull().sum().sum()}")
print(f"🔢 Caractéristiques numériques: {X.select_dtypes(include=[np.number]).shape[1]}")

print("\n✅ L'analyse de la structure du dataset Iris est terminée!")
print("\n🔍 Points clés identifiés:")
print("   - Dataset équilibré avec 50 observations par classe")
print("   - 4 caractéristiques numériques continues")
print("   - Aucune valeur manquante")
print("   - Dataset de qualité prêt pour l'analyse et la modélisation")