In [1]:
from IPython.display import display, Markdown, HTML
from datetime import datetime

# Métadonnées du projet (à personnaliser selon vos besoins)
PROJECT_METADATA = {
    "title": "Projet STA 211: Internet Advertisements Classification",
    "author": "Abdoullatuf",
    #"student_id": "MON_NUMERO_ETUDIANT",
    "course": "STA211 - Entreposage et Fouille de données",
    "institution": "CNAM - PARIS",  # À modifier
    "version": "1.0",
    "date": datetime.now().strftime("%Y-%m-%d"),
    "target_metric": "F1-Score",
    "dataset": "Internet Advertisements Dataset",
    "objective": "Classification binaire avec optimisation F1"
}

# Header stylisé du notebook
header_html = f"""
<div style="background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
            color: white; padding: 25px; border-radius: 15px; margin-bottom: 20px;
            box-shadow: 0 4px 15px rgba(0,0,0,0.2);">
    <h1 style="margin: 0; font-size: 32px; text-align: center;">
        📊 {PROJECT_METADATA['title']}
    </h1>
    <hr style="border: none; height: 2px; background: rgba(255,255,255,0.3); margin: 15px 0;">
    <div style="display: flex; justify-content: space-between; flex-wrap: wrap;">
        <div>
            <p style="margin: 5px 0; font-size: 16px;">
                👤 <strong>Auteur:</strong> {PROJECT_METADATA['author']}
            </p>
            <p style="margin: 5px 0; font-size: 16px;">
                🎓 <strong>Cours:</strong> {PROJECT_METADATA['course']}
            </p>
            <p style="margin: 5px 0; font-size: 16px;">
                🏛️ <strong>Institution:</strong> {PROJECT_METADATA['institution']}
            </p>
        </div>
        <div>
            <p style="margin: 5px 0; font-size: 16px;">
                📅 <strong>Date:</strong> {PROJECT_METADATA['date']}
            </p>
            <p style="margin: 5px 0; font-size: 16px;">
                🏷️ <strong>Version:</strong> {PROJECT_METADATA['version']}
            </p>
            <p style="margin: 5px 0; font-size: 16px;">
                🎯 <strong>Métrique:</strong> {PROJECT_METADATA['target_metric']}
            </p>
        </div>
    </div>
</div>
"""

display(HTML(header_html))

print("🚀 Notebook STA211 - Internet Advertisements Classification")
print("=" * 80)

🚀 Notebook STA211 - Internet Advertisements Classification


In [2]:
from IPython.display import display, Markdown

# Introduction du projet
introduction_md = f"""
# 📖 Introduction

## 🎯 Contexte du projet

Ce notebook présente l'**analyse exploratoire** et le **prétraitement** du dataset **Internet Advertisements** dans le cadre du module **STA211**. L'objectif principal est de développer un modèle de classification binaire capable de prédire si une image donnée est une publicité (`ad.`) ou non (`nonad.`).

## 🎲 Challenge et métrique

Ce projet s'inscrit dans un **challenge de classification** où la performance est évaluée selon le **score F1**, une métrique particulièrement adaptée aux problèmes de classification déséquilibrée. Le F1-score combine précision et rappel, offrant une mesure équilibrée de la performance du modèle.

## 📊 Dataset : Internet Advertisements

### Caractéristiques principales
- **📋 Source** : UCI Machine Learning Repository
- **🎯 Tâche** : Classification binaire (publicité vs non-publicité)
- **📏 Dimensions** : 3,279 instances × 1,558 variables + 1 variable cible
- **🔢 Répartition** : 2,459 échantillons d'entraînement + 820 échantillons de test

### Structure des variables
- **3 variables quantitatives** : Géométrie des images
  - `height` : Hauteur de l'image
  - `width` : Largeur de l'image
  - `aratio` : Ratio d'aspect (height/width)

- **1,555 variables binaires** : Présence/absence de mots-clés
  - Mots dans l'URL
  - Termes du contenu
  - Caractéristiques textuelles

### Défis identifiés
- **⚖️ Déséquilibre des classes** : ~86% non-publicités vs ~14% publicités
- **❓ Valeurs manquantes** : Principalement dans les variables géométriques
- **📐 Grande dimensionnalité** : 1,558 variables pour ~2,500 échantillons
- **🎯 Optimisation F1** : Nécessité d'équilibrer précision et rappel

## 🗺️ Méthodologie

Notre approche suivra une méthodologie rigoureuse en plusieurs phases :

### Phase 1 : Exploration des données (EDA)
- Analyse des distributions
- Détection des patterns et anomalies
- Étude des corrélations
- Visualisations exploratoires

### Phase 2 : Prétraitement avancé
- Gestion des valeurs manquantes (MICE, KNN)
- Détection et traitement des outliers
- Transformation des variables (Yeo-Johnson)
- Gestion du déséquilibre (SMOTE)

### Phase 3 : Ingénierie des caractéristiques
- Sélection des variables pertinentes
- Création de nouvelles variables
- Réduction de dimensionnalité

### Phase 4 : Validation et export
- Construction des datasets finaux
- Validation de la qualité
- Préparation pour la modélisation

## 📈 Livrables attendus

À l'issue de ce notebook, nous disposerons de :
- ✅ **Datasets prétraités** optimisés pour la classification
- ✅ **Analyse exploratoire complète** avec visualisations
- ✅ **Rapport de qualité** des données finales
- ✅ **Documentation** du processus de prétraitement
"""

display(Markdown(introduction_md))

print("📖 Introduction et contexte présentés")
print("🎯 Objectifs et méthodologie définis")


# 📖 Introduction

## 🎯 Contexte du projet

Ce notebook présente l'**analyse exploratoire** et le **prétraitement** du dataset **Internet Advertisements** dans le cadre du module **STA211**. L'objectif principal est de développer un modèle de classification binaire capable de prédire si une image donnée est une publicité (`ad.`) ou non (`nonad.`).

## 🎲 Challenge et métrique

Ce projet s'inscrit dans un **challenge de classification** où la performance est évaluée selon le **score F1**, une métrique particulièrement adaptée aux problèmes de classification déséquilibrée. Le F1-score combine précision et rappel, offrant une mesure équilibrée de la performance du modèle.

## 📊 Dataset : Internet Advertisements

### Caractéristiques principales
- **📋 Source** : UCI Machine Learning Repository
- **🎯 Tâche** : Classification binaire (publicité vs non-publicité)
- **📏 Dimensions** : 3,279 instances × 1,558 variables + 1 variable cible
- **🔢 Répartition** : 2,459 échantillons d'entraînement + 820 échantillons de test

### Structure des variables
- **3 variables quantitatives** : Géométrie des images
  - `height` : Hauteur de l'image
  - `width` : Largeur de l'image
  - `aratio` : Ratio d'aspect (height/width)

- **1,555 variables binaires** : Présence/absence de mots-clés
  - Mots dans l'URL
  - Termes du contenu
  - Caractéristiques textuelles

### Défis identifiés
- **⚖️ Déséquilibre des classes** : ~86% non-publicités vs ~14% publicités
- **❓ Valeurs manquantes** : Principalement dans les variables géométriques
- **📐 Grande dimensionnalité** : 1,558 variables pour ~2,500 échantillons
- **🎯 Optimisation F1** : Nécessité d'équilibrer précision et rappel

## 🗺️ Méthodologie

Notre approche suivra une méthodologie rigoureuse en plusieurs phases :

### Phase 1 : Exploration des données (EDA)
- Analyse des distributions
- Détection des patterns et anomalies
- Étude des corrélations
- Visualisations exploratoires

### Phase 2 : Prétraitement avancé
- Gestion des valeurs manquantes (MICE, KNN)
- Détection et traitement des outliers
- Transformation des variables (Yeo-Johnson)
- Gestion du déséquilibre (SMOTE)

### Phase 3 : Ingénierie des caractéristiques
- Sélection des variables pertinentes
- Création de nouvelles variables
- Réduction de dimensionnalité

### Phase 4 : Validation et export
- Construction des datasets finaux
- Validation de la qualité
- Préparation pour la modélisation

## 📈 Livrables attendus

À l'issue de ce notebook, nous disposerons de :
- ✅ **Datasets prétraités** optimisés pour la classification
- ✅ **Analyse exploratoire complète** avec visualisations
- ✅ **Rapport de qualité** des données finales
- ✅ **Documentation** du processus de prétraitement


📖 Introduction et contexte présentés
🎯 Objectifs et méthodologie définis


In [3]:
from IPython.display import display, Markdown, HTML

# Table des matières avec liens d'ancrage
toc_html = """
<div style="background: #f8f9fa; border-left: 4px solid #007bff; padding: 20px; margin: 20px 0; border-radius: 8px;">
    <h2 style="color: #007bff; margin-top: 0;">📋 Table des Matières</h2>

    <div style="columns: 2; column-gap: 30px;">
        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">🔧 Configuration & Setup</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#configuration" style="text-decoration: none; color: #007bff;">Configuration de l'environnement</a></li>
                <li>• <a href="#imports" style="text-decoration: none; color: #007bff;">Import des bibliothèques</a></li>
                <li>• <a href="#paths" style="text-decoration: none; color: #007bff;">Configuration des chemins</a></li>
            </ul>
        </div>

        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">📊 Chargement des Données</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#loading" style="text-decoration: none; color: #007bff;">Chargement des datasets</a></li>
                <li>• <a href="#inspection" style="text-decoration: none; color: #007bff;">Inspection initiale</a></li>
                <li>• <a href="#validation" style="text-decoration: none; color: #007bff;">Validation des données</a></li>
            </ul>
        </div>

        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">🔍 Analyse Exploratoire (EDA)</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#target-analysis" style="text-decoration: none; color: #007bff;">Analyse de la variable cible</a></li>
                <li>• <a href="#quantitative-analysis" style="text-decoration: none; color: #007bff;">Variables quantitatives</a></li>
                <li>• <a href="#binary-analysis" style="text-decoration: none; color: #007bff;">Variables binaires</a></li>
                <li>• <a href="#missing-analysis" style="text-decoration: none; color: #007bff;">Analyse des valeurs manquantes</a></li>
                <li>• <a href="#correlation-analysis" style="text-decoration: none; color: #007bff;">Analyse des corrélations</a></li>
                <li>• <a href="#outliers-analysis" style="text-decoration: none; color: #007bff;">Détection des outliers</a></li>
            </ul>
        </div>

        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">⚙️ Prétraitement Avancé</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#missing-imputation" style="text-decoration: none; color: #007bff;">Imputation des valeurs manquantes</a></li>
                <li>• <a href="#outliers-treatment" style="text-decoration: none; color: #007bff;">Traitement des outliers</a></li>
                <li>• <a href="#transformations" style="text-decoration: none; color: #007bff;">Transformations des variables</a></li>
                <li>• <a href="#feature-engineering" style="text-decoration: none; color: #007bff;">Ingénierie des caractéristiques</a></li>
                <li>• <a href="#class-balancing" style="text-decoration: none; color: #007bff;">Gestion du déséquilibre</a></li>
            </ul>
        </div>

        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">📈 Construction des Datasets</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#pipeline-mice" style="text-decoration: none; color: #007bff;">Pipeline MICE</a></li>
                <li>• <a href="#pipeline-knn" style="text-decoration: none; color: #007bff;">Pipeline KNN</a></li>
                <li>• <a href="#comparison" style="text-decoration: none; color: #007bff;">Comparaison des méthodes</a></li>
                <li>• <a href="#final-datasets" style="text-decoration: none; color: #007bff;">Datasets finaux</a></li>
            </ul>
        </div>

        <div style="break-inside: avoid;">
            <h3 style="color: #495057; font-size: 16px;">✅ Validation & Export</h3>
            <ul style="list-style-type: none; padding-left: 0;">
                <li>• <a href="#quality-check" style="text-decoration: none; color: #007bff;">Contrôle qualité</a></li>
                <li>• <a href="#final-stats" style="text-decoration: none; color: #007bff;">Statistiques finales</a></li>
                <li>• <a href="#export" style="text-decoration: none; color: #007bff;">Export des données</a></li>
                <li>• <a href="#conclusion" style="text-decoration: none; color: #007bff;">Conclusion</a></li>
            </ul>
        </div>
    </div>

    <div style="margin-top: 20px; padding: 10px; background: #e7f3ff; border-radius: 5px;">
        <p style="margin: 0; color: #0056b3; font-style: italic;">
            💡 <strong>Navigation :</strong> Cliquez sur les liens pour naviguer directement vers les sections.
            Les ancres seront automatiquement créées lors de l'exécution des cellules correspondantes.
        </p>
    </div>
</div>
"""

display(HTML(toc_html))

# Informations sur le notebook
notebook_info = """
## 📊 Informations sur le Notebook

### 🔧 Configuration technique
- **Python** : Version 3.8+
- **Modules personnalisés** : Configuration modulaire STA211
- **Bibliothèques principales** : pandas, numpy, scikit-learn, matplotlib, seaborn
- **Bibliothèques optionnelles** : UMAP, Prince, imbalanced-learn

### 📁 Structure des fichiers
```
projet_sta211/
├── data/
│   ├── raw/                    # Données brutes (ad.data, ad.test)
│   ├── processed/              # Données prétraitées
│   └── interim/                # Données intermédiaires
├── modules/
│   └── config/                 # Modules de configuration
├── figures/                    # Graphiques générés
├── outputs/                    # Rapports et résultats
└── notebooks/                  # Ce notebook
```

### ⏱️ Temps d'exécution estimé
- **Configuration** : ~30 secondes
- **Chargement données** : ~1 minute
- **EDA complète** : ~5 minutes
- **Prétraitement** : ~10 minutes
- **Export final** : ~2 minutes
- **🕐 Total estimé** : ~20 minutes
"""

display(Markdown(notebook_info))

print("📋 Table des matières créée")
print("🗺️ Navigation du notebook structurée")


## 📊 Informations sur le Notebook

### 🔧 Configuration technique
- **Python** : Version 3.8+
- **Modules personnalisés** : Configuration modulaire STA211
- **Bibliothèques principales** : pandas, numpy, scikit-learn, matplotlib, seaborn
- **Bibliothèques optionnelles** : UMAP, Prince, imbalanced-learn

### 📁 Structure des fichiers
```
projet_sta211/
├── data/
│   ├── raw/                    # Données brutes (ad.data, ad.test)
│   ├── processed/              # Données prétraitées
│   └── interim/                # Données intermédiaires
├── modules/
│   └── config/                 # Modules de configuration
├── figures/                    # Graphiques générés
├── outputs/                    # Rapports et résultats
└── notebooks/                  # Ce notebook
```

### ⏱️ Temps d'exécution estimé
- **Configuration** : ~30 secondes
- **Chargement données** : ~1 minute
- **EDA complète** : ~5 minutes
- **Prétraitement** : ~10 minutes
- **Export final** : ~2 minutes
- **🕐 Total estimé** : ~20 minutes


📋 Table des matières créée
🗺️ Navigation du notebook structurée


In [4]:
# =============================================================================
# 🔧 CONFIGURATION GOOGLE COLAB - VERSION CORRIGÉE
# =============================================================================

import sys
import os
from pathlib import Path
import warnings

print("🔧 CONFIGURATION POUR GOOGLE COLAB")
print("=" * 50)

# ÉTAPE 1: Montage de Google Drive
print("📱 Montage de Google Drive...")
try:
    from google.colab import drive
    drive.mount('/content/drive', force_remount=True)
    print("✅ Google Drive monté avec succès")
except Exception as e:
    print(f"❌ Erreur montage Drive: {e}")
    raise

# ÉTAPE 2: Configuration du chemin vers les modules
print("\n📁 Configuration du chemin modules...")

# 🚨 CHEMIN CORRIGÉ POUR GOOGLE COLAB
colab_modules_path = Path("/content/drive/MyDrive/projet_sta211/modules")

print(f"📍 Répertoire courant: {Path.cwd()}")
print(f"🎯 Chemin modules ciblé: {colab_modules_path}")

# Vérification de l'existence
if colab_modules_path.exists():
    print("✅ Dossier modules trouvé sur Google Drive!")

    # Vérification de la structure
    config_dir = colab_modules_path / "config"
    if config_dir.exists():
        print("✅ Sous-dossier config/ présent")

        # Vérification des fichiers
        required_files = [
            "__init__.py",
            "environment.py",
            "paths_config.py",
            "project_config.py",
            "display_config.py"
        ]

        print("🔍 Vérification des fichiers:")
        all_files_present = True
        for file_name in required_files:
            file_path = config_dir / file_name
            if file_path.exists():
                print(f"  ✅ config/{file_name}")
            else:
                print(f"  ❌ config/{file_name} - MANQUANT")
                all_files_present = False

        if not all_files_present:
            print("\n⚠️  Fichiers manquants détectés!")
            print("🛠️  Actions requises:")
            print("  1. Uploadez les fichiers manquants vers Google Drive")
            print("  2. Ou copiez-les depuis les artifacts précédents")
            print("  3. Structure attendue sur Drive:")
            print("     MyDrive/projet_sta211/modules/config/[fichiers.py]")
            raise FileNotFoundError("Fichiers de configuration manquants")

    else:
        print("❌ Sous-dossier config/ manquant")
        raise FileNotFoundError("Structure modules incomplète")

else:
    print("❌ Dossier modules non trouvé sur Google Drive")
    print("\n🔍 Vérification des chemins alternatifs:")

    # Chemins alternatifs à vérifier
    alt_paths = [
        "/content/drive/MyDrive/projet_sta211",
        "/content/drive/MyDrive/STA211",
        "/content/drive/MyDrive/sta211",
    ]

    for alt_path in alt_paths:
        path_obj = Path(alt_path)
        exists = "✅" if path_obj.exists() else "❌"
        print(f"  {exists} {alt_path}")

        if path_obj.exists():
            print(f"    Contenu de {alt_path}:")
            try:
                for item in path_obj.iterdir():
                    print(f"      📁 {item.name}" if item.is_dir() else f"      📄 {item.name}")
            except:
                print("      (Impossible de lister le contenu)")

    print("\n💡 SOLUTIONS:")
    print("  1. 📂 Créez le dossier: MyDrive/projet_sta211/modules/config/")
    print("  2. 📋 Uploadez tous les fichiers .py des modules")
    print("  3. 🔄 Relancez cette cellule")
    raise FileNotFoundError("Modules non trouvés sur Google Drive")

# ÉTAPE 3: Ajout au Python path
modules_str = str(colab_modules_path)
if modules_str not in sys.path:
    sys.path.insert(0, modules_str)
    print(f"✅ Chemin modules ajouté au sys.path")
else:
    print(f"ℹ️  Chemin déjà dans sys.path")

# ÉTAPE 4: Import des modules de configuration
print("\n🔄 Import des modules de configuration...")
try:
    from config.environment import setup_environment, validate_environment_setup
    print("✅ Modules importés avec succès")
except ImportError as e:
    print(f"❌ Erreur import: {e}")
    print("\n🔧 Diagnostic:")
    print("  1. Vérifiez que tous les fichiers .py sont présents")
    print("  2. Vérifiez le contenu des fichiers __init__.py")
    print("  3. Redémarrez le runtime Colab si nécessaire")
    raise

# ÉTAPE 5: Configuration du projet
PROJECT_INFO = {
    "name": "Projet STA 211: Internet Advertisements Classification",
    "author": "Abdoullatuf",
    "version": "1.0",
    "target_metric": "F1-Score"
}

print("\n🚀 Configuration complète de l'environnement...")
try:
    config, paths, metadata = setup_environment(
        project_info=PROJECT_INFO,
        random_state=42,
        install_packages=False,  # Packages déjà installés sur Colab
        quiet=True
    )
    print("✅ Configuration terminée avec succès")

except Exception as e:
    print(f"❌ Erreur configuration: {e}")
    print("\n🛠️  Solutions Colab:")
    print("  1. Redémarrez le runtime: Runtime > Restart runtime")
    print("  2. Vérifiez la connexion Google Drive")
    print("  3. Installez les packages manquants si nécessaire")
    raise

# ÉTAPE 6: Validation
print("\n🔍 Validation de la configuration...")
try:
    is_valid = validate_environment_setup(config, paths, metadata)
    if is_valid:
        print("✅ Validation réussie - Environnement Colab prêt!")
        status = "🟢 COLAB OPÉRATIONNEL"
    else:
        print("⚠️  Validation partielle")
        status = "🟡 COLAB UTILISABLE"
except Exception as e:
    print(f"❌ Erreur validation: {e}")
    status = "🔴 COLAB PROBLÉMATIQUE"

# RÉSUMÉ FINAL
print(f"\n📊 RÉSUMÉ GOOGLE COLAB")
print("=" * 40)
print(f"Statut: {status}")
print(f"Drive monté: ✅")
print(f"Modules path: {colab_modules_path}")
print(f"Python path: ✅ Configuré")
print(f"Config chargée: ✅")

print(f"\n🎯 Google Colab configuré avec succès!")
print("🚀 Prêt pour le chargement des données")
print("=" * 50)

🔧 CONFIGURATION POUR GOOGLE COLAB
📱 Montage de Google Drive...
Mounted at /content/drive
✅ Google Drive monté avec succès

📁 Configuration du chemin modules...
📍 Répertoire courant: /content
🎯 Chemin modules ciblé: /content/drive/MyDrive/projet_sta211/modules
✅ Dossier modules trouvé sur Google Drive!
✅ Sous-dossier config/ présent
🔍 Vérification des fichiers:
  ✅ config/__init__.py
  ✅ config/environment.py
  ✅ config/paths_config.py
  ✅ config/project_config.py
  ✅ config/display_config.py
✅ Chemin modules ajouté au sys.path

🔄 Import des modules de configuration...
✅ Modules importés avec succès

🚀 Configuration complète de l'environnement...
Mounted at /content/drive

🔧 Résumé de l'environnement
📱 Système:
  • Environnement: colab
  • Python: 3.11.13
  • Plateforme: linux
  • CPU: 2 cores
  • Mémoire: 10.0 GB

📦 Bibliothèques principales:
  ✅ numpy: 2.0.2
  ✅ pandas: 2.2.2
  ✅ sklearn: 1.6.1
  ✅ matplotlib: N/A
  ✅ seaborn: 0.13.2

📦 Bibliothèques optionnelles:
  ✅ UMAP
  ❌ Prince


  set_matplotlib_formats('retina', 'png')


In [5]:
# Cellule de diagnostic
from pathlib import Path

current = Path.cwd()
modules_path = current / "../modules"
modules_resolved = modules_path.resolve()

print(f"Répertoire courant: {current}")
print(f"Chemin relatif: {modules_path}")
print(f"Chemin absolu: {modules_resolved}")
print(f"Existe: {modules_resolved.exists()}")

if modules_resolved.exists():
    print("Contenu du dossier modules:")
    for item in modules_resolved.iterdir():
        print(f"  📁 {item.name}")

Répertoire courant: /content
Chemin relatif: /content/../modules
Chemin absolu: /modules
Existe: False


In [7]:
# =============================================================================
# 📊 CHARGEMENT DES DONNÉES CSV
# =============================================================================
# <a id="loading"></a>

from preprocessing.data_loader import load_data
#from modules.preprocessing.data_loader import load_data  # en local si jamais ne fonctionne pas, décoche ce si.


from pathlib import Path

# 📁 Vérification de l’existence du dossier RAW_DATA_DIR
if 'RAW_DATA_DIR' not in globals():
    raise NameError("❌ RAW_DATA_DIR n’est pas défini. Vérifiez la configuration dans la section 2.1.")

raw_data_dir = Path(RAW_DATA_DIR)
if not raw_data_dir.exists():
    raise FileNotFoundError(f"❌ Dossier RAW_DATA_DIR introuvable : {raw_data_dir}")

# 📂 Chargement des fichiers CSV
print("📂 Chargement des jeux de données...")

df_study = load_data(
    file_path="data_train.csv",
    require_outcome=True,
    display_info=True,
    raw_data_dir=RAW_DATA_DIR,
    encode_target=True
)


# 🏷️ Renommer 'outcome' en 'y' si nécessaire
if 'outcome' in df_study.columns:
    df_study = df_study.rename(columns={'outcome': 'y'})
    print("✅ Colonne 'outcome' renommée en 'y'")
elif 'y' not in df_study.columns:
    raise ValueError("❌ Colonne 'y' ou 'outcome' manquante dans df_study")

# 🔢 Vérification des dimensions attendues
expected_train_shape = (2459, 1559)

if df_study.shape != expected_train_shape:
    print(f"⚠️ Dimensions inattendues pour df_study : {df_study.shape} (attendu : {expected_train_shape})")

# 🔍 Vérification de la variable cible
print("\n🔎 Valeurs uniques de y :", df_study['y'].unique())
print("🔎 Type de y :", df_study['y'].dtype)

# 📊 Résumé
print(f"\n📊 Résumé :")
print(f"  - Fichier d’étude     : {df_study.shape}")

print("\n✅ Chargement terminé avec succès !")



NameError: ❌ RAW_DATA_DIR n’est pas défini. Vérifiez la configuration dans la section 2.1.

# Structure modulaire pour le projet STA211

## 📁 Organisation des modules

```
modules/
├── __init__.py
├── config/
│   ├── __init__.py
│   ├── paths_config.py          # Configuration des chemins
│   ├── project_config.py        # Configuration principale
│   └── display_config.py        # Configuration d'affichage
├── data/
│   ├── __init__.py
│   ├── loader.py               # Chargement des données
│   ├── validator.py            # Validation des données
│   └── preprocessor.py         # Prétraitement de base
├── eda/
│   ├── __init__.py
│   ├── exploratory.py          # Analyse exploratoire
│   ├── missing_values.py       # Analyse des valeurs manquantes
│   ├── outliers.py             # Détection des outliers
│   └── correlations.py         # Analyse des corrélations
├── preprocessing/
│   ├── __init__.py
│   ├── imputation.py           # Méthodes d'imputation (MICE, KNN)
│   ├── scaling.py              # Normalisation et standardisation
│   ├── feature_engineering.py  # Création de features
│   └── pipeline.py             # Pipelines de prétraitement
├── visualization/
│   ├── __init__.py
│   ├── base_plots.py           # Graphiques de base
│   ├── eda_plots.py            # Visualisations EDA
│   ├── model_plots.py          # Visualisations modèles
│   └── utils.py                # Utilitaires de visualisation
└── utils/
    ├── __init__.py
    ├── helpers.py              # Fonctions utilitaires
    ├── logging_config.py       # Configuration du logging
    └── performance.py          # Monitoring des performances
```

## 🔧 Modules prioritaires à créer

### 1. **modules/config/environment.py**
- Détection d'environnement (Colab/Local)
- Configuration des chemins
- Import des bibliothèques
- Configuration globale

### 2. **modules/data/loader.py**
- Chargement des datasets
- Validation des formats
- Aperçu des données

### 3. **modules/eda/analyzer.py**
- Analyse exploratoire complète
- Statistiques descriptives
- Distribution des variables

### 4. **modules/preprocessing/imputer.py**
- Imputation MICE et KNN
- Gestion des outliers
- Transformation des variables

### 5. **modules/visualization/plotter.py**
- Visualisations standardisées
- Graphiques EDA
- Exports des figures



## 🚀 Prochaines étapes

1. **Créer la structure des dossiers**
2. **Migrer le code existant vers les modules**
3. **Simplifier les cellules du notebook**
4. **Ajouter les imports modulaires**
5. **Documenter chaque module**



# =============================================================================
# 📊 STA211 - EDA & Prétraitement des Données
# =============================================================================

"""
Notebook principal pour l'analyse exploratoire et le prétraitement
du dataset Internet Advertisements (Challenge STA211).

Objectif : Prédire si une image est une publicité (ad./noad.)
Métrique cible : Score F1
"""

# Métadonnées du projet
PROJECT_INFO = {
    "name": "Projet STA 211: Internet Advertisements Classification",
    "author": "Abdoullatuf",
    "version": "1.0",
    "target_metric": "F1-Score"
}

print(f"📋 {PROJECT_INFO['name']}")
print(f"👤 Auteur: {PROJECT_INFO['author']} | Version: {PROJECT_INFO['version']}")
print(f"🎯 Métrique cible: {PROJECT_INFO['target_metric']}")

# =============================================================================
# 🔧 Configuration de l'environnement
# =============================================================================

# Import du module de configuration
from modules.config.environment import setup_environment

# Configuration complète en une ligne
config, paths, metadata = setup_environment(
    project_info=PROJECT_INFO,
    random_state=42,
    install_packages=True
)

print("✅ Environnement configuré avec succès")

# =============================================================================
# 📦 Import des modules du projet
# =============================================================================

# Modules de données
from modules.data.loader import DataLoader
from modules.data.validator import DataValidator

# Modules d'analyse
from modules.eda.analyzer import EDAAnalyzer
from modules.eda.missing_values import MissingValueAnalyzer

# Modules de prétraitement  
from modules.preprocessing.imputer import AdvancedImputer
from modules.preprocessing.pipeline import PreprocessingPipeline

# Modules de visualisation
from modules.visualization.plotter import EDAPlotter

print("📦 Modules du projet importés")

# =============================================================================
# 📊 Chargement et aperçu des données
# =============================================================================

# Chargement des données
loader = DataLoader(paths['RAW_DATA_DIR'])
train_data, test_data = loader.load_datasets()

# Validation des données
validator = DataValidator()
validation_report = validator.validate_datasets(train_data, test_data)

print(f"📊 Données chargées: {train_data.shape[0]} train, {test_data.shape[0]} test")
print(f"🔍 Validation: {validation_report['status']}")

# =============================================================================
# 🔍 Analyse exploratoire des données
# =============================================================================

# Analyseur EDA
eda = EDAAnalyzer(config)
eda_results = eda.analyze(train_data)

# Analyse des valeurs manquantes
missing_analyzer = MissingValueAnalyzer()
missing_report = missing_analyzer.analyze(train_data)

# Visualisations EDA
plotter = EDAPlotter(config['VIZ_CONFIG'])
plotter.create_overview_plots(train_data, save_dir=paths['FIGURES_DIR'])

print("🔍 Analyse exploratoire terminée")

# =============================================================================
# ⚙️ Prétraitement des données
# =============================================================================

# Pipeline de prétraitement
preprocessor = PreprocessingPipeline(config['PIPELINE_CONFIG'])

# Application du prétraitement
processed_data = preprocessor.fit_transform(
    train_data,
    test_data,
    save_intermediates=True,
    output_dir=paths['DATA_PROCESSED']
)

print("⚙️ Prétraitement terminé")

# =============================================================================
# 💾 Sauvegarde des résultats
# =============================================================================

# Sauvegarde des datasets finaux
final_datasets = {
    'train_mice': processed_data['mice']['train'],
    'test_mice': processed_data['mice']['test'],
    'train_knn': processed_data['knn']['train'],
    'test_knn': processed_data['knn']['test']
}

for name, dataset in final_datasets.items():
    save_path = paths['DATA_PROCESSED'] / f'{name}_final.csv'
    dataset.to_csv(save_path, index=False)
    print(f"💾 {name}: {save_path.name}")

print("\n🎉 Notebook EDA & Prétraitement terminé avec succès!")
