# üßπ √âtape 2 : Nettoyage et Pr√©paration des Donn√©es

## üìã Objectifs de cette √©tape
1. **Charger** les donn√©es explor√©es de l'√©tape 1
2. **Traiter** les valeurs aberrantes intelligemment
3. **Encoder** les variables cat√©gorielles
4. **Ing√©nierie** des fonctionnalit√©s (feature engineering)
5. **Diviser** les donn√©es (train/validation/test)
6. **Normaliser** les donn√©es pour la mod√©lisation

---

## üõ†Ô∏è Configuration et Imports

In [1]:
# Configuration g√©n√©rale
import warnings
warnings.filterwarnings('ignore')

# Manipulation des donn√©es
import pandas as pd
import numpy as np
from pathlib import Path

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.ensemble import IsolationForest
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Statistiques
from scipy import stats
from scipy.stats import zscore

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
%matplotlib inline

# Param√®tres d'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("‚úÖ Configuration termin√©e !")
print(f"üì¶ Pandas version: {pd.__version__}")
print(f"üìä NumPy version: {np.__version__}")
print(f"ü§ñ Scikit-learn import√© avec succ√®s")

‚úÖ Configuration termin√©e !
üì¶ Pandas version: 2.3.2
üìä NumPy version: 2.3.3
ü§ñ Scikit-learn import√© avec succ√®s


## üìä Chargement des Donn√©es Explor√©es

Nous allons charger les donn√©es nettoy√©es de l'√©tape 1 d'exploration.

In [2]:
# 1. Chargement des donn√©es depuis l'√©tape 1
processed_data_path = Path('../data/processed')

# V√©rifier que les fichiers existent
original_file = processed_data_path / 'housing_original.csv'
processed_file = processed_data_path / 'housing_processed.csv'

if original_file.exists() and processed_file.exists():
    # Charger les deux versions
    df_original = pd.read_csv(original_file)
    df_processed = pd.read_csv(processed_file)
    
    print("‚úÖ Donn√©es charg√©es avec succ√®s !")
    print(f"üìä Dataset original: {df_original.shape}")
    print(f"üìä Dataset trait√©: {df_processed.shape}")
    
    # Utiliser le dataset trait√© comme base
    df = df_processed.copy()
    
else:
    print("‚ùå Fichiers de donn√©es non trouv√©s !")
    print("üí° Assurez-vous d'avoir ex√©cut√© le notebook 01_data_exploration.ipynb")
    
    # Plan B : charger directement depuis le fichier source
    print("üîÑ Chargement depuis le fichier source...")
    source_path = Path('../data/Housing Prices Dataset/Housing.csv')
    
    if source_path.exists():
        df_original = pd.read_csv(source_path)
        
        # Appliquer les transformations de base
        df = df_original.copy()
        
        # Variables binaires yes/no -> 1/0
        binary_vars = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 
                       'airconditioning', 'prefarea']
        
        for var in binary_vars:
            df[var] = df[var].map({'yes': 1, 'no': 0})
        
        # Variable furnishingstatus -> num√©rique
        furnishing_map = {'furnished': 2, 'semi-furnished': 1, 'unfurnished': 0}
        df['furnishingstatus'] = df['furnishingstatus'].map(furnishing_map)
        
        print("‚úÖ Donn√©es charg√©es et transform√©es !")
    else:
        print("‚ùå Fichier source non trouv√© non plus !")

# 2. Aper√ßu des donn√©es charg√©es
if 'df' in locals():
    print(f"\nüîç APER√áU DES DONN√âES CHARG√âES:")
    print(f"   Shape: {df.shape}")
    print(f"   Variables num√©riques: {df.select_dtypes(include=[np.number]).shape[1]}")
    print(f"   Variables cat√©gorielles: {df.select_dtypes(include=['object']).shape[1]}")
    print(f"   Valeurs manquantes: {df.isnull().sum().sum()}")
    
    print(f"\nüìã VARIABLES DISPONIBLES:")
    for i, col in enumerate(df.columns, 1):
        col_type = "Num√©rique" if df[col].dtype in ['int64', 'float64'] else "Cat√©gorielle"
        print(f"   {i:2d}. {col:18s} ({col_type})")

‚úÖ Donn√©es charg√©es avec succ√®s !
üìä Dataset original: (545, 14)
üìä Dataset trait√©: (545, 13)

üîç APER√áU DES DONN√âES CHARG√âES:
   Shape: (545, 13)
   Variables num√©riques: 13
   Variables cat√©gorielles: 0
   Valeurs manquantes: 0

üìã VARIABLES DISPONIBLES:
    1. price              (Num√©rique)
    2. area               (Num√©rique)
    3. bedrooms           (Num√©rique)
    4. bathrooms          (Num√©rique)
    5. stories            (Num√©rique)
    6. mainroad           (Num√©rique)
    7. guestroom          (Num√©rique)
    8. basement           (Num√©rique)
    9. hotwaterheating    (Num√©rique)
   10. airconditioning    (Num√©rique)
   11. parking            (Num√©rique)
   12. prefarea           (Num√©rique)
   13. furnishingstatus   (Num√©rique)


## üö® Traitement Intelligent des Valeurs Aberrantes

Nous allons traiter les outliers de mani√®re intelligente en analysant s'ils sont des erreurs ou des valeurs l√©gitimes.

In [3]:
# Fonctions utilitaires pour les outliers
def detect_outliers_iqr(data, column):
    """D√©tecte les outliers avec la m√©thode IQR"""
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

def detect_outliers_zscore(data, column, threshold=3):
    """D√©tecte les outliers avec la m√©thode Z-score"""
    z_scores = np.abs(zscore(data[column]))
    outliers = data[z_scores > threshold]
    return outliers, z_scores

def detect_outliers_isolation_forest(data, contamination=0.1):
    """D√©tecte les outliers avec Isolation Forest"""
    # S√©lectionner seulement les variables num√©riques
    numeric_cols = data.select_dtypes(include=[np.number]).columns
    X = data[numeric_cols]
    
    iso_forest = IsolationForest(contamination=contamination, random_state=42)
    outliers_pred = iso_forest.fit_predict(X)
    
    # -1 pour outliers, 1 pour normaux
    outliers_mask = outliers_pred == -1
    outliers = data[outliers_mask]
    
    return outliers, outliers_mask

print("‚úÖ Fonctions de d√©tection d'outliers d√©finies !")

‚úÖ Fonctions de d√©tection d'outliers d√©finies !


In [4]:
# 1. Analyse d√©taill√©e des outliers
print("üîç ANALYSE D√âTAILL√âE DES VALEURS ABERRANTES")
print("=" * 50)

# Variables √† analyser
variables_to_analyze = ['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'parking']
outliers_summary = {}

for var in variables_to_analyze:
    if var in df.columns:
        # M√©thode IQR
        outliers_iqr, lower_iqr, upper_iqr = detect_outliers_iqr(df, var)
        
        # M√©thode Z-score
        outliers_zscore, z_scores = detect_outliers_zscore(df, var)
        
        outliers_summary[var] = {
            'iqr_count': len(outliers_iqr),
            'zscore_count': len(outliers_zscore),
            'iqr_bounds': (lower_iqr, upper_iqr),
            'outliers_indices': set(outliers_iqr.index)
        }
        
        print(f"\nüìä {var.upper()}:")
        print(f"   IQR Outliers: {len(outliers_iqr)} ({len(outliers_iqr)/len(df)*100:.1f}%)")
        print(f"   Z-score Outliers: {len(outliers_zscore)} ({len(outliers_zscore)/len(df)*100:.1f}%)")
        print(f"   IQR Seuils: [{lower_iqr:.1f}, {upper_iqr:.1f}]")
        
        if len(outliers_iqr) > 0:
            print(f"   Valeurs extr√™mes: {outliers_iqr[var].min():.1f} - {outliers_iqr[var].max():.1f}")

# 2. Analyse globale avec Isolation Forest
print(f"\nü§ñ D√âTECTION GLOBALE - ISOLATION FOREST:")
outliers_iso, outliers_mask = detect_outliers_isolation_forest(df, contamination=0.05)
print(f"   Outliers globaux d√©tect√©s: {len(outliers_iso)} ({len(outliers_iso)/len(df)*100:.1f}%)")

# 3. Analyse des propri√©t√©s avec outliers multiples
print(f"\nüè† PROPRI√âT√âS AVEC OUTLIERS MULTIPLES:")
all_outlier_indices = set()
for var, info in outliers_summary.items():
    all_outlier_indices.update(info['outliers_indices'])

if all_outlier_indices:
    outlier_properties = df.loc[list(all_outlier_indices)]
    print(f"   Total propri√©t√©s avec outliers: {len(all_outlier_indices)}")
    print(f"\n   Exemples de propri√©t√©s extr√™mes:")
    display_cols = ['price', 'area', 'bedrooms', 'bathrooms']
    print(outlier_properties[display_cols].head())
    
    # Prix moyens avec vs sans outliers
    prix_avec_outliers = outlier_properties['price'].mean()
    prix_sans_outliers = df.drop(all_outlier_indices)['price'].mean()
    print(f"\n   Prix moyen avec outliers: {prix_avec_outliers:,.0f}")
    print(f"   Prix moyen sans outliers: {prix_sans_outliers:,.0f}")
    print(f"   Diff√©rence: {abs(prix_avec_outliers - prix_sans_outliers):,.0f}")

üîç ANALYSE D√âTAILL√âE DES VALEURS ABERRANTES

üìä PRICE:
   IQR Outliers: 15 (2.8%)
   Z-score Outliers: 6 (1.1%)
   IQR Seuils: [-35000.0, 9205000.0]
   Valeurs extr√™mes: 9240000.0 - 13300000.0

üìä AREA:
   IQR Outliers: 12 (2.2%)
   Z-score Outliers: 7 (1.3%)
   IQR Seuils: [-540.0, 10500.0]
   Valeurs extr√™mes: 10700.0 - 16200.0

üìä BEDROOMS:
   IQR Outliers: 12 (2.2%)
   Z-score Outliers: 2 (0.4%)
   IQR Seuils: [0.5, 4.5]
   Valeurs extr√™mes: 5.0 - 6.0

üìä BATHROOMS:
   IQR Outliers: 1 (0.2%)
   Z-score Outliers: 11 (2.0%)
   IQR Seuils: [-0.5, 3.5]
   Valeurs extr√™mes: 4.0 - 4.0

üìä STORIES:
   IQR Outliers: 41 (7.5%)
   Z-score Outliers: 0 (0.0%)
   IQR Seuils: [-0.5, 3.5]
   Valeurs extr√™mes: 4.0 - 4.0

üìä PARKING:
   IQR Outliers: 12 (2.2%)
   Z-score Outliers: 0 (0.0%)
   IQR Seuils: [-1.5, 2.5]
   Valeurs extr√™mes: 3.0 - 3.0

ü§ñ D√âTECTION GLOBALE - ISOLATION FOREST:

üìä PRICE:
   IQR Outliers: 15 (2.8%)
   Z-score Outliers: 6 (1.1%)
   IQR Seuils: [-

In [5]:
# 4. D√©cision de traitement des outliers
print("‚öñÔ∏è D√âCISION DE TRAITEMENT DES OUTLIERS")
print("=" * 45)

# Cr√©er une copie pour les tests
df_clean = df.copy()
outliers_removed = 0

# R√®gles de traitement intelligentes
treatment_rules = {
    'price': {'action': 'cap', 'reason': 'Prix extr√™mes possibles dans l\'immobilier'},
    'area': {'action': 'cap', 'reason': 'Grandes propri√©t√©s possibles'},
    'bedrooms': {'action': 'remove', 'max_reasonable': 10, 'reason': 'Plus de 10 chambres peu probable'},
    'bathrooms': {'action': 'remove', 'max_reasonable': 8, 'reason': 'Plus de 8 SdB peu probable'},
    'stories': {'action': 'remove', 'max_reasonable': 5, 'reason': 'Plus de 5 √©tages peu probable pour maison'},
    'parking': {'action': 'remove', 'max_reasonable': 10, 'reason': 'Plus de 10 places peu probable'}
}

for var, rule in treatment_rules.items():
    if var in df_clean.columns:
        if rule['action'] == 'remove':
            # Supprimer les valeurs d√©raisonnables
            initial_count = len(df_clean)
            df_clean = df_clean[df_clean[var] <= rule['max_reasonable']]
            removed = initial_count - len(df_clean)
            outliers_removed += removed
            
            print(f"üóëÔ∏è {var}: {removed} lignes supprim√©es (>{rule['max_reasonable']}) - {rule['reason']}")
            
        elif rule['action'] == 'cap':
            # Limiter les valeurs extr√™mes aux percentiles
            lower_bound = df_clean[var].quantile(0.01)  # 1er percentile
            upper_bound = df_clean[var].quantile(0.99)  # 99e percentile
            
            initial_outliers = len(df_clean[(df_clean[var] < lower_bound) | (df_clean[var] > upper_bound)])
            
            # Appliquer le capping
            df_clean[var] = df_clean[var].clip(lower=lower_bound, upper=upper_bound)
            
            print(f"üß¢ {var}: {initial_outliers} valeurs limit√©es aux percentiles [1%, 99%] - {rule['reason']}")

print(f"\nüìä R√âSUM√â DU NETTOYAGE:")
print(f"   Lignes avant nettoyage: {len(df):,}")
print(f"   Lignes apr√®s nettoyage: {len(df_clean):,}")
print(f"   Lignes supprim√©es: {len(df) - len(df_clean):,} ({(len(df) - len(df_clean))/len(df)*100:.2f}%)")

# V√©rifier l'impact sur les statistiques
print(f"\nüí∞ IMPACT SUR LES PRIX:")
print(f"   Prix moyen avant: {df['price'].mean():,.0f}")
print(f"   Prix moyen apr√®s: {df_clean['price'].mean():,.0f}")
print(f"   √âcart-type avant: {df['price'].std():,.0f}")
print(f"   √âcart-type apr√®s: {df_clean['price'].std():,.0f}")

# Utiliser les donn√©es nettoy√©es
df = df_clean.copy()
print(f"\n‚úÖ Nettoyage des outliers termin√© ! Dataset final: {df.shape}")

‚öñÔ∏è D√âCISION DE TRAITEMENT DES OUTLIERS
üß¢ price: 12 valeurs limit√©es aux percentiles [1%, 99%] - Prix extr√™mes possibles dans l'immobilier
üß¢ area: 12 valeurs limit√©es aux percentiles [1%, 99%] - Grandes propri√©t√©s possibles
üóëÔ∏è bedrooms: 0 lignes supprim√©es (>10) - Plus de 10 chambres peu probable
üóëÔ∏è bathrooms: 0 lignes supprim√©es (>8) - Plus de 8 SdB peu probable
üóëÔ∏è stories: 0 lignes supprim√©es (>5) - Plus de 5 √©tages peu probable pour maison
üóëÔ∏è parking: 0 lignes supprim√©es (>10) - Plus de 10 places peu probable

üìä R√âSUM√â DU NETTOYAGE:
   Lignes avant nettoyage: 545
   Lignes apr√®s nettoyage: 545
   Lignes supprim√©es: 0 (0.00%)

üí∞ IMPACT SUR LES PRIX:
   Prix moyen avant: 4,766,729
   Prix moyen apr√®s: 4,751,146
   √âcart-type avant: 1,870,440
   √âcart-type apr√®s: 1,808,191

‚úÖ Nettoyage des outliers termin√© ! Dataset final: (545, 13)


## üîß Ing√©nierie des Fonctionnalit√©s (Feature Engineering)

Cr√©ons de nouvelles variables pertinentes pour am√©liorer les performances du mod√®le.

In [6]:
# 1. Cr√©ation de nouvelles variables
print("üîß ING√âNIERIE DES FONCTIONNALIT√âS")
print("=" * 40)

# Variables d√©riv√©es de base
df['price_per_sqft'] = df['price'] / df['area']
df['rooms_total'] = df['bedrooms'] + df['bathrooms']
df['area_per_room'] = df['area'] / df['rooms_total']
df['bathroom_bedroom_ratio'] = df['bathrooms'] / df['bedrooms']

print("‚úÖ Variables d√©riv√©es de base cr√©√©es:")
print("   ‚Ä¢ price_per_sqft: Prix par pied carr√©")
print("   ‚Ä¢ rooms_total: Nombre total de pi√®ces")
print("   ‚Ä¢ area_per_room: Surface par pi√®ce")
print("   ‚Ä¢ bathroom_bedroom_ratio: Ratio SdB/Chambres")

# 2. Variables d'√©quipements combin√©es
luxury_features = ['guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea']
df['luxury_score'] = df[luxury_features].sum(axis=1)
df['has_luxury'] = (df['luxury_score'] > 0).astype(int)

print("\n‚úÖ Variables d'√©quipements cr√©√©es:")
print("   ‚Ä¢ luxury_score: Score d'√©quipements de luxe (0-5)")
print("   ‚Ä¢ has_luxury: Pr√©sence d'au moins un √©quipement de luxe")

# 3. Cat√©gorisation des tailles
def categorize_size(area):
    if area <= 5000:
        return 'small'
    elif area <= 8000:
        return 'medium'
    elif area <= 12000:
        return 'large'
    else:
        return 'very_large'

def categorize_price_range(price):
    if price <= 4000000:
        return 'budget'
    elif price <= 6000000:
        return 'mid_range'
    elif price <= 10000000:
        return 'premium'
    else:
        return 'luxury'

df['size_category'] = df['area'].apply(categorize_size)
df['price_category'] = df['price'].apply(categorize_price_range)

print("\n‚úÖ Cat√©gories cr√©√©es:")
print("   ‚Ä¢ size_category: Cat√©gorie de taille (small/medium/large/very_large)")
print("   ‚Ä¢ price_category: Gamme de prix (budget/mid_range/premium/luxury)")

# 4. Variables d'interaction importantes
df['area_bedrooms_interaction'] = df['area'] * df['bedrooms']
df['luxury_area_interaction'] = df['luxury_score'] * df['area']

print("\n‚úÖ Variables d'interaction cr√©√©es:")
print("   ‚Ä¢ area_bedrooms_interaction: Surface √ó Chambres")
print("   ‚Ä¢ luxury_area_interaction: Score luxe √ó Surface")

# 5. Aper√ßu des nouvelles variables
new_features = ['price_per_sqft', 'rooms_total', 'area_per_room', 'bathroom_bedroom_ratio',
                'luxury_score', 'has_luxury', 'size_category', 'price_category',
                'area_bedrooms_interaction', 'luxury_area_interaction']

print(f"\nüìä APER√áU DES NOUVELLES VARIABLES:")
for feature in new_features[:6]:  # Montrer les num√©riques d'abord
    if df[feature].dtype in ['int64', 'float64']:
        print(f"   {feature:25s}: {df[feature].mean():8.1f} (¬±{df[feature].std():6.1f})")

print(f"\nüìä DISTRIBUTION DES CAT√âGORIES:")
for feature in ['size_category', 'price_category']:
    print(f"   {feature}:")
    counts = df[feature].value_counts()
    for cat, count in counts.items():
        pct = count/len(df)*100
        print(f"     {cat:12s}: {count:3d} ({pct:4.1f}%)")

print(f"\n‚úÖ Feature engineering termin√© ! Total variables: {df.shape[1]}")

üîß ING√âNIERIE DES FONCTIONNALIT√âS
‚úÖ Variables d√©riv√©es de base cr√©√©es:
   ‚Ä¢ price_per_sqft: Prix par pied carr√©
   ‚Ä¢ rooms_total: Nombre total de pi√®ces
   ‚Ä¢ area_per_room: Surface par pi√®ce
   ‚Ä¢ bathroom_bedroom_ratio: Ratio SdB/Chambres

‚úÖ Variables d'√©quipements cr√©√©es:
   ‚Ä¢ luxury_score: Score d'√©quipements de luxe (0-5)
   ‚Ä¢ has_luxury: Pr√©sence d'au moins un √©quipement de luxe

‚úÖ Cat√©gories cr√©√©es:
   ‚Ä¢ size_category: Cat√©gorie de taille (small/medium/large/very_large)
   ‚Ä¢ price_category: Gamme de prix (budget/mid_range/premium/luxury)

‚úÖ Variables d'interaction cr√©√©es:
   ‚Ä¢ area_bedrooms_interaction: Surface √ó Chambres
   ‚Ä¢ luxury_area_interaction: Score luxe √ó Surface

üìä APER√áU DES NOUVELLES VARIABLES:
   price_per_sqft           :    991.0 (¬± 340.8)
   rooms_total              :      4.3 (¬±   1.0)
   area_per_room            :   1254.7 (¬± 556.3)
   bathroom_bedroom_ratio   :      0.4 (¬±   0.2)
   luxury_score       

## üìä Division des Donn√©es (Train/Validation/Test)

Divisons nos donn√©es proprement pour l'entra√Ænement et l'√©valuation.

In [7]:
# 1. Pr√©paration des variables pour la mod√©lisation
print("üìä PR√âPARATION POUR LA DIVISION DES DONN√âES")
print("=" * 50)

# Variables cibles
target = 'price'
y = df[target].copy()

# S√©lection des variables pr√©dictives
# Exclure la cible et les cat√©gories d√©riv√©es de la cible
features_to_exclude = [target, 'price_category']
feature_columns = [col for col in df.columns if col not in features_to_exclude]

# S√©parer les variables num√©riques et cat√©gorielles
numeric_features = df[feature_columns].select_dtypes(include=[np.number]).columns.tolist()
categorical_features = df[feature_columns].select_dtypes(include=['object']).columns.tolist()

print(f"üéØ Variable cible: {target}")
print(f"üìä Features num√©riques: {len(numeric_features)}")
print(f"üè∑Ô∏è Features cat√©gorielles: {len(categorical_features)}")
print(f"üìã Total features: {len(numeric_features) + len(categorical_features)}")

print(f"\nüî¢ FEATURES NUM√âRIQUES:")
for i, feat in enumerate(numeric_features, 1):
    print(f"   {i:2d}. {feat}")

if categorical_features:
    print(f"\nüè∑Ô∏è FEATURES CAT√âGORIELLES:")
    for i, feat in enumerate(categorical_features, 1):
        print(f"   {i:2d}. {feat}")
        unique_values = df[feat].unique()
        print(f"       Valeurs: {list(unique_values)}")

# Pr√©parer X (features) avec encodage des variables cat√©gorielles
X = df[numeric_features].copy()

# One-hot encoding pour les variables cat√©gorielles
if categorical_features:
    print(f"\nüîÑ ENCODAGE ONE-HOT:")
    for feat in categorical_features:
        # One-hot encoding
        dummies = pd.get_dummies(df[feat], prefix=feat, drop_first=True)
        X = pd.concat([X, dummies], axis=1)
        print(f"   ‚úÖ {feat}: {len(dummies.columns)} nouvelles variables")

print(f"\nüìä DATASET FINAL POUR LA MOD√âLISATION:")
print(f"   Shape X: {X.shape}")
print(f"   Shape y: {y.shape}")
print(f"   Total features apr√®s encodage: {X.shape[1]}")

üìä PR√âPARATION POUR LA DIVISION DES DONN√âES
üéØ Variable cible: price
üìä Features num√©riques: 20
üè∑Ô∏è Features cat√©gorielles: 1
üìã Total features: 21

üî¢ FEATURES NUM√âRIQUES:
    1. area
    2. bedrooms
    3. bathrooms
    4. stories
    5. mainroad
    6. guestroom
    7. basement
    8. hotwaterheating
    9. airconditioning
   10. parking
   11. prefarea
   12. furnishingstatus
   13. price_per_sqft
   14. rooms_total
   15. area_per_room
   16. bathroom_bedroom_ratio
   17. luxury_score
   18. has_luxury
   19. area_bedrooms_interaction
   20. luxury_area_interaction

üè∑Ô∏è FEATURES CAT√âGORIELLES:
    1. size_category
       Valeurs: ['medium', 'large', 'very_large', 'small']

üîÑ ENCODAGE ONE-HOT:
   ‚úÖ size_category: 3 nouvelles variables

üìä DATASET FINAL POUR LA MOD√âLISATION:
   Shape X: (545, 23)
   Shape y: (545,)
   Total features apr√®s encodage: 23


In [8]:
# 2. Division stratifi√©e des donn√©es
print("‚úÇÔ∏è DIVISION DES DONN√âES")
print("=" * 30)

# Cr√©er des strates bas√©es sur les prix pour assurer une r√©partition √©quilibr√©e
price_bins = pd.qcut(y, q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
print("üìä Stratification bas√©e sur les quartiles de prix:")
print(price_bins.value_counts().sort_index())

# Division principale: 80% train+val, 20% test
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=price_bins
)

# Recr√©er les strates pour les donn√©es temporaires
price_bins_temp = pd.qcut(y_temp, q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])

# Division train/validation: 75% train, 25% validation du reste
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp,
    test_size=0.25,  # 25% de 80% = 20% du total
    random_state=42,
    stratify=price_bins_temp
)

# R√©sum√© des divisions
print(f"\nüìä R√âPARTITION DES DONN√âES:")
print(f"   üèãÔ∏è Train: {X_train.shape[0]:3d} √©chantillons ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"   ‚úÖ Validation: {X_val.shape[0]:3d} √©chantillons ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"   üß™ Test: {X_test.shape[0]:3d} √©chantillons ({X_test.shape[0]/len(X)*100:.1f}%)")
print(f"   üìä Total: {len(X):3d} √©chantillons")

# V√©rification de la r√©partition des prix dans chaque ensemble
print(f"\nüí∞ R√âPARTITION DES PRIX PAR ENSEMBLE:")
sets_info = {
    'Train': y_train,
    'Validation': y_val,
    'Test': y_test
}

for set_name, y_set in sets_info.items():
    print(f"   {set_name:10s}: {y_set.mean():8,.0f} (¬±{y_set.std():8,.0f}) [{y_set.min():7,.0f} - {y_set.max():8,.0f}]")

print(f"\n‚úÖ Division des donn√©es termin√©e !")
print(f"üìä Features: {X_train.shape[1]}")
print(f"üéØ Pr√™t pour la normalisation et la mod√©lisation")

‚úÇÔ∏è DIVISION DES DONN√âES
üìä Stratification bas√©e sur les quartiles de prix:
price
Q1    137
Q2    138
Q3    134
Q4    136
Name: count, dtype: int64

üìä R√âPARTITION DES DONN√âES:
   üèãÔ∏è Train: 327 √©chantillons (60.0%)
   ‚úÖ Validation: 109 √©chantillons (20.0%)
   üß™ Test: 109 √©chantillons (20.0%)
   üìä Total: 545 √©chantillons

üí∞ R√âPARTITION DES PRIX PAR ENSEMBLE:
   Train     : 4,739,763 (¬±1,754,574) [1,870,400 - 10,542,000]
   Validation: 4,815,660 (¬±1,973,180) [1,870,400 - 10,542,000]
   Test      : 4,720,782 (¬±1,810,334) [1,870,400 - 10,150,000]

‚úÖ Division des donn√©es termin√©e !
üìä Features: 23
üéØ Pr√™t pour la normalisation et la mod√©lisation


## üîÑ Normalisation des Donn√©es

Normalisons les donn√©es pour optimiser les performances des algorithmes de machine learning.

In [9]:
# 1. Comparaison des m√©thodes de normalisation
print("üîÑ NORMALISATION DES DONN√âES")
print("=" * 35)

# Tester diff√©rentes m√©thodes de normalisation sur un √©chantillon
scalers = {
    'StandardScaler': StandardScaler(),
    'MinMaxScaler': MinMaxScaler(),
    'RobustScaler': RobustScaler()
}

print("üß™ COMPARAISON DES M√âTHODES DE NORMALISATION:")
sample_feature = 'price_per_sqft'

if sample_feature in X_train.columns:
    original_data = X_train[sample_feature]
    print(f"\nüìä Variable exemple: {sample_feature}")
    print(f"   Original: {original_data.mean():.1f} (¬±{original_data.std():.1f})")
    
    for name, scaler in scalers.items():
        # Normaliser la variable exemple
        transformed = scaler.fit_transform(original_data.values.reshape(-1, 1)).flatten()
        print(f"   {name:13s}: {transformed.mean():.3f} (¬±{transformed.std():.3f})")

# 2. S√©lection et application de la m√©thode de normalisation
print(f"\n‚öôÔ∏è APPLICATION DE LA NORMALISATION:")

# Utiliser RobustScaler car il est moins sensible aux outliers
scaler = RobustScaler()

# Normaliser les donn√©es d'entra√Ænement
X_train_scaled = pd.DataFrame(
    scaler.fit_transform(X_train),
    columns=X_train.columns,
    index=X_train.index
)

# Normaliser les donn√©es de validation et test avec le m√™me scaler
X_val_scaled = pd.DataFrame(
    scaler.transform(X_val),
    columns=X_val.columns,
    index=X_val.index
)

X_test_scaled = pd.DataFrame(
    scaler.transform(X_test),
    columns=X_test.columns,
    index=X_test.index
)

print(f"‚úÖ RobustScaler appliqu√© √† tous les ensembles")
print(f"   Train normalis√©: {X_train_scaled.shape}")
print(f"   Validation normalis√©: {X_val_scaled.shape}")
print(f"   Test normalis√©: {X_test_scaled.shape}")

# 3. V√©rification de la normalisation
print(f"\nüìä V√âRIFICATION DE LA NORMALISATION:")
print(f"   Variables avec moyenne ~0 et std ~1: {(abs(X_train_scaled.mean()) < 0.1).sum()}/{X_train_scaled.shape[1]}")

# Montrer quelques statistiques
print(f"\nüìà STATISTIQUES APR√àS NORMALISATION (Train):")
stats_sample = X_train_scaled.iloc[:, :5]  # Premi√®res 5 variables
for col in stats_sample.columns:
    mean_val = stats_sample[col].mean()
    std_val = stats_sample[col].std()
    print(f"   {col:25s}: {mean_val:6.3f} (¬±{std_val:5.3f})")

print(f"\n‚úÖ Normalisation termin√©e !")
print(f"üìä Donn√©es pr√™tes pour la mod√©lisation")

üîÑ NORMALISATION DES DONN√âES
üß™ COMPARAISON DES M√âTHODES DE NORMALISATION:

üìä Variable exemple: price_per_sqft
   Original: 1000.6 (¬±346.7)
   StandardScaler: 0.000 (¬±1.000)
   MinMaxScaler : 0.294 (¬±0.149)
   RobustScaler : 0.112 (¬±0.822)

‚öôÔ∏è APPLICATION DE LA NORMALISATION:
‚úÖ RobustScaler appliqu√© √† tous les ensembles
   Train normalis√©: (327, 23)
   Validation normalis√©: (109, 23)
   Test normalis√©: (109, 23)

üìä V√âRIFICATION DE LA NORMALISATION:
   Variables avec moyenne ~0 et std ~1: 5/23

üìà STATISTIQUES APR√àS NORMALISATION (Train):
   area                     :  0.215 (¬±0.751)
   bedrooms                 : -0.046 (¬±0.735)
   bathrooms                :  0.284 (¬±0.515)
   stories                  : -0.220 (¬±0.847)
   mainroad                 : -0.159 (¬±0.366)

‚úÖ Normalisation termin√©e !
üìä Donn√©es pr√™tes pour la mod√©lisation
‚úÖ RobustScaler appliqu√© √† tous les ensembles
   Train normalis√©: (327, 23)
   Validation normalis√©: (109, 23)

## üíæ Sauvegarde des Donn√©es Pr√©par√©es

Sauvegardons toutes les donn√©es pr√©par√©es pour la mod√©lisation.

In [10]:
# 1. Sauvegarde des datasets
print("üíæ SAUVEGARDE DES DONN√âES PR√âPAR√âES")
print("=" * 40)

# Cr√©er le dossier de sauvegarde
save_path = Path('../data/processed')
save_path.mkdir(parents=True, exist_ok=True)

# Sauvegarder les donn√©es non normalis√©es
X_train.to_csv(save_path / 'X_train_raw.csv', index=False)
X_val.to_csv(save_path / 'X_val_raw.csv', index=False)
X_test.to_csv(save_path / 'X_test_raw.csv', index=False)

y_train.to_csv(save_path / 'y_train.csv', index=False)
y_val.to_csv(save_path / 'y_val.csv', index=False)
y_test.to_csv(save_path / 'y_test.csv', index=False)

print("‚úÖ Donn√©es brutes sauvegard√©es:")
print(f"   X_train_raw.csv: {X_train.shape}")
print(f"   X_val_raw.csv: {X_val.shape}")
print(f"   X_test_raw.csv: {X_test.shape}")
print(f"   y_train.csv, y_val.csv, y_test.csv")

# Sauvegarder les donn√©es normalis√©es
X_train_scaled.to_csv(save_path / 'X_train_scaled.csv', index=False)
X_val_scaled.to_csv(save_path / 'X_val_scaled.csv', index=False)
X_test_scaled.to_csv(save_path / 'X_test_scaled.csv', index=False)

print("\n‚úÖ Donn√©es normalis√©es sauvegard√©es:")
print(f"   X_train_scaled.csv: {X_train_scaled.shape}")
print(f"   X_val_scaled.csv: {X_val_scaled.shape}")
print(f"   X_test_scaled.csv: {X_test_scaled.shape}")

# Sauvegarder le dataset complet avec les nouvelles features
df.to_csv(save_path / 'housing_final_cleaned.csv', index=False)
print(f"\n‚úÖ Dataset complet sauvegard√©:")
print(f"   housing_final_cleaned.csv: {df.shape}")

# Sauvegarder les m√©tadonn√©es importantes
metadata = {
    'dataset_info': {
        'total_samples': len(df),
        'total_features': X_train.shape[1],
        'train_samples': X_train.shape[0],
        'val_samples': X_val.shape[0],
        'test_samples': X_test.shape[0]
    },
    'features': {
        'numeric_features': numeric_features,
        'categorical_features': categorical_features,
        'all_features': list(X_train.columns)
    },
    'target': target,
    'scaler_used': 'RobustScaler'
}

import json
with open(save_path / 'metadata.json', 'w') as f:
    json.dump(metadata, f, indent=2, default=str)

print(f"\n‚úÖ M√©tadonn√©es sauvegard√©es:")
print(f"   metadata.json")

# 2. R√©sum√© final
print(f"\nüéØ R√âSUM√â FINAL - √âTAPE 2 TERMIN√âE")
print("=" * 45)
print(f"‚úÖ Donn√©es nettoy√©es: {len(df)} propri√©t√©s")
print(f"‚úÖ Features cr√©√©es: {X_train.shape[1]} variables")
print(f"‚úÖ Outliers trait√©s intelligemment")
print(f"‚úÖ Donn√©es divis√©es (train/val/test)")
print(f"‚úÖ Donn√©es normalis√©es avec RobustScaler")
print(f"‚úÖ Tout sauvegard√© dans {save_path}")

print(f"\nüöÄ PROCHAINE √âTAPE:")
print(f"   √âtape 3 - Mod√©lisation et √©valuation")
print(f"   üìä {X_train.shape[0]} √©chantillons d'entra√Ænement pr√™ts")
print(f"   üéØ {X_train.shape[1]} features pour pr√©dire les prix immobiliers")

üíæ SAUVEGARDE DES DONN√âES PR√âPAR√âES
‚úÖ Donn√©es brutes sauvegard√©es:
   X_train_raw.csv: (327, 23)
   X_val_raw.csv: (109, 23)
   X_test_raw.csv: (109, 23)
   y_train.csv, y_val.csv, y_test.csv

‚úÖ Donn√©es normalis√©es sauvegard√©es:
   X_train_scaled.csv: (327, 23)
   X_val_scaled.csv: (109, 23)
   X_test_scaled.csv: (109, 23)

‚úÖ Dataset complet sauvegard√©:
   housing_final_cleaned.csv: (545, 23)

‚úÖ M√©tadonn√©es sauvegard√©es:
   metadata.json

üéØ R√âSUM√â FINAL - √âTAPE 2 TERMIN√âE
‚úÖ Donn√©es nettoy√©es: 545 propri√©t√©s
‚úÖ Features cr√©√©es: 23 variables
‚úÖ Outliers trait√©s intelligemment
‚úÖ Donn√©es divis√©es (train/val/test)
‚úÖ Donn√©es normalis√©es avec RobustScaler
‚úÖ Tout sauvegard√© dans ..\data\processed

üöÄ PROCHAINE √âTAPE:
   √âtape 3 - Mod√©lisation et √©valuation
   üìä 327 √©chantillons d'entra√Ænement pr√™ts
   üéØ 23 features pour pr√©dire les prix immobiliers
