# Exploration des Données - Prédiction des Prix des Maisons

Ce notebook explore le dataset synthétique pour comprendre les données avant la modélisation.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sys
import os

# Ajouter le chemin src au PYTHONPATH
sys.path.append('../src')

from data.data_loader import DataLoader
from data.preprocessor import DataPreprocessor
from visualization.visualizer import DataVisualizer

plt.style.use('seaborn-v0_8')
%matplotlib inline

# Configuration des graphiques
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

## 1. Chargement des données

In [None]:
# Charger les données
data_loader = DataLoader()
X, y = data_loader.load_boston_housing()

print(f"Shape des features: {X.shape}")
print(f"Shape du target: {y.shape}")
print(f"\nPremières lignes des features:")
display(X.head())
print(f"\nStatistiques du target:")
display(y.describe())

## 2. Analyse exploratoire des données

In [None]:
# Informations générales sur le dataset
print("=== INFORMATIONS GÉNÉRALES ===")
print(X.info())
print("\n=== VALEURS MANQUANTES ===")
print(X.isnull().sum())
print(f"\nValeurs manquantes dans le target: {y.isnull().sum()}")

In [None]:
# Statistiques descriptives
print("=== STATISTIQUES DESCRIPTIVES DES FEATURES ===")
display(X.describe())

In [None]:
# Visualisation complète avec le visualizer
visualizer = DataVisualizer()
visualizer.plot_data_distribution(X, y)