# Exploration des données d'affluence hospitalière

Ce notebook permet d'explorer les données brutes d'affluence hospitalière et de comprendre leurs caractéristiques pour la modélisation prédictive.

In [1]:
# Import des bibliothèques nécessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import os
import sys

# Ajout du répertoire parent au path pour importer les modules du projet
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

# Import des fonctions du projet
from src.data.data_loader import load_hospital_data

# Configuration des graphiques
plt.style.use('seaborn-whitegrid')
sns.set(font_scale=1.2)
plt.rcParams['figure.figsize'] = (12, 8)

ImportError: cannot import name 'load_hospital_data' from 'src.data.data_loader' (c:\Users\Paul\OneDrive - telecom-paristech.fr\Documents\Telecom\Projets\HealthPredictor\src\data\data_loader.py)

## 1. Chargement des données

In [None]:
# Chargement des données brutes
data_path = '../data/raw/hospital_data.csv'
df = load_hospital_data(data_path)

# Affichage des premières lignes
print(f"Dimensions des données: {df.shape}")
df.head()

## 2. Analyse des statistiques descriptives

In [None]:
# Statistiques descriptives des données
df.describe()

In [None]:
# Vérification des valeurs manquantes
print("Nombre de valeurs manquantes par colonne:")
df.isna().sum()

## 3. Visualisation des séries temporelles

In [None]:
# Conversion de la colonne de date en index temporel si nécessaire
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])
    df.set_index('date', inplace=True)

# Visualisation de l'affluence au fil du temps
plt.figure(figsize=(14, 8))
plt.plot(df.index, df['patient_count'], color='steelblue')
plt.title('Affluence hospitalière au fil du temps', fontsize=16)
plt.xlabel('Date', fontsize=12)
plt.ylabel('Nombre de patients', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 4. Analyse des patterns saisonniers

In [None]:
# Décomposition de la série temporelle
decomposition = seasonal_decompose(df['patient_count'], model='additive', period=7)  # période de 7 jours pour tendance hebdomadaire

# Visualisation de la décomposition
fig, axes = plt.subplots(4, 1, figsize=(14, 12), sharex=True)
decomposition.observed.plot(ax=axes[0], title='Série originale')
decomposition.trend.plot(ax=axes[1], title='Tendance')
decomposition.seasonal.plot(ax=axes[2], title='Saisonnalité')
decomposition.resid.plot(ax=axes[3], title='Résidus')
plt.tight_layout()
plt.show()

## 5. Analyse des patterns hebdomadaires

In [None]:
# Ajout d'une colonne pour le jour de la semaine
df['day_of_week'] = df.index.day_name()

# Visualisation de la moyenne d'affluence par jour de la semaine
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
plt.figure(figsize=(12, 6))
sns.boxplot(x='day_of_week', y='patient_count', data=df, order=day_order)
plt.title('Distribution de l\'affluence par jour de la semaine', fontsize=16)
plt.xlabel('Jour de la semaine', fontsize=12)
plt.ylabel('Nombre de patients', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 6. Analyse des patterns mensuels et saisonniers

In [None]:
# Ajout d'une colonne pour le mois
df['month'] = df.index.month_name()

# Visualisation de la moyenne d'affluence par mois
month_order = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']
plt.figure(figsize=(14, 6))
sns.boxplot(x='month', y='patient_count', data=df, order=month_order)
plt.title('Distribution de l\'affluence par mois', fontsize=16)
plt.xlabel('Mois', fontsize=12)
plt.ylabel('Nombre de patients', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Analyse de corrélation avec d'autres facteurs

In [None]:
# Matrice de corrélation si d'autres variables sont disponibles
if len(df.columns) > 1:
    # Sélectionner uniquement les colonnes numériques
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    
    plt.figure(figsize=(12, 10))
    corr_matrix = df[numeric_cols].corr()
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
    plt.title('Matrice de corrélation des variables', fontsize=16)
    plt.tight_layout()
    plt.show()

## 8. Analyse de l'autocorrélation

In [None]:
# Graphique d'autocorrélation
plt.figure(figsize=(14, 6))
plot_acf(df['patient_count'], lags=50, alpha=0.05)
plt.title('Fonction d\'autocorrélation (ACF)', fontsize=16)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Graphique d'autocorrélation partielle
plt.figure(figsize=(14, 6))
plot_pacf(df['patient_count'], lags=50, alpha=0.05, method='ywm')
plt.title('Fonction d\'autocorrélation partielle (PACF)', fontsize=16)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 9. Conclusions préliminaires

À partir de l'analyse exploratoire des données, nous pouvons tirer les conclusions suivantes :

1. **Structure temporelle** : [à compléter après analyse]
2. **Saisonnalité** : [à compléter après analyse]
3. **Patterns hebdomadaires** : [à compléter après analyse]
4. **Corrélations avec d'autres facteurs** : [à compléter après analyse]
5. **Stationnarité** : [à compléter après analyse]

Ces observations guideront notre approche de modélisation dans les prochaines étapes.