In [4]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger le fichier CSV (à adapter selon l'emplacement du fichier)
file_path = '/home/patea/code/Pateaanania/poipoi/dailypatient.csv'

# Filtrer les entrées valides (exclure "INDISPONIBLE")
df = df[df['PATIENT'] != 'INDISPONIBLE']

# Convertir la colonne DATE en format datetime pour manipulation
df['DATE'] = pd.to_datetime(df['DATE'])

# Trier les données par patient et par date
df = df.sort_values(by=['PATIENT', 'DATE'])

# Fonction pour déterminer les périodes d'hospitalisation et de sortie
def determine_hospitalization_periods(df):
    hospitalizations = []
    for patient in df['PATIENT'].unique():
        patient_data = df[df['PATIENT'] == patient]
        periods = []
        entry_date = None
        prev_date = None
        for i, row in patient_data.iterrows():
            if entry_date is None:
                entry_date = row['DATE']  # Première apparition (entrée)
            if prev_date is not None and (row['DATE'] - prev_date).days > 1:
                periods.append((patient, entry_date, prev_date))  # Sortie après une absence
                entry_date = row['DATE']  # Nouvelle hospitalisation
            prev_date = row['DATE']
        if entry_date is not None:
            periods.append((patient, entry_date, prev_date))  # Ajouter la dernière période
        hospitalizations.extend(periods)
    return hospitalizations

# Déterminer les périodes d'hospitalisation pour chaque patient
hospitalizations = determine_hospitalization_periods(df)

# Convertir les résultats en DataFrame
result_df = pd.DataFrame(hospitalizations, columns=['PATIENT', 'ENTREE', 'SORTIE'])

# Calculer la durée d'hospitalisation (en jours)
result_df['DUREE'] = (result_df['SORTIE'] - result_df['ENTREE']).dt.days

# Afficher un aperçu des durées d'hospitalisation
print(result_df.head())

# Visualiser les durées d'hospitalisation pour chaque patient
plt.figure(figsize=(10, 6))
plt.bar(result_df['PATIENT'], result_df['DUREE'], color='skyblue')
plt.xlabel('Patient')
plt.ylabel('Durée d\'hospitalisation (jours)')
plt.title('Durée d\'hospitalisation par patient')
plt.xticks(rotation=90)  # Rotation des étiquettes pour lisibilité
plt.tight_layout()
plt.show()


NameError: name 'df' is not defined