In [7]:
# ============================================
# 🏥 Hospital Data Analysis - Notebook principal
# ============================================

# --- Importation des bibliothèques ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

print("✅ Librairies chargées avec succès !")

# --- Chargement des données ---
print("\n=== Étape 1 : Chargement du fichier patients.csv ===")

# Vérifier le dossier courant
print("Répertoire actuel :", os.getcwd())

# Lister le contenu du dossier parent pour vérifier la présence du dossier data
print("Contenu du dossier parent :", os.listdir(".."))

# Charger les données
try:
    df = pd.read_csv("../data/patients.csv")  # ⚠️ Vérifie bien le nom exact du fichier
    print("✅ Données chargées avec succès !")
except FileNotFoundError:
    print("❌ Erreur : le fichier '../data/patients.csv' est introuvable.")
    print("Vérifie que le dossier 'data' existe bien à la racine du projet et contient 'patients.csv'.")

# --- Aperçu des données ---
print("\n=== Aperçu des données ===")
display(df.head())

# --- Informations générales ---
print("\n=== Informations générales ===")
print(df.info())

# --- Statistiques descriptives ---
print("\n=== Statistiques descriptives ===")
display(df.describe())

# --- Répartition par sexe ---
print("\n=== Répartition par sexe ===")
display(df["Genre"].value_counts())

# --- Répartition par diagnostic ---
print("\n=== Répartition par diagnostic ===")
display(df["Diagnostic"].value_counts())

# --- Visualisation : Âge vs Cholestérol ---
print("\n=== Graphique : Relation entre l'âge et le cholestérol ===")

plt.figure(figsize=(6,4))
plt.plot(df["Age"], df["Cholesterol"], marker="o", linestyle="--", color="blue")
plt.xlabel("Âge")
plt.ylabel("Cholestérol")
plt.title("Relation entre l'âge et le cholestérol")
plt.grid(True)
plt.show()

# --- Histogramme de l'âge ---
print("\n=== Histogramme de la distribution des âges ===")

plt.figure(figsize=(6,4))
plt.hist(df["Age"], bins=10, color="lightgreen", edgecolor="black")
plt.xlabel("Âge")
plt.ylabel("Nombre de patients")
plt.title("Distribution des âges")
plt.show()

# --- Sauvegarde des statistiques ---
print("\n=== Étape finale : Sauvegarde du rapport de statistiques ===")

stats_summary = df.describe()
stats_summary.to_csv("../data/statistics_summary.csv", index=True)

print("✅ Rapport enregistré avec succès dans : '../data/statistics_summary.csv'")


✅ Librairies chargées avec succès !

=== Étape 1 : Chargement du fichier patients.csv ===
Répertoire actuel : C:\Users\mohamed\Documents\HospitalDataAnalysis\notebooks
Contenu du dossier parent : ['.git', '.ipynb_checkpoints', 'data', 'env', 'main.py', 'notebooks', 'screenshots', 'Untitled.ipynb']
✅ Données chargées avec succès !

=== Aperçu des données ===


Unnamed: 0,ID,Nom,Age,Genre,Diagnostic,Date_Admission,Date_Sortie,Cout
0,1,Ahmed,32,Homme,Grippe,2025-03-01,2025-03-03,120
1,2,Sara,45,Femme,Diabète,2025-02-15,2025-02-28,850
2,3,Khaled,29,Homme,Fracture,2025-04-10,2025-04-18,1600
3,4,Lina,60,Femme,Hypertension,2025-01-05,2025-01-20,940
4,5,Amine,37,Homme,Appendicite,2025-05-22,2025-05-29,2200



=== Informations générales ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   ID              10 non-null     int64 
 1   Nom             10 non-null     object
 2   Age             10 non-null     int64 
 3   Genre           10 non-null     object
 4   Diagnostic      10 non-null     object
 5   Date_Admission  10 non-null     object
 6   Date_Sortie     10 non-null     object
 7   Cout            10 non-null     int64 
dtypes: int64(3), object(5)
memory usage: 772.0+ bytes
None

=== Statistiques descriptives ===


Unnamed: 0,ID,Age,Cout
count,10.0,10.0,10.0
mean,5.5,40.7,1166.0
std,3.02765,11.0358,976.811138
min,1.0,26.0,120.0
25%,3.25,32.75,375.0
50%,5.5,39.0,895.0
75%,7.75,47.25,1712.5
max,10.0,60.0,3100.0



=== Répartition par sexe ===


Genre
Homme    5
Femme    5
Name: count, dtype: int64


=== Répartition par diagnostic ===


KeyError: 'Diagnosis'