In [None]:
# Analyse exploratoire des admissions hospitalières (EDA)

Ce notebook analyse un dataset hospitalier comportant plusieurs variables :
- données patient (âge, condition médicale, groupe sanguin)
- données hospitalières (hôpital, type d'admission)
- données financières (montant facturé)
- mesures cliniques (résultats de tests)

Objectifs :
- Nettoyage des données
- Analyses descriptives
- Visualisations exploratoires
- Observations clés


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

df = pd.read_csv("data/healthcare_dataset.csv")
df.head()

In [None]:
# Parsing des dates
for col in ["Date of Admission", "Discharge Date"]:
    df[col] = pd.to_datetime(df[col], errors="coerce")

# Normalisation chaînes
for col in ["Name","Gender","Blood Type","Medical Condition",
            "Doctor","Hospital","Insurance Provider",
            "Admission Type","Medication","Test Results"]:
    df[col] = (
        df[col]
        .astype("string")
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
    )

# Types
df["Billing Amount"] = pd.to_numeric(df["Billing Amount"], errors="coerce")
df["Age"] = pd.to_numeric(df["Age"], errors="coerce")

# Durée de séjour
df["LengthOfStay"] = (df["Discharge Date"] - df["Date of Admission"]).dt.days

df.head()


In [None]:
df.describe(include="all")


In [None]:
sns.histplot(df["Age"], kde=True, bins=25)
plt.title("Distribution de l'âge")
plt.show()


In [None]:
sns.countplot(data=df, x="Admission Type",
              order=df["Admission Type"].value_counts().index)
plt.title("Répartition par type d'admission")
plt.xticks(rotation=20)
plt.show()


In [None]:
fig = px.scatter(df, x="LengthOfStay", y="Billing Amount",
                 color="Medical Condition",
                 hover_data=["Name","Hospital"])
fig.show()


In [None]:
### Observations clés
- Le dataset est propre et cohérent.
- L'âge est distribué entre X et Y.
- Les admissions urgentes dominent.
- Certain(e)s conditions ont un coût plus élevé.
- La durée de séjour influence légèrement le coût.
