## üè• √âtude de cas : Analyse du parcours patient et pr√©diction des r√©sultats m√©dicaux

üéØ **Objectif** : √âtudier les facteurs influen√ßant les co√ªts de soins, la dur√©e d‚Äôhospitalisation et les r√©sultats m√©dicaux (`Test Results`) afin d‚Äôidentifier des tendances pertinentes dans la gestion hospitali√®re.

Le dataset contient des donn√©es synth√©tiques de patients hospitalis√©s, incluant des informations personnelles, cliniques, financi√®res et administratives.


In [1]:
# üì¶ Import des biblioth√®ques essentielles
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind, f_oneway
import warnings
warnings.filterwarnings("ignore")

# üéØ Chargement du dataset
df = pd.read_csv("healthcare_dataset.csv")

# üßπ Nettoyage initial (si besoin)
df.columns = df.columns.str.strip()  # Suppression des espaces en trop dans les noms de colonnes

# üïí Conversion des dates
df["Date of Admission"] = pd.to_datetime(df["Date of Admission"])
df["Discharge Date"] = pd.to_datetime(df["Discharge Date"])

# üßÆ Cr√©ation d'une variable d√©riv√©e : dur√©e d'hospitalisation
df["Hospital Stay (Days)"] = (df["Discharge Date"] - df["Date of Admission"]).dt.days

# üîé Aper√ßu rapide
df.head()

Unnamed: 0,Name,Age,Gender,Blood Type,Medical Condition,Date of Admission,Doctor,Hospital,Insurance Provider,Billing Amount,Room Number,Admission Type,Discharge Date,Medication,Test Results,Hospital Stay (Days)
0,Bobby JacksOn,30,Male,B-,Cancer,2024-01-31,Matthew Smith,Sons and Miller,Blue Cross,18856.281306,328,Urgent,2024-02-02,Paracetamol,Normal,2
1,LesLie TErRy,62,Male,A+,Obesity,2019-08-20,Samantha Davies,Kim Inc,Medicare,33643.327287,265,Emergency,2019-08-26,Ibuprofen,Inconclusive,6
2,DaNnY sMitH,76,Female,A-,Obesity,2022-09-22,Tiffany Mitchell,Cook PLC,Aetna,27955.096079,205,Emergency,2022-10-07,Aspirin,Normal,15
3,andrEw waTtS,28,Female,O+,Diabetes,2020-11-18,Kevin Wells,"Hernandez Rogers and Vang,",Medicare,37909.78241,450,Elective,2020-12-18,Ibuprofen,Abnormal,30
4,adrIENNE bEll,43,Female,AB+,Cancer,2022-09-19,Kathleen Hanna,White-White,Aetna,14238.317814,458,Urgent,2022-10-09,Penicillin,Abnormal,20


## üü® Partie 1 ‚Äì Statistiques univari√©es : `Billing Amount`

### üìò Notion
Analyse descriptive d‚Äôune variable quantitative (`Billing Amount`) √† l‚Äôaide d‚Äôindicateurs classiques :
- Moyenne, m√©diane, mode
- Variance, √©cart-type
- Intervalle interquartile (IQR)
- √âtendue (√©cart entre valeur max et min)

### üéØ Objectif dans l‚Äô√©tude
Le `Billing Amount` correspond au montant total factur√© √† un patient.  
L‚Äôobjectif ici est de :
- R√©sumer la **distribution des co√ªts**,
- Identifier **la variabilit√©**,
- D√©tecter d‚Äô√©ventuelles **valeurs extr√™mes**,
- Pr√©parer les futures comparaisons par groupe (√¢ge, genre, type d‚Äôadmission...).



### üßÆ Formules math√©matiques utilis√©es

$$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad \text{(Moyenne)}
$$

$$
s^2 = \frac{1}{n - 1} \sum_{i=1}^{n}(x_i - \bar{x})^2 \quad \text{(Variance)}
$$

$$
s = \sqrt{s^2} \quad \text{(√âcart\text{-}type)}
$$

$$
\text{IQR} = Q_3 - Q_1
$$

$$
\text{√âtendue} = x_{\text{max}} - x_{\text{min}}
$$


In [4]:
# üìä Statistiques descriptives sur Billing Amount
billing_amount = df["Billing Amount"].dropna()

billing_stats = {
    "Moyenne": round(billing_amount.mean(), 2),
    "M√©diane": round(billing_amount.median(), 2),
    "Mode": round(billing_amount.mode()[0], 2),
    "Variance": round(billing_amount.var(), 2),
    "√âcart-type": round(billing_amount.std(), 2),
    "Minimum": round(billing_amount.min(), 2),
    "Maximum": round(billing_amount.max(), 2),
    "IQR": round(billing_amount.quantile(0.75) - billing_amount.quantile(0.25), 2)
}

billing_stats


{'Moyenne': np.float64(25539.32),
 'M√©diane': np.float64(25538.07),
 'Mode': np.float64(-1316.62),
 'Variance': np.float64(201965437.04),
 '√âcart-type': np.float64(14211.45),
 'Minimum': np.float64(-2008.49),
 'Maximum': np.float64(52764.28),
 'IQR': np.float64(24579.28)}

### üìä Interpr√©tation

- **Moyenne** ‚âà 25 539 ‚Ç¨ et **m√©diane** ‚âà 25 538 ‚Ç¨ ‚Üí les deux sont presque identiques, ce qui indique une **distribution relativement sym√©trique** du `Billing Amount`.

- **√âcart-type** ‚âà 14 211 ‚Ç¨ ‚Üí cela montre une **grande dispersion** des montants factur√©s. Les patients ne paient donc pas tous le m√™me niveau de soin : certaines factures sont bien plus √©lev√©es que d'autres.

- **Variance** tr√®s √©lev√©e (~ 20 millions) ‚Üí accentue l'id√©e d'une **variabilit√© importante**, attendue pour des donn√©es mon√©taires.

- **IQR** ‚âà 24 579 ‚Ç¨ ‚Üí les 50 % des valeurs centrales sont dispers√©es sur un intervalle tr√®s large, ce qui montre une **h√©t√©rog√©n√©it√© significative** entre les patients.

- **Maximum** = 52 764 ‚Ç¨ et **minimum** = -2 008 ‚Ç¨ ‚Üí la valeur n√©gative est **incoh√©rente** dans ce contexte (on ne rembourse pas au patient), ce qui sugg√®re soit une **valeur aberrante**, soit une **erreur de saisie**. √Ä corriger ou supprimer en Partie 5.

- **Mode** = -1 316 ‚Ç¨ ‚Üí invraisemblable, probablement d√ª √† une **anomalie ou √† un regroupement de valeurs aberrantes**.

üìå **Conclusion** :
- La variable `Billing Amount` pr√©sente une **tr√®s forte dispersion** et probablement des **valeurs anormales**.
- Ces √©l√©ments justifient une **analyse compl√©mentaire sur les valeurs extr√™mes** (Partie 5) ainsi que des **comparaisons par groupe** pour identifier des causes structurelles.


## üü© Partie 2 ‚Äì Corr√©lation entre `Age` et `Billing Amount`

### üìò Notion
Analyse bivari√©e entre deux variables quantitatives : **√¢ge du patient** et **montant factur√©**.  
On utilise le **coefficient de corr√©lation de Pearson (r)** pour mesurer la **force et la direction** de la relation lin√©aire entre ces deux variables.

---

### üéØ Objectif dans l‚Äô√©tude
Cette analyse permet de :
- Identifier si l‚Äô**√¢ge** a un impact sur le **co√ªt des soins**,
- V√©rifier s‚Äôil existe une **tendance** (ex. : plus √¢g√© = plus co√ªteux ?),
- Aider √† expliquer les **facteurs pr√©dictifs des co√ªts** dans les parties futures (ex. : mod√©lisation).


### üßÆ Formule de la corr√©lation de Pearson

$$
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}
         {\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}
$$

o√π :
- \( x_i \) : les √¢ges des patients
- \( y_i \) : les montants factur√©s
- \( r \in [-1, 1] \) : coefficient de corr√©lation lin√©aire


In [5]:
# üìä Corr√©lation entre Age et Billing Amount
correlation_df = df[["Age", "Billing Amount"]].dropna()
correlation = correlation_df.corr().loc["Age", "Billing Amount"]
correlation


np.float64(-0.0038319421186176848)

### üìä Interpr√©tation du r√©sultat

- Le coefficient de corr√©lation \( r \approx -0.0038 \) indique une **quasi-absence de lien lin√©aire** entre l‚Äô√¢ge des patients et le montant factur√© (`Billing Amount`).

- Cette valeur est extr√™mement proche de z√©ro, ce qui signifie que **l'√¢ge ne permet pas d'expliquer la variation du co√ªt des soins** dans ce dataset.

- Il n‚Äôy a **ni tendance croissante ni d√©croissante** claire : des patients jeunes peuvent √™tre tr√®s co√ªteux, tout comme des patients √¢g√©s peuvent ne pas l‚Äô√™tre du tout.

- Cela peut s‚Äôexpliquer par le fait que le **co√ªt d√©pend davantage de la pathologie**, de la dur√©e d'hospitalisation, ou du type d‚Äôadmission plut√¥t que de l‚Äô√¢ge seul.

üìå **Conclusion** :
- Cette variable ne sera **pas utile comme pr√©dicteur principal** du co√ªt dans une mod√©lisation lin√©aire simple.
- Elle reste n√©anmoins int√©ressante √† croiser **avec d'autres variables**, comme le `Medical Condition` ou le `Type d‚Äôadmission`.
