# Mise à disposition du jeu de données stroke_dataset via une API REST

## Description du dataset

Le jeu de données utilisé provient de Kaggle : [Stroke Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset).  
Il contient des données de patients avec différentes caractéristiques médicales et sociales, ainsi que l'information si le patient a subi un accident vasculaire cérébral (AVC) ou non.

Télécharger les données et ajouter les dans un dossier data/.

Les colonnes des données sont :  
- `id` : Identifiant unique du patient  
- `gender` : Sexe  
- `age` : Âge  
- `hypertension` : Présence d'hypertension (0 ou 1)  
- `heart_disease` : Présence de maladie cardiaque (0 ou 1)  
- `ever_married` : Statut marital  
- `work_type` : Type d'emploi  
- `Residence_type` : Urbaine ou rurale  
- `avg_glucose_level` : Moyenne du taux de glucose  
- `bmi` : Indice de masse corporelle  
- `smoking_status` : Statut tabagique  
- `stroke` : Présence d'AVC (0 ou 1)

## Projet

Vous devez exposer les données patients du jeu de données via une API REST afin que les données soit utilisables par d'autres équipes (médecins, data science, étude, etc.).

Cette API REST sera développée avec FastAPI et les spécifications sont les suivantes :
| Méthode | Endpoint                                      | Fonctionnalité                                                                                                    |
| ------- | --------------------------------------------- | ----------------------------------------------------------------------------------------------------------------- |
| `GET`   | `/patients/{id}`                              | Récupère les détails d’un patient donné (via son identifiant unique)                                              |
| `GET`   | `/patients?stroke=1&gender=Female&max_age=60` | Renvoie les patients filtrés selon plusieurs critères : AVC (oui/non), genre, âge maximal                         |
| `GET`   | `/stats/`                                     | Fournit des statistiques agrégées sur les patients (ex. : nb total de patients, âge moyen, taux d’AVC, répartition hommes/femmes, etc.) |



---

## Quelques définitions


1. Qu’est-ce qu’une API REST ?

- API signifie Application Programming Interface (Interface de Programmation d’Application). C’est un ensemble de règles et de protocoles qui permettent à des logiciels de communiquer entre eux.
- REST signifie Representational State Transfer. C’est un style architectural pour concevoir des services web.
Il en existe d'autres mais REST est celui que vous rencontrerez le plus souvent.
- Vous avez utilisé une API REST via l'API Google Books.

- A quoi sert une API REST ?

    - Permet à différentes applications de communiquer facilement, même si elles sont écrites dans des langages différents.
    - Permet d’accéder à des services distants (ex : bases de données, services web) de manière standardisée.
    - Facilite la création d’applications modulaires et évolutives (front-end, back-end, mobile, etc.)

2. Principes clés d’une API REST

- a. Utilisation du protocole HTTP
Les échanges entre client et serveur utilisent des méthodes HTTP standard comme :

    - GET : pour récupérer des données
    - POST : pour envoyer ou créer des données
    - PUT : pour mettre à jour des données
    - DELETE : pour supprimer des données

- b. Accès aux ressources via des URLs

Chaque ressource (par exemple un livre, un utilisateur) est accessible via une URL unique.

Exemple fictif:
    https://api.example.com/books/123 pour accéder au livre d’identifiant 123.

- c. Stateless (sans état)

Le serveur ne conserve aucune information sur le client entre deux requêtes. Chaque requête doit contenir toutes les informations nécessaires.

- d. Représentations des données

Les données sont envoyées et reçues généralement en format JSON ou XML, qui sont faciles à lire et à manipuler.

- e. Utilisation de codes status HTTP

Chaque réponse du serveur est accompagnée d’un code HTTP indiquant le résultat de la requête. (cf [liste des codes](https://developer.mozilla.org/en-US/docs/Web/HTTP/Reference/Status))

## Outils utilisés
1. FastAPI

FastAPI est un framework Python moderne, rapide et très utilisé dans le milieu professionnel pour construire des API REST. 

Il permet :
- une définition simple des routes et des paramètres  
- La génération automatique de documentation interactive (Swagger UI)  
- FastAPI lit les requêtes entrantes, les traite avec ton code Python, et retourne une réponse HTTP (en JSON).

2. Uvicorn : exécute l'application FastAPI

- Uvicorn est un serveur ASGI (Asynchronous Server Gateway Interface) : c'est une interface standard pour gérer les requêtes de manière asynchrone et performante, notamment utile pour les applications modernes.
- Il attend les requêtes HTTP (par exemple depuis un navigateur), les transmet à FastAPI, et renvoie la réponse.
- Uvicorn permet à l'API de fonctionner : sans Uvicorn ou un autre serveur, FastAPI ne peut pas fonctionner.


3. Swagger UI : l’interface de doc et test interactive

- Swagger UI est généré automatiquement par FastAPI.
- C’est une interface web qui permet de :
    - Voir toutes les routes disponibles dans l'API
    - Tester les routes en envoyant des requêtes sans écrire de code (bouton try it out)
    - Voir les paramètres attendus et les formats de réponse
    
4. Résumé des interactions

- Tester la route de base de l'API grâce à la commande :
```bash
    poetry run fastapi dev stroke_api/main.py
```

--> Qu'est-ce qu'il se passe derrière cette commande ?

- Uvicorn démarre un serveur local
- FastAPI génère automatiquement une interface : Swagger UI, accessible sur http://127.0.0.1:8000/docs qui affiche toutes les routes définies dans le code python FastAPI
- Quand on clique sur "Try it out" dans Swagger UI, Swagger envoie une requête HTTP au serveur (ici Uvicorn)
- Le serveur (Uvicorn) la reçoit, l’envoie à FastAPI, qui traite et renvoie une réponse
- Swagger UI affiche la réponse de l’API (par ex : liste de patients)

---

Import des bibliothèques utiles au projet

In [None]:
import pandas as pd

## 1. Prétraitement des données / Data preprocessing

Les données réelles sont rarement prêtes à être utilisées directement. Elles peuvent contenir des erreurs, des valeurs manquantes, des doublons, des formats incohérents, ou ne pas être adaptées au modèle ou au système cible.

Le prétraitement consiste à nettoyer, structurer et transformer les données brutes avant de les exploiter dans un projet (modèle IA, API, visualisation, etc.).

Vous avez déjà prétraité des données, petit rappel des éléments sur lesquels travailler dans un prétraitment classique et les méthodes pandas qu'il est possible d'utiliser pour les différentes étapes (des exeples d'utilisation des méthodes pandas sont disponibles dans la doc) : 
- explorer les données pour identifier les types de données, valeurs manquantes, incohérence ([info](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html), [dtypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html))
- adapter les types si nécessaire ([astypes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html))
- identifier les doublons et les supprimer s'il y en a ([duplicated](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html), [drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html))
- traiter les valeurs manquantes s'il y en a ([fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html), [dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html), [replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html))
- identifier les incohérences éventuelles (valeurs aberrantes/outliers) en vérifiant si les valeurs min, max, moyennes sont raisonnables (recherche internet si nécessaire) ([describe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)), et les traiter.
- Traiter les valeurs aberrantes si vous en détectez ([loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) pour récupérer les lignes qui répondent à une certaine condition, cf exemple ci-dessous)


**Exemple df.loc :**

Récupérer toutes les lignes de df telles que la valeur de "nom de colonne" >= 0

```df_subset = df.loc[stroke_data_df['nom de colonne'] >= 0]```



---
### **TODO**
1.a. Prétraiter les données du dataset.


1.b. Documenter dans le README.md :
- Les étapes de prétraitement,
- Justification des choix concernant le traitement des valeurs manquantes (si besoin),
- Liste des valeurs raisonnables utilisées pour détecter les valeurs aberrantes, 
- Justification des choix pour traiter les valeurs aberrantes (si besoin).

2.a. Chercher des infos sur le format de fichier parquet et indiquer les sources consultées : 
- Différence principale avec le format csv ? </br>
Le format parquet transforme les données en binaire, compresse les données (donc moins volumineux), optimal pour traiter un grand nombre de données.
- Dans quels cas l'utiliser ? </br>
Principalement pour le stockage de données tabulaires.
- Pourquoi c'est un format adapté aux gros volumes de données ? </br>
Parce qu'il compresse les données.



2.b. Sauvegarder les données prétraiteées dans un fichier parquet ([to_parquet](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html)).


In [None]:
# Prétraitement de données
df = pd.read_csv("data/healthcare-dataset-stroke-data.csv")
# df.head()
# df.isnull().sum()
df.describe()


In [None]:
# Isolement des données manquantes

df_null = df.loc[df['bmi'].isna()]
# df_null.describe()
df_null_male = df_null.loc[df_null['gender'] == 'Male']
print(df_null_male)

# Imputation des données manquantes par rapport à l'âge, au sexe, au statut SP et taux de glucose
# Etablissement d'une médiane selon ces variables
df_bmi_impute = df.groupby(['gender', 'work_type', 'age', 'avg_glucose_level'])['bmi'].mean()

print(df_bmi_impute)



Données d'âge trop éparses. </br>
- Création d'une fonction qui segmente les âges en catégories
- Création d'une colonne 'age_category'
- Attribution de la catégorie d'âge pour chaque patient
- Calcul de la médiane de chaque category
- Utilisation des résultats pour trouver un imc aux patients n'ayant pas renseignés cette donnée

Données sur le taux de glycémie moyen </br>
- Même procédure qu'avec l'âge: créer trois catégories
- Taux de glucose faible / normal / élevé
- Faible < 90 / Normal <= 125 / Elevé > 126

In [None]:
# Copie du df

df_copy = df.to_csv('stroke_clean.csv')

In [None]:
# Export de la copie csv en dataframe
df_stroke_cleaned = pd.read_csv('stroke_clean.csv')

df_stroke_cleaned

In [None]:
# Fonction pour l'imputation de la catégorie d'âge
def impute_age_category(age):
    if age < 13:
        return 'enfant'
    elif age < 18:
        return 'ado'
    elif age <= 45:
        return 'adulte_21_45'
    elif age <= 65:
        return 'adulte_46_65'
    else:
        return 'senior'

# Création colonne & imputation des patients selon leur âge dans une catégorie d'âge
df_stroke_cleaned['age_category'] = df_stroke_cleaned['age'].apply(impute_age_category)

# AJOUT : imputation du statut fumeur pour les enfants
df_stroke_cleaned.loc[df_stroke_cleaned['age_category'] == 'enfant', 'smoking_status'] = 'never smoked'

# Calcul de la médiane de l'IMC selon la catégorie d'âge
bmi_medians = df_stroke_cleaned.groupby('age_category')['bmi'].median()

# Fonction pour catégoriser le taux de glycémie
def impute_glucose_category(glucose):
    if glucose < 90:
        return 'faible'
    elif glucose <= 125:
        return 'normal'
    else:
        return 'élevé'

# Création colonne & imputation dans les catégories (glycémie)
df_stroke_cleaned['glucose_category'] = df_stroke_cleaned['avg_glucose_level'].apply(impute_glucose_category)

# Calcul de la médiane du BMI selon le genre, statut SP, catégorie d'âge et taux de glycémie
bmi_medians_multi = (
    df_stroke_cleaned.groupby(['gender', 'work_type', 'age_category', 'glucose_category'])['bmi']
    .median()
    .round(1)
    .reset_index()
)


# Fusion avec le dataset nettoyé
df_stroke_cleaned = df_stroke_cleaned.merge(
    bmi_medians_multi,
    on=['gender', 'work_type', 'age_category', 'glucose_category'],
    how='left',
    suffixes=('', '_impute')
)

# Remplacement des valeurs manquantes
df_stroke_cleaned['bmi'] = df_stroke_cleaned['bmi'].fillna(df_stroke_cleaned['bmi_impute'])
df_stroke_cleaned.drop(columns=['bmi_impute'], inplace=True)
df_stroke_cleaned.drop(columns=['Unnamed: 0'], inplace=True)
# Export et vérification
print('Valeur manquantes restantes: ', df_stroke_cleaned['bmi'].isna().sum())
df = df_stroke_cleaned.to_csv('df_final_test.csv')
df = pd.read_csv('df_final_test.csv')
df = df.to_parquet('df_final_test', index=False)


-----
## Développement de l'API

A présent que les données sont propres, on peut débuter la création de l'API.

Pour cela, vous allez avoir besoin de quelques fonctions permettant de filtrer les données.

Vous allez les définir ci-dessous, ce qui vous permettra de les tester puis les fonctions seront reportées dans le fichier filters.py.

## Route `/patients/`
- Cette route retourne une liste filtrée de patients
- On souhaite pouvoir filtrer par `gender`, `stroke` ou `max_age`

L'objectif est ici de définir une fonction python qui prend en entrée les paramètres optionnels : _gender_, *stroke*, *max_age* et qui renvoie un dictionnaire filtré des données.

On décompose la rédaction de cette fonction en plusieurs étapes. 

Dans un premier temps, écrire et tester les filtres que l'on souhaite appliquer sur les données (utiliser [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html))

In [None]:
df = pd.read_csv('df_final_test.csv')
df =df.drop(columns=['Unnamed: 0'])

print(df)

In [None]:
# Filtrer le dataframe pour ne garder que les patients pour lesquels "stroke=1"
stroke = df.loc[df['stroke'] == 1]
print(stroke)

In [None]:
# Filtrer les données pour ne garder que les patients pour lesquels "gender="male"
gender = df.loc[df['gender'] == 'Male']
print(gender)

In [None]:
# Filtrer les données pour ne garder que les patients tels que "age <= max_age"
max_age = df['age'].max()
print(max_age)
df_max_age_patient = df.loc[df['age'] <= max_age]

print(df_max_age_patient)

Appliquer successivement les 3 filtres au sein d'une fonction qui prend en entrée le dataframe, _stroke_, _gender_, _max_age_ et qui renvoie une liste de dictionnaire de patients (utiliser la méthode pandas [to_dict](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_dict.html)).

Exemple
```
[{'id': 9046,
  'gender': 'Male',
  'age': 67.0,
  ...
  'smoking_status': 'formerly smoked',
  'stroke': 1},
 {'id': 31112,
  'gender': 'Male',
  'age': 80.0,
  ...
  'smoking_status': 'formerly smoked',
  'stroke': 1}]
  ```

In [None]:
def filter_patients(df: pd.DataFrame, gender: str, max_age: float, stroke: int) -> list[dict]:
    
    filtered_df = df[
        (df['stroke'] == stroke) &
        (df['gender'] == gender) &
        (df['age'] <= max_age)
    ]

    return filtered_df.to_dict(orient='records')

filtre1 = filter_patients(df, max_age= 80,gender= 'Male', stroke=1)
print(filtre1)





A présent on souhaite ajouter des informations sur les types des paramètres et valeurs de retour de la fonction pour faciliter sa compréhension et son utilisation, ce qu’on appelle l’annotation de type (type hinting).

Cette pratique facilite la lecture et la maintenance du code.

Quels changements pour la fonction ?

A la suite de chaque paramètre, on ajoute le type attendu pour le paramètre. À la suite des paramètres on ajoute le type de ce que qui est retourné par la fonction, dans l'exemple ici : 

```def filter_patient(stroke_data_df: pd.DataFrame, gender: str, etc) -> list[dict]```

Ajouter les types dans la définition de la fonction.

Tester la fonction en ne mettant pas de valeur pour *max_age*.

Que se passe-t-il ? </br>
Ca ne fonctionne plus, voici l'erreur : TypeError: filter_patients() got multiple values for argument 'gender'

In [None]:
def filter_patients(df: pd.DataFrame, gender: str, max_age: float, stroke: int) -> list[dict]:
    
    filtered_df = df[
        (df['stroke'] == stroke) &
        (df['gender'] == gender) &
        (df['age'] <= max_age)
    ]

    return filtered_df.to_dict(orient='records')

filtre1 = filter_patients(df, max_age , gender= 'Male' , stroke=1)
print(filtre1)

Dans la fonction écrite ci-dessus, chaque paramètre est obligatoire. 

On souhaite pouvoir filtrer les patients sur 0, 1 ou 2 des paramètres de la fonction (filtrer seulement sur *max_age*  mais ne pas appliquer de filtres sur _gender_ et _stroke_ par exemple).

On peut rendre optionnel les paramètres d'un fonction en choisissant une valeur par défault. Si on utilise la fonction en n'utilisant pas ces paramètres alors la valeur par défault est utilisé.

Copier coller votre fonction ci-dessous et ajouter en paramètre : `max_age=None`

et ajouter la condition suivante **avant le filtre** sur `max_age` : 

```if max_age is not None : ``` 

Si la fonction _filter_patient_ est appelée sans argument *max_age*, alors le filtre sur *max_age* n'est pas appliqué. 

Il est tout à fait possible de définir une valeur par défault par exemple 30 ans : dans ce cas si la fonction est appelée sans argument *max_age*, alors par défault on filtre les patients ayant moins de 30 ans.

**ATTENTION :** Les paramètres optionnels doivent toujours être à la fin de la liste de paramètres.

In [None]:

# Fonction avec max_age optionnel
def filter_patients(df: pd.DataFrame, gender: str, stroke: int, max_age: float = None) -> list[dict]:
    filtered_df = df[
        (df['stroke'] == stroke) &
        (df['gender'] == gender)
    ]

    if max_age is not None:
        filtered_df = filtered_df[filtered_df['age'] <= max_age]

    return filtered_df.to_dict(orient='records')

# Appel de la fonction
patients = filter_patients(df, gender='Male', stroke=1, max_age=30)
print(patients)
# # Affichage de chaque entrée
# print("Patients filtrés :")
# for patient in patients:
#     print(patient)

In [None]:
# test fonction sans argument max_age
# Fonction avec max_age optionnel
def filter_patients(df: pd.DataFrame, gender: str, stroke: int, max_age: float = None) -> list[dict]:
    filtered_df = df[
        (df['stroke'] == stroke) &
        (df['gender'] == gender)
    ]

    if max_age is not None:
        filtered_df = filtered_df[filtered_df['age'] <= max_age]

    return filtered_df.to_dict(orient='records')

# Appel de la fonction
patients = filter_patients(df, gender='Male', stroke=1)
print(patients)

Ajouter des valeurs par défault et les conditions pour chaque filtre.

Pour les types, on indique qu'il s'agit de paramètres optionels en utilisant le module python _typing_

```
from typing import Optional
def filter_patient(stroke_data_df: pd.DataFrame, gender: Optional[str] = None,etc)
```

Adapter les types en utilisant ce modèle.

In [None]:
# fonction avec ajout de paramètres par défault et de type
from typing import Optional
def filter_patient(stroke_data_df: pd.DataFrame, stroke: Optional[int] = None, gender: Optional[str] = None, max_age: Optional[int] = None):
    filtered_df = stroke_data_df.copy()
    if max_age is not None:
        filtered_df = filtered_df[filtered_df['age'] <= max_age]
    if stroke is not None:
        filtered_df = filtered_df[filtered_df['stroke'] == stroke]
    if gender is not None:
        filtered_df = filtered_df[filtered_df['gender'] == gender]
    return filtered_df.to_dict(orient='records')


Tester la fonction sans argument pour les filtres, elle doit donc renvoyer le dataframe non filtré.

In [None]:
# test fonction sans argument pour les filtres

from typing import Optional
def filter_patient(stroke_data_df: pd.DataFrame, stroke: Optional[int] = None, gender: Optional[str] = None, max_age: Optional[int] = None):
    filtered_df = stroke_data_df.copy()
    if max_age is not None:
        filtered_df = filtered_df[filtered_df['age'] <= max_age]
    if stroke is not None:
        filtered_df = filtered_df[filtered_df['stroke'] == stroke]
    if gender is not None:
        filtered_df = filtered_df[filtered_df['gender'] == gender]
    return filtered_df.to_dict(orient='records')

patient = filter_patient(df)
print(patient)

Cette fonction va être utilisée dans la définition de l'API pour créer une route qui permette d'accéder à des données filtrées sur les patients.

Dans le fichier de définition de l'API, toutes les fonctions vont travailler sur les données du fichier. 

Pour alléger les fonctions on va donc utiliser une **variable globale** pour les données et supprimer le paramètre `df` de la fonction.

On lit les données en début de fichier puis on travaille au sein des fonctions sur une copie du dataframe de données.


**En résumé les modifications à faire sont :**


- Supprimer le paramètre df de la fonction,
- Ajouter en début de fonction :  
```df = stroke_data_df.copy()```

1. Dans le fichier filters.py, il suffit d'ajouter : 
- lecture du fichier de données prétraitée dans la variable *df* en début de fichier (utiliser pandas),
- @app.get("/patients/") pour définir le route,
puis la fonction.

2. Dans le fichier api.py: appeler la fonction dans la route correspondante.

Tester la route avec 

```poetry run fastapi dev stroke_api/main.py```

http://127.0.0.1:8000/docs : utiliser la fonctionnalité Try it out pour tester la route.

---
## Autres routes

De la même manière, créer les fonctions appropriées pour la création de :
- la route `/patients/{id}` : Récupère les détails d’un patient donné (via son identifiant unique) 

- la route `/stats/` : Fournit des statistiques agrégées sur les patients (ex. : nb total de patients, âge moyen, taux d’AVC, répartition hommes/femmes).

- Lister les tâches à faire sous forme d'issue github : travailler sur une branche différentes pour l'ajout de chacune des routes.