# Syst√®me Expert M√©dical Complet

Ce notebook pr√©sente la conception, l‚Äôimpl√©mentation et l‚Äôexplication d√©taill√©e d‚Äôun syst√®me expert m√©dical moderne, int√©grant‚ÄØ:
- La collecte multi-sources de donn√©es (SQLite, JSON, API)
- Un pipeline ETL robuste (nettoyage, fusion, validation)
- Des analyses et visualisations avanc√©es
- La fouille de motifs fr√©quents (Apriori, FP-Growth, Eclat)
- Un moteur d‚Äôinf√©rence bas√© sur les r√®gles d‚Äôassociation
- Un syst√®me d‚Äôapprentissage incr√©mental
- Une API Flask pour le diagnostic et l‚Äôapprentissage
- Un d√©ploiement facilit√© par Docker

## üó∫Ô∏è Sch√©ma g√©n√©ral du pipeline

‚ñ∂Ô∏è **Ex√©cuter cette cellule pour afficher le pipeline**

In [3]:
from graphviz import Digraph
dot = Digraph(comment='Pipeline Syst√®me Expert M√©dical', format='png')
dot.attr(rankdir='LR')
dot.node('A', 'Sources de donn√©es\n(SQLite, JSON, API)')
dot.node('B', 'Nettoyage & Fusion')
dot.node('C', 'Donn√©es structur√©es\n(CSV fusionn√©)')
dot.node('D', 'Fouille de motifs\n(Apriori, FP-Growth, Eclat)')
dot.node('E', 'Moteur d\'inf√©rence\nR√®gles d\'association')
dot.node('F', 'API Flask\n(Diagnostic, Apprentissage)')
dot.edges(['AB', 'BC', 'CD', 'DE', 'EF'])
dot.render('pipeline_expert_medical', view=True)
dot

ModuleNotFoundError: No module named 'graphviz'

## 1Ô∏è‚É£ Introduction

La m√©decine moderne s‚Äôappuie de plus en plus sur la donn√©e pour am√©liorer le diagnostic, la prise en charge et la personnalisation des traitements. Ce projet vise √† construire un syst√®me expert m√©dical, capable de‚ÄØ:
- Diagnostiquer √† partir de sympt√¥mes
- Recommander des traitements/m√©dicaments
- Apprendre de nouveaux cas en continu
- √ätre interfa√ßable via une API web

**Justification des choix**‚ÄØ:  
- Multi-sources = richesse et robustesse des connaissances  
- Fouille de motifs = d√©couverte de patterns m√©dicaux pertinents  
- API = int√©gration facile et d√©ploiement cloud

## 2Ô∏è‚É£ Collecte de donn√©es multi-sources

**Sources utilis√©es**‚ÄØ:
- `data/raw/clean_medical_records.csv` : donn√©es structur√©es fusionn√©es
- `data/raw/patients.json` : cas patients non structur√©s
- `data/raw/openfda_meds.csv` : base m√©dicaments (issue d‚ÄôOpenFDA ou √©quivalent)
- (Optionnel) Base SQLite pour historique ou logs

‚ñ∂Ô∏è **RUN** : Charger toutes les sources de donn√©es

In [None]:
import pandas as pd
import json
import sqlite3

# Chargement du CSV fusionn√© (structur√©)
df_structured = pd.read_csv('data/raw/clean_medical_records.csv')
print("Exemple donn√©es structur√©es :")
display(df_structured.head())

# Chargement du JSON (patients non structur√©s)
with open('data/raw/patients.json', 'r', encoding='utf-8') as f:
    patients_json = json.load(f)
print("Exemple patient JSON :")
print(patients_json[0])

# Chargement de la base m√©dicaments
df_meds = pd.read_csv('data/raw/openfda_meds.csv')
print("Exemple m√©dicaments :")
display(df_meds.head())

# (Optionnel) Connexion √† une base SQLite
# conn = sqlite3.connect('data/raw/medical_data.db')
# df_sql = pd.read_sql_query("SELECT * FROM patients", conn)
# print("Exemple donn√©es SQLite :")
# display(df_sql.head())
# conn.close()

## 3Ô∏è‚É£ Nettoyage, fusion et validation des donn√©es

**Explications**‚ÄØ:
- Gestion des valeurs manquantes
- Normalisation des sympt√¥mes (ex‚ÄØ: minuscules, accents, synonymes‚Ä¶)
- Fusion des sources (CSV, JSON, SQLite)
- Validation (unicit√©, coh√©rence, types)

‚ñ∂Ô∏è **RUN** : Nettoyer et fusionner les donn√©es

In [None]:
# Nettoyage des sympt√¥mes (exemple)
def normalize_symptoms(symptom_list):
    import unidecode
    return [unidecode.unidecode(s.lower().strip()) for s in symptom_list]

# Application sur le CSV
df_structured['symptoms_norm'] = df_structured['symptoms'].apply(eval).apply(normalize_symptoms)

# Ajout des patients JSON √† la structure
json_patients_df = pd.DataFrame(patients_json)
json_patients_df['symptoms_norm'] = json_patients_df['symptoms'].apply(normalize_symptoms)

# Fusion (exemple)
df_all = pd.concat([df_structured, json_patients_df], ignore_index=True)
print(f"Nombre total de cas fusionn√©s : {len(df_all)}")
display(df_all.head())

## 4Ô∏è‚É£ Visualisations et analyses descriptives

**Distribution des diagnostics‚ÄØ:**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,4))
sns.countplot(y='diagnosis', data=df_all, order=df_all['diagnosis'].value_counts().index)
plt.title('Distribution des diagnostics')
plt.xlabel('Nombre de cas')
plt.ylabel('Diagnostic')
plt.show()

**Cooccurrence des sympt√¥mes (matrice de chaleur)‚ÄØ:**

‚ñ∂Ô∏è **RUN** : Visualiser la cooccurrence des sympt√¥mes

In [None]:
from itertools import combinations
from collections import Counter
import numpy as np

# Cr√©ation de la matrice de cooccurrence
all_symptoms = [s for sublist in df_all['symptoms_norm'] for s in sublist]
unique_symptoms = list(set(all_symptoms))
symptom_pairs = Counter()

for symptoms in df_all['symptoms_norm']:
    for pair in combinations(sorted(set(symptoms)), 2):
        symptom_pairs[pair] += 1

matrix = np.zeros((len(unique_symptoms), len(unique_symptoms)))
for (s1, s2), count in symptom_pairs.items():
    i, j = unique_symptoms.index(s1), unique_symptoms.index(s2)
    matrix[i, j] = count
    matrix[j, i] = count

plt.figure(figsize=(12,10))
sns.heatmap(matrix, xticklabels=unique_symptoms, yticklabels=unique_symptoms, cmap='YlGnBu')
plt.title('Matrice de cooccurrence des sympt√¥mes')
plt.show()

## 5Ô∏è‚É£ Historique et comparaison des algorithmes de motifs fr√©quents

*(√Ä compl√©ter dans les prochaines cellules‚ÄØ: explications, impl√©mentations, comparaisons)*