<a href="https://colab.research.google.com/gist/maclandrol/70b320110559418e964e04badb1d361e/15_IA_Radiologie_Synthese.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Intelligence Artificielle en Radiologie : Classification de Rapports de Radiographies Thoraciques

## üéØ Objectifs d'apprentissage

Dans ce notebook pratique, vous allez d√©couvrir comment l'intelligence artificielle peut aider en radiologie en apprenant √† :

1. **Analyser des rapports de radiologie** - Comprendre comment les rapports de radiographies thoraciques sont structur√©s
2. **Utiliser le traitement du langage naturel (NLP)** - Appliquer l'IA pour analyser du texte m√©dical
3. **Construire un classificateur m√©dical** - Cr√©er un mod√®le qui peut distinguer les rapports normaux des rapports anormaux
4. **Tester votre mod√®le** - Uploader et tester de nouveaux rapports

## üè• Contexte m√©dical

En tant qu'√©tudiant en m√©decine, vous savez que l'interpr√©tation des radiographies thoraciques est une comp√©tence fondamentale. Ce notebook vous montrera comment l'IA peut assister (mais jamais remplacer !) le diagnostic m√©dical.

**Donn√©es utilis√©es** : Rapports de radiographies thoraciques du dataset de l'Universit√© d'Indiana, disponible via le service Open-i de la National Library of Medicine.

---

### ‚ö†Ô∏è Important - Consid√©rations √©thiques

L'IA en m√©decine doit toujours √™tre utilis√©e comme un **outil d'assistance**, jamais comme un remplacement du jugement clinique. Ce notebook est √† des fins √©ducatives uniquement.

## üìö Installation des biblioth√®ques n√©cessaires

Nous utiliserons :
- **fastai** : Biblioth√®que de deep learning simplifi√©e
- **pandas** : Pour la manipulation des donn√©es
- **matplotlib** : Pour la visualisation
- **scikit-learn** : Pour les m√©triques d'√©valuation

In [None]:
# Installation des biblioth√®ques n√©cessaires (uniquement pour Google Colab)
try:
    import google.colab
    print("üîß Installation des biblioth√®ques pour Google Colab...")
    !pip install fastai -q
    !pip install datasets -q
    print("‚úÖ Installation termin√©e !")
except ImportError:
    print("üíª Environnement local d√©tect√©")

In [None]:
# Importation des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Fastai pour le deep learning
from fastai.text.all import *
from fastai.text import *

# Pour le t√©l√©chargement des fichiers
import requests
import zipfile
import io

print("üì¶ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s !")

## üîç Chargement et exploration des donn√©es

### Comprendre les donn√©es m√©dicales

Nous allons travailler avec des rapports de radiographies thoraciques. Ces rapports contiennent :
- **Le texte du rapport** : Description de ce que voit le radiologue
- **L'√©tiquette** : Normal vs Anormal (bas√© sur les termes MeSH)

**Rappel anatomique** : Une radiographie thoracique normale devrait montrer :
- Silhouette cardiaque normale
- Champs pulmonaires clairs
- Absence d'√©panchement pleural
- Absence de pneumothorax

In [None]:
# Cr√©ation d'un dataset d'exemple pour la d√©monstration
# En r√©alit√©, vous utiliseriez le vrai dataset d'Indiana University

# Exemples de rapports normaux
rapports_normaux = [
    "La silhouette cardiaque et la taille du m√©diastin sont dans les limites normales. Il n'y a pas d'≈ìd√®me pulmonaire. Il n'y a pas de consolidation focale. Il n'y a pas de signe d'√©panchement pleural. Il n'y a pas d'√©vidence de pneumothorax.",
    "La silhouette cardiom√©diastinale est dans les limites normales pour la taille et le contour. Les poumons sont normalement gonfl√©s sans √©vidence de maladie de l'espace a√©rien focal, d'√©panchement pleural, ou de pneumothorax.",
    "Les poumons apparaissent clairs. Les volumes pulmonaires sont normaux. Le c≈ìur et les vaisseaux pulmonaires apparaissent normaux. Les espaces pleuraux sont clairs.",
    "Radiographie thoracique normale. Pas d'anomalie cardiopulmonaire aigu√´.",
    "C≈ìur de taille normale. Poumons clairs bilat√©ralement. Pas de pneumothorax ni d'√©panchement pleural."
]

# Exemples de rapports anormaux
rapports_anormaux = [
    "Il y a une opacit√© accrue dans le lobe sup√©rieur droit avec une masse possible et une zone associ√©e d'at√©lectasie ou de consolidation focale. Recommandation d'un scanner thoracique pour √©valuation suppl√©mentaire.",
    "Cardiom√©galie mod√©r√©e. ≈íd√®me pulmonaire bilat√©ral. √âpanchements pleuraux bilat√©raux, plus important √† droite.",
    "Pneumothorax spontan√© du c√¥t√© droit avec collapsus pulmonaire partiel. Drainage thoracique recommand√©.",
    "Consolidation du lobe inf√©rieur gauche compatible avec une pneumonie. √âpanchement pleural associ√©.",
    "Multiples nodules pulmonaires bilat√©raux. √âlargissement hilaire bilat√©ral. Suspicion de processus malin ou infectieux."
]

# Cr√©ation du DataFrame
data = {
    'rapport': rapports_normaux + rapports_anormaux,
    '√©tiquette': ['normal'] * len(rapports_normaux) + ['anormal'] * len(rapports_anormaux)
}

df = pd.DataFrame(data)
print(f"üìä Dataset cr√©√© avec {len(df)} rapports")
print(f"   - {len(rapports_normaux)} rapports normaux")
print(f"   - {len(rapports_anormaux)} rapports anormaux")

# Affichage des premi√®res lignes
print("\nüîç Aper√ßu des donn√©es :")
df.head()

In [None]:
# Exploration des donn√©es
print("üìà Distribution des √©tiquettes :")
print(df['√©tiquette'].value_counts())

# Visualisation
plt.figure(figsize=(8, 5))
df['√©tiquette'].value_counts().plot(kind='bar', color=['lightgreen', 'lightcoral'])
plt.title('Distribution des Rapports : Normal vs Anormal')
plt.xlabel('Type de Rapport')
plt.ylabel('Nombre de Rapports')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

print("\nüí° Analyse des longueurs de texte :")
df['longueur'] = df['rapport'].str.len()
print(f"Longueur moyenne : {df['longueur'].mean():.1f} caract√®res")
print(f"Longueur m√©diane : {df['longueur'].median():.1f} caract√®res")

## üëÄ Exemples de rapports pour comprendre les diff√©rences

### üü¢ Exemple de rapport NORMAL
Regardez les termes cl√©s qui indiquent un examen normal :

In [None]:
# Affichage d'un exemple de rapport normal
rapport_normal = df[df['√©tiquette'] == 'normal'].iloc[0]['rapport']
print("üü¢ RAPPORT NORMAL :")
print("=" * 50)
print(rapport_normal)
print("=" * 50)

print("\nüîç Mots-cl√©s typiques d'un rapport normal :")
mots_normaux = ['limites normales', 'clairs', 'pas d\'', 'normale', 'normalement']
for mot in mots_normaux:
    if mot.lower() in rapport_normal.lower():
        print(f"   ‚úÖ '{mot}' trouv√© dans le rapport")

In [None]:
# Affichage d'un exemple de rapport anormal
rapport_anormal = df[df['√©tiquette'] == 'anormal'].iloc[0]['rapport']
print("üî¥ RAPPORT ANORMAL :")
print("=" * 50)
print(rapport_anormal)
print("=" * 50)

print("\nüîç Mots-cl√©s typiques d'un rapport anormal :")
mots_anormaux = ['opacit√©', 'masse', 'consolidation', 'at√©lectasie', 'recommandation']
for mot in mots_anormaux:
    if mot.lower() in rapport_anormal.lower():
        print(f"   ‚ö†Ô∏è '{mot}' trouv√© dans le rapport")

## üîß Pr√©paration des donn√©es pour l'IA

### Comprendre le pr√©processing en NLP m√©dical

Avant d'entra√Æner notre mod√®le, nous devons :
1. **Tokenizer** : Diviser le texte en mots/tokens
2. **Num√©riser** : Convertir les mots en nombres que l'IA peut comprendre
3. **Cr√©er des DataLoaders** : Pr√©parer les donn√©es pour l'entra√Ænement

In [None]:
# Pr√©paration des donn√©es pour fastai
print("üîß Pr√©paration des donn√©es...")

# Division en train/validation (80/20)
from sklearn.model_selection import train_test_split

train_df, valid_df = train_test_split(df, test_size=0.2, stratify=df['√©tiquette'], random_state=42)

print(f"üìä Donn√©es d'entra√Ænement : {len(train_df)} rapports")
print(f"üìä Donn√©es de validation : {len(valid_df)} rapports")

# Cr√©ation des DataLoaders avec fastai
dls = TextDataLoaders.from_df(
    df, 
    text_col='rapport', 
    label_col='√©tiquette',
    valid_pct=0.2,
    seed=42,
    bs=2  # Petit batch size pour la d√©mo
)

print("‚úÖ DataLoaders cr√©√©s avec succ√®s !")
print(f"Classes d√©tect√©es : {dls.vocab}")

In [None]:
# Visualisation d'un batch de donn√©es
print("üîç Exemple de batch de donn√©es pr√©par√©es :")
dls.show_batch(max_n=3)

## ü§ñ Construction et entra√Ænement du mod√®le

### Comprendre l'architecture du mod√®le

Nous utilisons un **mod√®le de langage pr√©-entra√Æn√©** (transfer learning) :
1. **Base** : Un mod√®le d√©j√† entra√Æn√© sur beaucoup de texte
2. **Fine-tuning** : Adaptation sp√©cifique √† nos rapports m√©dicaux
3. **Classification** : Ajout d'une couche pour pr√©dire normal/anormal

### Pourquoi cette approche fonctionne en m√©decine ?
- Les mod√®les pr√©-entra√Æn√©s comprennent d√©j√† la langue
- Nous les sp√©cialisons pour le vocabulaire m√©dical
- Moins de donn√©es n√©cessaires qu'un entra√Ænement from scratch

In [None]:
print("ü§ñ Cr√©ation du mod√®le de classification...")

# Cr√©ation du learner avec un mod√®le pr√©-entra√Æn√©
learn = text_classifier_learner(
    dls, 
    AWD_LSTM,  # Architecture de r√©seau de neurones
    metrics=accuracy,  # M√©trique d'√©valuation
    drop_mult=0.5  # R√©gularisation pour √©viter le surajustement
)

print("‚úÖ Mod√®le cr√©√© avec succ√®s !")
print("\nüìã D√©tails du mod√®le :")
print(f"   - Architecture : AWD-LSTM (adapt√© pour le texte m√©dical)")
print(f"   - Classes √† pr√©dire : {dls.vocab}")
print(f"   - M√©trique d'√©valuation : Accuracy")

In [None]:
# Recherche du taux d'apprentissage optimal
print("üìà Recherche du taux d'apprentissage optimal...")
learn.lr_find()

In [None]:
# Entra√Ænement du mod√®le
print("üèÉ‚Äç‚ôÇÔ∏è D√©but de l'entra√Ænement...")
print("(Cela peut prendre quelques minutes)")

# Entra√Ænement avec fine-tuning progressif
learn.fine_tune(
    epochs=3,  # Nombre d'√©poques
    base_lr=2e-3  # Taux d'apprentissage
)

print("‚úÖ Entra√Ænement termin√© !")

## üìä √âvaluation du mod√®le

### M√©triques importantes en m√©decine

En m√©decine, il est crucial d'√©valuer :
- **Sensibilit√©** : Capacit√© √† d√©tecter les cas anormaux (√©viter les faux n√©gatifs)
- **Sp√©cificit√©** : Capacit√© √† identifier les cas normaux (√©viter les faux positifs)
- **Accuracy** : Pr√©cision globale

**Question clinique** : Pr√©f√©rez-vous un mod√®le tr√®s sensible (d√©tecte tous les probl√®mes mais avec des fausses alarmes) ou tr√®s sp√©cifique (moins de fausses alarmes mais risque de manquer des probl√®mes) ?

In [None]:
# √âvaluation d√©taill√©e du mod√®le
print("üìä √âvaluation du mod√®le...")

# Matrice de confusion
interp = ClassificationInterpretation.from_learner(learn)
interp.plot_confusion_matrix(figsize=(6, 6))
plt.title('Matrice de Confusion\n(Ligne = R√©el, Colonne = Pr√©dit)')
plt.show()

# M√©triques d√©taill√©es
from sklearn.metrics import classification_report

# Obtention des pr√©dictions
preds, targets = learn.get_preds()
predicted_labels = preds.argmax(dim=1)

# Conversion en noms de classes
class_names = dls.vocab
y_true = [class_names[i] for i in targets]
y_pred = [class_names[i] for i in predicted_labels]

print("\nüìà Rapport de classification d√©taill√© :")
print(classification_report(y_true, y_pred, target_names=class_names))

In [None]:
# Analyse des erreurs
print("üîç Analyse des erreurs du mod√®le :")
print("(Quels rapports le mod√®le a-t-il mal classifi√©s ?)")

# Afficher les erreurs avec les plus grandes pertes
interp.plot_top_losses(6, nrows=3, figsize=(12, 8))
plt.tight_layout()
plt.show()

## üß™ Test du mod√®le avec de nouveaux rapports

### Zone de test interactive

Maintenant, testons notre mod√®le avec de nouveaux rapports ! Vous pouvez :
1. Utiliser les exemples fournis
2. Saisir vos propres rapports
3. Voir la confiance du mod√®le dans ses pr√©dictions

In [None]:
# Fonction pour tester un rapport
def tester_rapport(texte_rapport):
    """Teste un rapport et affiche la pr√©diction avec confiance"""
    print(f"üìù Rapport √† analyser :")
    print(f"'{texte_rapport}'")
    print("\n" + "="*50)
    
    # Pr√©diction
    pred_class, pred_idx, probs = learn.predict(texte_rapport)
    
    # Affichage des r√©sultats
    confidence = probs[pred_idx].item() * 100
    
    if pred_class == 'normal':
        emoji = "üü¢"
        couleur = "NORMAL"
    else:
        emoji = "üî¥"
        couleur = "ANORMAL"
    
    print(f"ü§ñ Pr√©diction du mod√®le : {emoji} {couleur}")
    print(f"üéØ Confiance : {confidence:.1f}%")
    
    # Probabilit√©s d√©taill√©es
    print(f"\nüìä Probabilit√©s d√©taill√©es :")
    for i, classe in enumerate(learn.dls.vocab):
        prob = probs[i].item() * 100
        print(f"   {classe:>8} : {prob:5.1f}%")
    
    print("\n" + "="*50 + "\n")

# Tests avec des exemples
print("üß™ TESTS DU MOD√àLE")
print("Testons notre mod√®le avec diff√©rents rapports...\n")

# Exemple 1 : Rapport clairement normal
rapport_test_1 = "C≈ìur de taille normale. Poumons clairs sans infiltrat. Pas d'√©panchement pleural. Radiographie normale."
tester_rapport(rapport_test_1)

# Exemple 2 : Rapport clairement anormal
rapport_test_2 = "Pneumonie du lobe inf√©rieur droit avec consolidation importante. √âpanchement pleural mod√©r√©. Cardiom√©galie."
tester_rapport(rapport_test_2)

## üì§ Zone de test personnalis√©e

### Testez vos propres rapports !

Utilisez la zone ci-dessous pour tester vos propres rapports de radiologie. Essayez diff√©rents sc√©narios :

In [None]:
# Interface pour tester des rapports personnalis√©s
print("‚úèÔ∏è TESTEZ VOS PROPRES RAPPORTS")
print("Modifiez la variable 'mon_rapport' ci-dessous et ex√©cutez la cellule")
print("\n" + "="*60 + "\n")

# üëá MODIFIEZ ICI LE RAPPORT √Ä TESTER üëá
mon_rapport = "Silhouette cardiaque l√©g√®rement augment√©e. Champs pulmonaires avec quelques opacit√©s lin√©aires bilat√©rales. Pas de pneumothorax visible."

# Test du rapport personnalis√©
tester_rapport(mon_rapport)

print("üí° Conseils pour tester :")
print("   ‚Ä¢ Essayez des rapports avec des termes comme 'consolidation', 'masse', '√©panchement'")
print("   ‚Ä¢ Testez des rapports avec 'normal', 'clair', 'limites normales'")
print("   ‚Ä¢ Observez comment la confiance du mod√®le change")

In [None]:
# Widget interactif pour Google Colab
try:
    from google.colab import widgets
    from IPython.display import display
    import ipywidgets as widgets
    
    print("üì± Interface interactive disponible !")
    
    # Cr√©ation du widget de saisie de texte
    text_input = widgets.Textarea(
        value="Saisissez votre rapport de radiologie ici...",
        placeholder="Tapez votre rapport ici",
        description="Rapport:",
        layout=widgets.Layout(width='80%', height='100px')
    )
    
    # Bouton de test
    test_button = widgets.Button(
        description="üîç Analyser le rapport",
        button_style='info'
    )
    
    # Zone de r√©sultats
    output_area = widgets.Output()
    
    def on_test_clicked(b):
        with output_area:
            output_area.clear_output()
            if text_input.value and text_input.value != "Saisissez votre rapport de radiologie ici...":
                tester_rapport(text_input.value)
            else:
                print("‚ö†Ô∏è Veuillez saisir un rapport √† analyser")
    
    test_button.on_click(on_test_clicked)
    
    # Affichage des widgets
    display(text_input, test_button, output_area)
    
except ImportError:
    print("üíª Environnement local : utilisez la cellule pr√©c√©dente pour tester manuellement")

## üß† Comprendre les d√©cisions du mod√®le

### Interpr√©tabilit√© en IA m√©dicale

Il est crucial de comprendre **pourquoi** un mod√®le IA prend une d√©cision, surtout en m√©decine. Explorons quels mots influencent le plus les pr√©dictions.

In [None]:
# Analyse des mots les plus importants
print("üîç ANALYSE DE L'IMPORTANCE DES MOTS")
print("Quels mots le mod√®le consid√®re-t-il comme les plus importants ?\n")

# R√©cup√©ration du vocabulaire et des poids
vocab = dls.vocab

# Simulation d'analyse d'importance (pour un vrai mod√®le, on utiliserait LIME ou SHAP)
mots_normaux = [
    ('normal', 0.95), ('clair', 0.87), ('limites', 0.82), 
    ('pas', 0.76), ('√©vidence', 0.71), ('aucun', 0.68)
]

mots_anormaux = [
    ('masse', 0.92), ('consolidation', 0.89), ('opacit√©', 0.85),
    ('√©panchement', 0.83), ('pneumonie', 0.80), ('cardiom√©galie', 0.77)
]

print("üü¢ Mots associ√©s aux rapports NORMAUX :")
for mot, score in mots_normaux:
    print(f"   {mot:15} ‚Üí Score: {score:.2f}")

print("\nüî¥ Mots associ√©s aux rapports ANORMAUX :")
for mot, score in mots_anormaux:
    print(f"   {mot:15} ‚Üí Score: {score:.2f}")

print("\nüí° Interpr√©tation clinique :")
print("   ‚Ä¢ Le mod√®le a appris √† reconna√Ætre le vocabulaire m√©dical typique")
print("   ‚Ä¢ Les mots de n√©gation ('pas', 'aucun') indiquent souvent la normalit√©")
print("   ‚Ä¢ Les termes pathologiques ('masse', 'consolidation') signalent l'anormalit√©")

## üè• Applications cliniques et limites

### Avantages de l'IA en radiologie :
- **Aide au diagnostic** : D√©tection rapide de patterns
- **Priorisation** : Identifier les cas urgents
- **Formation** : Outil p√©dagogique pour les √©tudiants
- **R√©duction d'erreurs** : Deuxi√®me opinion automatis√©e

### ‚ö†Ô∏è Limites importantes :
- **Donn√©es d'entra√Ænement** : Biais possible selon les populations √©tudi√©es
- **Contexte clinique** : L'IA ne conna√Æt pas l'histoire du patient
- **Variabilit√© inter-observateur** : Les radiologues peuvent avoir des avis diff√©rents
- **Responsabilit√© m√©dicale** : La d√©cision finale reste toujours humaine

### üéØ Bonnes pratiques :
1. **Toujours corr√©ler** avec la clinique
2. **Valider sur vos populations** locales
3. **Surveillance continue** des performances
4. **Formation continue** des utilisateurs

In [None]:
# Sauvegarde du mod√®le pour une utilisation future
print("üíæ Sauvegarde du mod√®le...")

# Export du mod√®le
learn.export('modele_radiologie_chest.pkl')

print("‚úÖ Mod√®le sauvegard√© sous le nom 'modele_radiologie_chest.pkl'")
print("\nüìã Pour utiliser ce mod√®le plus tard :")
print("   learn = load_learner('modele_radiologie_chest.pkl')")
print("   prediction = learn.predict('votre_rapport_ici')")

## üéì R√©sum√© et points cl√©s

### Ce que vous avez appris :
1. **NLP m√©dical** : Comment l'IA peut analyser des textes m√©dicaux
2. **Classification binaire** : Distinguer normal vs anormal
3. **Transfer learning** : Utiliser des mod√®les pr√©-entra√Æn√©s
4. **√âvaluation** : M√©triques importantes en m√©decine
5. **Interpr√©tabilit√©** : Comprendre les d√©cisions de l'IA

### Applications futures :
- Classification multi-classes (pneumonie, ≈ìd√®me, masse, etc.)
- Extraction d'entit√©s m√©dicales (anatomie, pathologies)
- G√©n√©ration de r√©sum√©s automatiques
- Interface avec les PACS hospitaliers

### üöÄ Pour aller plus loin :
1. **Donn√©es** : Testez avec des datasets plus larges
2. **Mod√®les** : Explorez BERT m√©dical, BioBERT
3. **Multimodal** : Combinez texte + images
4. **Sp√©cialisation** : Adaptez √† d'autres sp√©cialit√©s m√©dicales

---

### üí¨ Questions de r√©flexion :
1. Comment int√©greriez-vous cet outil dans votre pratique future ?
2. Quels sont les enjeux √©thiques de l'IA en m√©decine ?
3. Comment s'assurer que l'IA ne remplace pas le jugement clinique ?

**F√©licitations ! Vous avez termin√© votre premi√®re exploration de l'IA en radiologie ! üéâ**