# 7. Generating synthetic clinical cases in French

* We used gemini-2.0-flash to generate synthetic clinical cases in French based on a list on MeSH term.
* The prompt used for Gemini is in the file GEMINI (Prompt.txt)

In [1]:
import sys
import os

# Ajoute le dossier projet_NLP/ dans le path
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

# Maintenant tu peux importer proprement
from Script import multilabel_preprocessing as mp

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.max_colwidth', None)

In [2]:
os.getcwd()

'/home/onyxia/work/projet_NLP/Notebooks'

In [3]:
if os.path.exists('../data/df_target_VF.pkl'):
    df = pd.read_pickle('../data/df_target_VF.pkl')
    print("fichier df chargé")

if os.path.exists("../data/df_metadata"):
    df_metadata = pd.read_parquet('../data/df_metadata')
    print("fichier df_metadata chargé")

fichier df chargé
fichier df_metadata chargé


In [4]:
MeSH_vides = df[df['target'].apply(lambda x: not any(x))]
print("nombre cas sans code MeSH catégorie 'disease' :", MeSH_vides.shape)

df = df.drop(MeSH_vides.index)

nombre cas sans code MeSH catégorie 'disease' : (0, 12)


In [5]:
df['case_text'].str.len().describe()

count    10051.000000
mean      3502.605114
std       2399.441600
min        145.000000
25%       2004.500000
50%       3012.000000
75%       4343.000000
max      60512.000000
Name: case_text, dtype: float64

In [6]:
#df_sample = df[df['case_text'].str.len() < 5000]
#df_sample.shape

In [7]:
i=3
print(df['case_text'][i])
print(mp.mesh_labels_from_vector(df['target'][i]))

A 42-year-old, non-smoking, virgin woman presented to our institution with complaints of dyspnea and pleuritic chest pain since 2 days ago along with 2-month transient spotting. She had a history of leiomyoma since 5 months ago, and was hospitalized due to vaginal bleeding, and had been undergone therapy by a gonadotropin-releasing hormone (GnRH) agonist and medroxyprogesterone acetate, intramuscularly. To control her anemia, she was given oral ferrous sulfate. There was no relevant familial history of the same condition. On physical examination, she was anxious and tachypneic on admission, with body mass index of 24.7 kg/m2, body temperature 37 C, blood pressure 100/70 mmHg, heart rate 120 beats per min, respiratory rate of 24 breaths per min, and 96% oxygen saturation while breathing room air. Other findings included regular heart beat with a 2/6 systolic murmur in the left sternal border, clear lung sound, and a non-tender abdomen with a 20-week size uterus. There was no swelling in

In [8]:
range_max = df.shape[0]
rand_index = np.random.randint(0, range_max)  # tire un entier aléatoire entre 0 et range_max - 1
Code_MeSH = df.loc[rand_index, "target"]
print(mp.mesh_labels_from_vector(Code_MeSH))

['C10 – nervous system diseases']


# Gemini

## Model

In [9]:
from dotenv import load_dotenv
import base64
import os
import requests
import json
import time

from google import genai
from google.genai import types

from tqdm.notebook import tqdm

In [10]:
with open("../GEMINI/Prompt.txt", "r") as file:
    prompt = file.read()

prompt

"Je vais te founir des codes MeSH en entré. Tous les codes MeSH appartiennent à la catégorie C «disease» et je ne te fournis que des codes des catégories de «\xa0niveau 1\xa0» donc que des codes entre C01 et C26.\n\nPour rappel les catégories MeSH entre C01 et C26 sont les suivantes:\n\nC01 : Infections bactériennes et mycoses (Bacterial Infections and Mycoses)\nC02 : Maladies virales (Virus Diseases)\nC03 : Maladies parasitaires (Parasitic Diseases)\nC04 : Tumeurs (Neoplasms)\nC05 : Maladies du système musculo-squelettique (Musculoskeletal Diseases)\nC06 : Maladies du système digestif (Digestive System Diseases)\nC07 : Maladies stomatognathiques (Stomatognathic Diseases)\nC08 : Maladies des voies respiratoires (Respiratory Tract Diseases)\nC09 : Maladies oto-rhino-laryngologiques (Otorhinolaryngologic Diseases)\nC10 : Maladies du système nerveux (Nervous System Diseases)\nC11 : Maladies oculaires (Eye Diseases)\nC12 : Maladies urologiques et génitales masculines (Urologic and Male Gen

In [11]:
# Load environment variables from the .env file
load_dotenv()

# Set the API key and model information
API_KEY = os.getenv("GEMINI_API_KEY")
# API_URL = 'https://generativelanguage.googleapis.com/v1beta/openai'
# MODEL = "gemini-2.0-flash"

# Check if API key is available
if not API_KEY:
    print("⚠️ Warning: API_KEY not found in .env file. Please add your API key to continue.")

In [12]:
def generate(input_text):
    client = genai.Client(
        api_key=os.environ.get("GEMINI_API_KEY"),
    )

    model = "gemini-2.0-flash"
    contents = [
        types.Content(
            role="user",
            parts=[
                types.Part.from_text(text=prompt),
            ],
        ),
        types.Content(
            role="model",
            parts=[
                types.Part.from_text(text="""{
  \"Cas_clinique\": \"Mme Dubois, une femme de 68 ans avec des antécédents d'hypertension artérielle et de diabète de type 2, s'est présentée aux urgences en se plaignant d'une douleur thoracique intense et soudaine, irradiant vers son bras gauche, associée à un essoufflement. Elle a décrit la douleur comme une sensation d'oppression, comme si un poids lourd était posé sur sa poitrine. Elle a également rapporté des nausées et des sueurs froides. \\n\\nÀ son arrivée, elle était pâle, anxieuse et tachypnéique. Sa tension artérielle était de 90/60 mmHg, sa fréquence cardiaque de 110 battements par minute et sa saturation en oxygène de 92 % sous air ambiant. L'auscultation pulmonaire révélait des râles crépitants bilatéraux. L'électrocardiogramme (ECG) montrait un sus-décalage du segment ST dans les dérivations antérieures (V1 à V4), suggérant un infarctus du myocarde avec élévation du segment ST (STEMI) antérieur étendu. \\n\\nCompte tenu de la présentation clinique et des résultats de l'ECG, une suspicion forte d'occlusion aiguë de l'artère coronaire antérieure descendante (IVA) a été soulevée. L'équipe médicale a immédiatement initié un traitement comprenant de l'oxygène, de l'aspirine, du clopidogrel et de la morphine pour soulager la douleur. Une thrombolyse intraveineuse a été envisagée, mais étant donné le délai de plus de 2 heures depuis le début des symptômes et la disponibilité d'un centre de cardiologie interventionnelle à proximité, une angioplastie coronaire primaire (ICP) a été décidée. \\n\\nMme Dubois a été rapidement transférée en salle de cathétérisme cardiaque. L'angiographie coronaire a confirmé une occlusion totale de l'IVA proximale. Un ballonnet a été gonflé pour rétablir le flux sanguin, suivi de l'implantation d'un stent médicamenteux. Le flux TIMI 3 (flux normal) a été obtenu après l'angioplastie. \\n\\nAprès l'intervention, Mme Dubois a été admise en unité de soins intensifs cardiologiques. Son état s'est progressivement amélioré. La douleur thoracique a disparu et sa tension artérielle s'est stabilisée. Une échocardiographie a révélé une hypokinésie de la paroi antérieure du ventricule gauche, témoignant d'une zone infarcie. Elle a été mise sous traitement médical optimal comprenant des bêta-bloquants, un inhibiteur de l'enzyme de conversion (IEC), une statine et une double antiagrégation plaquettaire (aspirine et clopidogrel). \\n\\nPendant son séjour à l'hôpital, elle a bénéficié d'un programme de réadaptation cardiaque visant à améliorer sa condition physique et à réduire les facteurs de risque cardiovasculaires. Elle a également reçu des conseils diététiques et des informations sur la gestion de son diabète. Elle est sortie de l'hôpital une semaine plus tard, avec des recommandations de suivi régulier par son cardiologue et son médecin traitant.\",
  \"MeSH_Code\": [
    \"C14 – cardiovascular diseases\",
    \"C18 – nutritional and metabolic diseases\",
    \"C23 – pathological conditions, signs and symptoms\"
  ]
}"""),
            ],
        ),
        types.Content(
            role="user",
            parts=[
                types.Part.from_text(text="""['C04 – neoplasms', 'C08 – respiratory tract diseases', 'C14 – cardiovascular diseases']"""),
            ],
        ),
        types.Content(
            role="model",
            parts=[
                types.Part.from_text(text="""{
  \"Cas_clinique\": \"M. Lemaire, un homme de 62 ans, ancien fumeur (30 paquets-années), s'est présenté à la consultation de pneumologie en raison d'une toux persistante depuis plusieurs mois, accompagnée d'expectorations muco-purulentes et d'une dyspnée d'effort progressive. Il a également noté une perte de poids involontaire de 5 kg au cours des trois derniers mois et des épisodes occasionnels d'hémoptysie. \\n\\nL'examen clinique a révélé une diminution du murmure vésiculaire à la base du poumon droit et la présence de râles bronchiques diffus. Une radiographie thoracique a mis en évidence une opacité hilaire droite avec un élargissement médiastinal. Une tomodensitométrie (TDM) thoracique a confirmé la présence d'une masse tumorale de 5 cm de diamètre dans le hile droit, envahissant la bronche souche droite et les ganglions médiastinaux. \\n\\nUne bronchoscopie avec biopsies a été réalisée. L'examen histopathologique a révélé un carcinome épidermoïde peu différencié. Un bilan d'extension comprenant une TDM abdominale et une scintigraphie osseuse n'a pas révélé de métastases à distance. Le patient a été classé stade IIIA (T2N2M0) selon la classification TNM du cancer du poumon. \\n\\nCompte tenu du stade localement avancé de la maladie, une approche thérapeutique multimodale a été proposée, comprenant une chimiothérapie néoadjuvante à base de platine (cisplatine et gemcitabine) suivie d'une radiothérapie conformationnelle avec modulation d'intensité (RCMI). Après trois cycles de chimiothérapie, une TDM de réévaluation a montré une réduction significative de la taille de la tumeur et des ganglions médiastinaux. Le patient a ensuite reçu une radiothérapie à la dose de 60 Gy sur le hile droit et le médiastin. \\n\\nAu cours du traitement, M. Lemaire a développé une mucite de grade 2 et une œsophagite radique nécessitant une prise en charge symptomatique avec des antalgiques et des protecteurs gastriques. Il a également présenté une pneumonie radique, traitée par corticothérapie. \\n\\nUn suivi régulier a été mis en place après la fin du traitement. Un an après, une TDM de contrôle n'a révélé aucune récidive tumorale. Cependant, M. Lemaire a développé une cardiopathie ischémique, se manifestant par des épisodes d'angor d'effort. Une coronarographie a révélé des sténoses significatives de l'artère coronaire droite et de l'artère interventriculaire antérieure. Une angioplastie coronaire avec pose de stents a été réalisée. Le patient a été mis sous traitement antiagrégant plaquettaire et bêta-bloquant. Il participe actuellement à un programme de réadaptation cardiaque et a arrêté de fumer.\",
  \"MeSH_Code\": [
    \"C04 – neoplasms\",
    \"C08 – respiratory tract diseases\",
    \"C14 – cardiovascular diseases\"
  ]
}"""),
            ],
        ),
        types.Content(
            role="user",
            parts=[
                types.Part.from_text(text=input_text),
            ],
        ),
    ]
    generate_content_config = types.GenerateContentConfig(
        safety_settings=[
            types.SafetySetting(
                category="HARM_CATEGORY_CIVIC_INTEGRITY",
                threshold="BLOCK_ONLY_HIGH",  # Block few
            ),
        ],
        response_mime_type="application/json",
        response_schema=genai.types.Schema(
                        type = genai.types.Type.OBJECT,
                        required = ["MeSH_Code", "Cas_clinique"],
                        properties = {
                            "MeSH_Code": genai.types.Schema(
                                type = genai.types.Type.ARRAY,
                                items = genai.types.Schema(
                                    type = genai.types.Type.STRING,
                                ),
                            ),
                            "Cas_clinique": genai.types.Schema(
                                type = genai.types.Type.STRING,
                            ),
                        },
                    ),
    )

    full_response = ""
    for chunk in client.models.generate_content_stream(
        model=model,
        contents=contents,
        config=generate_content_config,
    ):
        full_response += chunk.text

    return full_response


## Requests

In [13]:
def mesh_input():
    rand_index = np.random.randint(0, df.shape[0])  # tire un entier aléatoire entre 0 et range_max - 1
    Code_MeSH = df.iloc[rand_index]["target"]      

    MeSH_input = str(mp.mesh_labels_from_vector(Code_MeSH))
    return MeSH_input

In [14]:
input_text = mesh_input()
input_text

"['C14 – cardiovascular diseases']"

In [15]:
input_text = mesh_input()
chat = generate(input_text)
reponse = chat  # Puisque `generate` retourne déjà la chaîne complète

In [16]:
data = json.loads(reponse)
data['Cas_clinique']
#data['MeSH_Code']

"Mme. D, une femme de 78 ans, résidant en EHPAD, est admise aux urgences pour une suspicion de pneumonie. Son état s'est dégradé progressivement depuis 72 heures, avec l'apparition d'une toux productive, d'une dyspnée croissante et d'une fièvre à 39°C. L'équipe soignante de l'EHPAD rapporte une perte d'appétit et une confusion récente.\n\nSes antécédents médicaux sont marqués par une hypertension artérielle, une insuffisance cardiaque congestive et des épisodes récurrents de bronchite chronique. Elle est non-fumeuse. Son traitement habituel inclut un diurétique, un inhibiteur de l'enzyme de conversion et un bronchodilatateur inhalé.\n\nÀ l'examen clinique, elle apparaît polypnéique (fréquence respiratoire à 28/min), tachycarde (fréquence cardiaque à 110 bpm) et désaturée (saturation en oxygène à 88% sous air ambiant). L'auscultation pulmonaire révèle des râles crépitants et une diminution du murmure vésiculaire à la base du poumon droit. L'examen neurologique met en évidence une désori

In [17]:
from tqdm.notebook import tqdm
import time
import json

def gen_cas_clinique(nombre=10):
    cas_cliniques = []  # Liste pour stocker temporairement les cas cliniques

    with tqdm(total=nombre, desc="Génération cas", leave=False, position=1) as pbar:
        for _ in range(nombre):
            input_text = mesh_input()  # Fonction générant le texte d'entrée

            # Safe generate avec retry
            for attempt in range(5):
                try:
                    response = generate(input_text)  # Fonction générant la réponse
                    data = json.loads(response)  # Conversion de la réponse JSON en dictionnaire
                    cas_cliniques.append(data)  # Ajout du dictionnaire à la liste
                    break  # si ça réussit, on sort du retry
                except Exception as e:
                    print(f"Erreur : {e}")
                    if attempt < 4:
                        print("Nouvelle tentative dans 5 secondes...")
                        time.sleep(5)
                    else:
                        print("Toutes les tentatives échouées pour ce cas. Passage au suivant.")
                        data = None  # on n'ajoute rien dans ce cas

            time.sleep(1)  # attendre un peu entre deux cas pour soulager l'API
            pbar.update(1)  # avancer la barre d'une unité

    df_cas_fr = pd.DataFrame(cas_cliniques)
    return df_cas_fr

In [18]:
for i in tqdm(range(0,10), desc="Fichiers", position=0):
    try:
        df_cas_fr = gen_cas_clinique(10)
        df_cas_fr.to_csv(f'../cas_cliniques_fr/cas_{i*10}_{i*10+9}.csv')
        print(f"✅ Fichier {i} généré avec succès.")
    except Exception as e:
        print(f"❌ Erreur lors de la génération du fichier {i}: {e}")
    time.sleep(2) 

Fichiers:   0%|          | 0/10 [00:00<?, ?it/s]

Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 0 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 1 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 2 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 3 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 4 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 5 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 6 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 7 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 8 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 9 généré avec succès.


In [19]:
for i in tqdm(range(10,30), desc="Fichiers", position=0):
    try:
        df_cas_fr = gen_cas_clinique(10)
        df_cas_fr.to_csv(f'../cas_cliniques_fr/cas_{i*10}_{i*10+9}.csv')
        print(f"✅ Fichier {i} généré avec succès.")
    except Exception as e:
        print(f"❌ Erreur lors de la génération du fichier {i}: {e}")
    time.sleep(2) 

Fichiers:   0%|          | 0/20 [00:00<?, ?it/s]

Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

Erreur : 500 INTERNAL. {'error': {'code': 500, 'message': 'Internal error encountered.', 'status': 'INTERNAL'}}
Nouvelle tentative dans 5 secondes...
✅ Fichier 10 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 11 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 12 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 13 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 14 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 15 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 16 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 17 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 18 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 19 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 20 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 21 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 22 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 23 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 24 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 25 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 26 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 27 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 28 généré avec succès.


Génération cas:   0%|          | 0/10 [00:00<?, ?it/s]

✅ Fichier 29 généré avec succès.


## Concatener tous les fichier et créer un fichier global

In [3]:
import pandas as pd
import glob

# Utiliser glob pour récupérer tous les chemins des fichiers CSV
csv_files = glob.glob("../cas_cliniques_fr/*.csv")

# Lire et concaténer tous les fichiers en utilisant une compréhension de liste
df_cas_VF = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)

# Afficher pour vérifier
print(df_cas_VF.shape)
df_cas_VF.head(1)

(300, 3)


Unnamed: 0.1,Unnamed: 0,Cas_clinique,MeSH_Code
0,0,"Monsieur Dupont, âgé de 72 ans, consulte son m...","['C04 – neoplasms', 'C08 – respiratory tract d..."


In [None]:
df_cas_VF = df_cas_VF.filter(items=['Cas_clinique', 'MeSH_Code'])
df_cas_VF = df_cas_VF.rename(columns={"Cas_clinique": "case_text", "MeSH_Code": "target"})
df_cas_VF.columns

In [None]:
import ast

def extract_mesh_codes(lst):
    """
    À partir d'une liste de strings ['C04 – neoplasms', ...],
    renvoie ['04', '08', ...] (sans le 'C').
    """
    codes = []
    for item in lst:
        # on découpe sur l’en-dash « – » ou le tiret-moins « - »
        raw = item.split('–')[0].split('-')[0].strip()
        # si ça commence par 'C', on retire la lettre
        if raw.upper().startswith('C') and len(raw) > 1:
            num = raw[1:]
        else:
            num = raw
        codes.append(num)
    return codes

def process_target_string(s):
    """
    Transforme la chaîne s, qui représente une liste Python,
    en réelle liste, puis en extrait les codes numériques sans 'C'.
    """
    try:
        lst = ast.literal_eval(s)
    except (ValueError, SyntaxError):
        return []
    return extract_mesh_codes(lst)

# Application à votre DataFrame
df_cas_VF['target'] = df_cas_VF['target'].apply(process_target_string)

# Vérification
print(df_cas_VF['target'].head())
# Ex. : [['04', '08', '12'], ['01', '08', '20'], ...]

In [None]:
os.chdir("/home/onyxia/work/projet_NLP")
print(os.getcwd())

In [None]:
from Script import multilabel_preprocessing as mp
df_cas_VF['target'] = df_cas_VF['target'].apply(mp.vectorizer)

In [None]:
df_cas_VF.to_csv("GEMINI/df_train_fr.csv")
df_cas_VF.to_pickle("data/df_train_fr.pkl")

In [5]:
df_cas_VF

Unnamed: 0.1,Unnamed: 0,Cas_clinique,MeSH_Code
0,0,"Monsieur Dupont, âgé de 72 ans, consulte son m...","['C04 – neoplasms', 'C08 – respiratory tract d..."
1,1,"Mme. Rivière, âgée de 55 ans et présentant des...","['C01 – bacterial infections and mycoses', 'C0..."
2,2,"Mme. Martin, une femme de 55 ans, s'est présen...","['C05 – musculoskeletal diseases', 'C07 – stom..."
3,3,"Mme. Sophie Martin, âgée de 45 ans, s'est prés...","['C06 – digestive system diseases', 'C17 – ski..."
4,4,"Bébé Dupont, un nouveau-né à terme, a été admi...","['C08 – respiratory tract diseases', 'C16 – co..."
...,...,...,...
295,5,"Un nourrisson de sexe féminin, né à terme aprè...","['C05 – musculoskeletal diseases', 'C07 – stom..."
296,6,"Un nourrisson de sexe masculin, né à terme apr...","['C14 – cardiovascular diseases', 'C16 – conge..."
297,7,"Mme. Rivière, une femme de 52 ans sans antécéd...","['C06 – digestive system diseases', 'C23 – pat..."
298,8,"Mme. X, une femme de 52 ans, s'est présentée à...",['C06 – digestive system diseases']
