In [15]:
from pathlib import Path
from medkit.core.text import TextDocument
from medkit.text.segmentation import SentenceTokenizer
from medkit.text.ner import RegexpMatcher, RegexpMatcherRule , RegexpMatcherNormalization
from medkit.text.context import NegationDetector, NegationDetectorRule
from medkit.text.segmentation import SyntagmaTokenizer
from medkit.text.context import FamilyDetector
from unidecode import unidecode
import os
import re
import pandas as pd
pd.set_option('display.max_colwidth', None)

In [16]:
def preprocessing(text):
    
    # Convertir les caractères spéciaux spécifiques avant la conversion en ASCII
    text = re.sub(r'n°', 'numero', text)  # Remplace "n°" par "numero"
    text = re.sub(r'/d°', 'deg', text)  # Remplace "/d°" par "deg"

    # Convertir le texte en ASCII
    ascii_text = unidecode(text)  # Convertit les caractères Unicode en ASCII

    # Normaliser les espaces en remplaçant les espaces multiples par un seul espace
    ascii_text = re.sub(r'\s+', ' ', ascii_text)  # Remplace plusieurs espaces par un seul espace
    return ascii_text

In [17]:
"""
La fonction statut_extraction extrait les informations de statut de tabagisme, 
statut marital et statut d'alcool à partir d'un dictionnaire dico en parcourant les 
annotations, en calculant les proportions et en choisissant les statuts appropriés. 
Elle renvoie les statuts extraits.
"""

def statut_extraction_tabac(doc):

    ## Initialisation
    statut = "UNKNOWN"

    # Nombre d'entités trouvées
    n_oui = 0
    n_non = 0

    # Proportions calculées à partir du nombre d'entités trouvées
    p_neg = 0
    p_pos = 0

    # Parcours des annotations pour analyser chaque annotation trouvée
    for ann in doc.anns:
        if ann.label == "statut_tabagisme":
            for attr in ann.attrs:
                if attr.label == "is_negated":
                    value_is_negated = attr.value
                elif attr.label == "other_detected":
                    value_other_detected = attr.value

            # Si l'entité trouvée ne concerne pas le patient (other_detected == True),
            # on passe à l'annotation suivante
            if value_other_detected == True:
                continue
            else:
                # Si c'est une négation, on incrémente n_non_tabac de 1
                if value_is_negated == True:
                    n_non += 1
                # Sinon, on incrémente n_oui_tabac de 1
                else:
                    n_oui += 1

    if len(doc.anns) != 0:
        # Calcul des proportions de tabagisme
        p_neg = n_non / len(doc.anns)
        p_pos = n_oui / len(doc.anns)

    ## Choix du statut en fonction des proportions calculées
    if p_pos > p_neg:
        statut = "FUMEUR"
    elif p_pos < p_neg:
        statut = "NON-FUMEUR"


    return statut

In [45]:
"""
La fonction statut_extraction extrait les informations de statut d'alcool à partir d'un dictionnaire dico en
parcourant les  annotations, en calculant les proportions et en choisissant les statuts appropriés. 
Elle renvoie les statuts extraits.
"""

def statut_extraction_alcool(doc):

    ## Initialisation
    statut = "UNKNOWN"

    # Nombre d'entités trouvées
    n_oui = 0
    n_non = 0

    # Proportions calculées à partir du nombre d'entités trouvées
    p_neg = 0
    p_pos = 0

    # Parcours des annotations pour analyser chaque annotation trouvée
    for ann in doc.anns:
        if ann.label == "statut_alcool":
            for attr in ann.attrs:
                if attr.label == "is_negated":
                    value_is_negated = attr.value
                elif attr.label == "other_detected":
                    value_other_detected = attr.value

            # Si l'entité trouvée ne concerne pas le patient (other_detected == True),
            # on passe à l'annotation suivante
            if value_other_detected == True:
                continue
            else:
                # Si c'est une négation, on incrémente n_non_tabac de 1
                if value_is_negated == True:
                    n_non += 1
                    
                # Sinon, on incrémente n_oui_tabac de 1
                else:
                    n_oui += 1

    if len(doc.anns) != 0:
        # Calcul des proportions de tabagisme
        p_neg = n_non / len(doc.anns)
        p_pos = n_oui / len(doc.anns)
    ## Choix du statut en fonction des proportions calculées
    if p_pos > p_neg:
        statut = "ALCOOLIQUE"
    elif p_pos < p_neg:
        statut = "NON-AlCOOLIQUE"


    return statut


In [46]:
def statut_extraction_situation_familiale(doc):

    ## Initialisation
    statut_marital = "UNKNOWN"

    # On parcourt le dico pour analyser chaque annotation trouvé
    for ann in doc.anns:
        if ann.label== "statut_marital":
            for attr in ann.attrs:
                if attr.label == "is_negated":
                    value_is_negated = attr.value
                elif attr.label == "other_detected":
                    value_other_detected = attr.value

            # Si l'entité trouvée ne concerne pas le patient (other_detected == True),
            # on passe à l'annotation suivante
            if value_other_detected == True:
                continue
            else:
                
                statut_marital = ann.text
                
                 ## NORMALISATION: Seul, pas seul et inconnu
                if re.search(r"\bmarie[e]?\b", statut_marital):
                    statut_marital = "PAS SEUL"
                elif re.search(r"\bcelibataire\b", statut_marital):
                    statut_marital = "SEUL"
                elif re.search(r"\bdivorce[e]?\b", statut_marital):
                    statut_marital = "SEUL"
                elif re.search(r"\bveuf\b", statut_marital):
                    statut_marital = "SEUL"
                elif re.search(r"\bveuve\b", statut_marital):
                    statut_marital = "SEUL"
                elif re.search(r"\bpacse[e][s]?\b", statut_marital):
                    statut_marital = "PAS SEUL"
                elif re.search(r"\bconcubinage\b", statut_marital):
                    statut_marital = "PAS SEUL"
                elif re.search(r"\b(vit|habite)\sseul(e)?\b", statut_marital):
                    statut_marital = "SEUL"
                    
                # Si il y a une négation
                if value_is_negated == True:
                    # On inverse statut_marital
                    if statut_marital == "SEUL":
                        statut_marital = "PAS SEUL"
                    else:
                        statut_marital = "SEUL"

    return statut_marital  

In [47]:
def clinical_case_recovery(output_folder):
    # On récupère tous les fichiers texte dans le dossier
    txt_files = [f for f in os.listdir(output_folder) if f.endswith('.txt')]

    # On trie les fichiers par ordre alphabétique.
    txt_files_sorted = sorted(txt_files)
    textes = {}  # dictionnaire de tous les cas cliniques

    # On ouvre et on extrait les textes dans textes
    for i in range(717):
        file_path = os.path.join(output_folder, txt_files_sorted[i])
        with open(file_path, 'r') as f:
            text = f.read()
        textes[txt_files_sorted[i]] = text
    return textes

## EXTRACTION STATUT TABAGIQUE

In [48]:
# Listes pour stocker les données
data_fumeur = []
data_non_fumeur = []
data_unknown = []

### QUELQUES REGEX RECHERCHE ENTITES

regexp_rules = [

    RegexpMatcherRule(regexp=r"\bcigare(tte)?[s]?\b", label="statut_tabagisme", exclusion_regexp ="en bout de cigare"),
    RegexpMatcherRule(regexp=r"\bfume(e)?[s]?\b", label="statut_tabagisme"),
    RegexpMatcherRule(regexp=r"\btaba(c|gisme|gique)\b", label="statut_tabagisme"),
    RegexpMatcherRule(
    regexp=r"fumeur|fumeuse|paquet.{0,5}?ann[ée].?",
    label="statut_tabagisme",
    unicode_sensitive=True),
]

### QUELQUES REGEX NEGATION

neg_rules = [       

NegationDetectorRule(regexp=r"\bne\s*(semble|consomme|prend)\s*pas"),
NegationDetectorRule(regexp=r"jamais"),
NegationDetectorRule(regexp=r"arret"),
NegationDetectorRule(regexp=r"ancien"),
NegationDetectorRule(regexp=r"\bni\b"),
NegationDetectorRule(regexp=r"\bnon\b"),
#NegationDetectorRule(regexp=r"\b(ni|non)\/sfumeu(r|se)"),
NegationDetectorRule(regexp=r"\bne/s*fume/s*pas\b"),
NegationDetectorRule(regexp=r"non\\s+fumeur|tabac\\s+non|tabagisme\\s+non|Tabac\\s*[=:]?\\s*0|tabagi(sm|qu)e\\s+sevr|(pas|ni|ou)\\s+de\\s+(consommation\\s+de\\s+)?taba|pas\\s+d\\'intoxication\\s+tabagi|0 tabac",
                    unicode_sensitive=True),

]

In [49]:
def extraction_finale_tabac(clinical_case_repo):
    # On charge les cas cliniques dans un dico{nom fichier}=cas clinique
    clinical_cases_dico = clinical_case_recovery(clinical_case_repo)

    for fichier, clinical_case in clinical_cases_dico.items():
        clinical_case = preprocessing(clinical_case)
        doc = TextDocument(text=clinical_case)

        ## On sépare le texte en phrases
        sent_tokenizer = SentenceTokenizer(
            output_label="sentence",
            punct_chars=[".", "?", "!"],
        )
        sentences = sent_tokenizer.run([doc.raw_segment])

        ## On sépare les phrases en syntagmas
        synt_tokenizer = SyntagmaTokenizer(
            output_label="sentence",
            separators=[r"\bmais\b", r"\bet\b"],
        )
        syntagmas = synt_tokenizer.run(sentences)


        # Création de l'objet neg detector
        neg_detector = NegationDetector(output_label="is_negated", rules=neg_rules)

        # On applique neg detector aux syntagmas
        neg_detector.run(syntagmas)

        # On applique family detector aux syntagmas
        family_detector = FamilyDetector(output_label='other_detected')
        family_detector.run(syntagmas)

        # CREATION OF ENTITIES
        regexp_matcher = RegexpMatcher(rules=regexp_rules, attrs_to_copy=["is_negated", "other_detected"])

        entities = regexp_matcher.run(syntagmas)

        for entity in entities:
            doc.anns.add((entity))

        statut_tabagisme = statut_extraction_tabac(doc)


        # Remplissage de data
        if statut_tabagisme == "FUMEUR":
            data_fumeur.append([fichier, clinical_case, statut_tabagisme])
        elif statut_tabagisme == "NON-FUMEUR":
            data_non_fumeur.append([fichier, clinical_case, statut_tabagisme])
        else:
            if len(data_unknown) < 17:
                data_unknown.append([fichier, clinical_case, statut_tabagisme])


    df_fumeur = pd.DataFrame(data_fumeur, columns=["nom fichier", "cas clinique","statut tabagisme"])


    df_non_fumeur = pd.DataFrame(data_non_fumeur, columns=["nom fichier", "cas clinique","statut tabagisme"])
    df_unknown = pd.DataFrame(data_unknown, columns=["nom fichier", "cas clinique","statut tabagisme"])
    combined_df = pd.concat([df_fumeur, df_non_fumeur, df_unknown], ignore_index=True)
    # On mélange 
    combined_df_tabac = combined_df.sample(frac=1, random_state=42)
    combined_df.shape
    combined_df_tabac['statut tabagisme'].value_counts()
    
    return combined_df_tabac

In [50]:
df_tabac_1 = extraction_finale_tabac("clinical_case1")
df_tabac_1['statut tabagisme'].value_counts()

statut tabagisme
FUMEUR        23
UNKNOWN       17
NON-FUMEUR    15
Name: count, dtype: int64

## EXTRACTION STATUT ALCOOL

In [51]:
# Listes pour stocker les données
data_oui = []
data_non = []
data_unknown = []

### QUELQUES REGEX RECHERCHE ENTITES

regexp_rules= [

    RegexpMatcherRule(regexp=r"\balcool\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\bboit\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\balcoolique\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\bdependance\s*alcool\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\balcoolisme\b", label="statut_alcool"),

]

### QUELQUES REGEX NEGATION

neg_rules = [

    NegationDetectorRule(regexp=r"ne\s*boit\s*pas"),
    NegationDetectorRule(regexp=r"\bne/s*consomme/s*pas\b"),
    NegationDetectorRule(regexp=r"\bni/s*alcool\b"),
    NegationDetectorRule(regexp=r"\bpas\b"),
    NegationDetectorRule(regexp=r"\becarte\b"),
]

In [52]:

def extration_finale_alcool(clinical_case_repo):
    # On charge les cas cliniques dans un dico{nom fichier}=cas clinique
    clinical_cases_dico = clinical_case_recovery("clinical_case2")

    for fichier, clinical_case in clinical_cases_dico.items():
        clinical_case = preprocessing(clinical_case)
        doc = TextDocument(text=clinical_case)

        ## On sépare le texte en phrases
        sent_tokenizer = SentenceTokenizer(
            output_label="sentence",
            punct_chars=[".", "?", "!"],
        )
        sentences = sent_tokenizer.run([doc.raw_segment])

        ## On sépare les phrases en syntagmas
        synt_tokenizer = SyntagmaTokenizer(
            output_label="sentence",
            separators=[r"\bmais\b", r"\bet\b"],
        )
        syntagmas = synt_tokenizer.run(sentences)


        # Création de l'objet neg detector
        neg_detector = NegationDetector(output_label="is_negated", rules=neg_rules)

        # On applique neg detector aux syntagmas
        neg_detector.run(syntagmas)

        # On applique family detector aux syntagmas
        family_detector = FamilyDetector(output_label='other_detected')
        family_detector.run(syntagmas)

        # CREATION OF ENTITIES
        regexp_matcher = RegexpMatcher(rules=regexp_rules, attrs_to_copy=["is_negated", "other_detected"])

        entities = regexp_matcher.run(syntagmas)

        for entity in entities:
            doc.anns.add((entity))

        statut = statut_extraction_alcool(doc)


        # Remplissage de data
        if statut == "ALCOOLIQUE":
            data_oui.append([fichier, clinical_case, statut])
        elif statut == "NON-AlCOOLIQUE":
            data_non.append([fichier, clinical_case, statut])
        else:
            if len(data_unknown) < 17:
                data_unknown.append([fichier, clinical_case, statut])


    df_oui = pd.DataFrame(data_oui, columns=["nom fichier", "cas clinique","statut alcool"])
    df_non = pd.DataFrame(data_non, columns=["nom fichier", "cas clinique","statut alcool"])
    df_unknown = pd.DataFrame(data_unknown, columns=["nom fichier", "cas clinique","statut alcool"])
    combined_df = pd.concat([df_oui, df_non, df_unknown], ignore_index=True)
    # On mélange 
    combined_df_alcool = combined_df.sample(frac=1, random_state=42)
    
    return combined_df_alcool

In [54]:
df_alcool_1 = extration_finale_alcool("clinical_case1")
df_alcool_1['statut alcool'].value_counts()

statut alcool
ALCOOLIQUE        40
UNKNOWN           17
NON-AlCOOLIQUE    12
Name: count, dtype: int64

## EXTRACTION STATUT FAMILIAL

In [None]:
# Listes pour stocker les données
data_oui = []
data_non = []
data_unknown = []

### QUELQUES REGEX RECHERCHE ENTITES

regexp_rules= [

    RegexpMatcherRule(regexp=r"\bmarie[e]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bcelibataire\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bdivorce[e]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bveuf\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bveuve\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bpacse[e][s]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bconcubinage\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\b(vit|habite)\sseul(e)?\b", label="statut_marital"),

]

### QUELQUES REGEX NEGATION

neg_rules = [

    NegationDetectorRule(regexp=r"\bn'est pas\b"),
    NegationDetectorRule(regexp=r"\bne vit pas\b"),
    NegationDetectorRule(regexp=r"\bn'habite pas\b"),
    NegationDetectorRule(regexp=r"\bni\b"),
]

In [61]:
def extraction_finale_statut_familial(clinical_case_repo):

    # On charge les cas cliniques dans un dico{nom fichier}=cas clinique
    clinical_cases_dico = clinical_case_recovery("clinical_case2")

    for fichier, clinical_case in clinical_cases_dico.items():
        clinical_case = preprocessing(clinical_case)
        doc = TextDocument(text=clinical_case)

        ## On sépare le texte en phrases
        sent_tokenizer = SentenceTokenizer(
            output_label="sentence",
            punct_chars=[".", "?", "!"],
        )
        sentences = sent_tokenizer.run([doc.raw_segment])

        ## On sépare les phrases en syntagmas
        synt_tokenizer = SyntagmaTokenizer(
            output_label="sentence",
            separators=[r"\bmais\b", r"\bet\b"],
        )
        syntagmas = synt_tokenizer.run(sentences)


        # Création de l'objet neg detector
        neg_detector = NegationDetector(output_label="is_negated", rules=neg_rules)

        # On applique neg detector aux syntagmas
        neg_detector.run(syntagmas)

        # On applique family detector aux syntagmas
        family_detector = FamilyDetector(output_label='other_detected')
        family_detector.run(syntagmas)

        # CREATION OF ENTITIES
        regexp_matcher = RegexpMatcher(rules=regexp_rules, attrs_to_copy=["is_negated", "other_detected"])

        entities = regexp_matcher.run(syntagmas)

        for entity in entities:
            doc.anns.add((entity))

        statut = statut_extraction_situation_familiale(doc)


        # Remplissage de data
        if statut == "SEUL":
            data_oui.append([fichier, clinical_case, statut])
        elif statut == "PAS SEUL":
            data_non.append([fichier, clinical_case, statut])
        else:
            if len(data_unknown) < 17:
                data_unknown.append([fichier, clinical_case, statut])


    df_oui = pd.DataFrame(data_oui, columns=["nom fichier", "cas clinique","statut familial"])
    df_non = pd.DataFrame(data_non, columns=["nom fichier", "cas clinique","statut familial"])
    df_unknown = pd.DataFrame(data_unknown, columns=["nom fichier", "cas clinique","statut familial"])
    combined_df = pd.concat([df_oui, df_non, df_unknown], ignore_index=True)
    # On mélange 
    combined_df_familial = combined_df.sample(frac=1, random_state=42)
    return combined_df_familial

In [63]:
df_familial_1 = extraction_finale_statut_familial("clinical_case2")
df_familial_1['statut familial'].value_counts()

statut familial
ALCOOLIQUE        40
UNKNOWN           17
NON-AlCOOLIQUE    12
Name: count, dtype: int64

In [87]:
pd.set_option('display.max_colwidth', None)
combined_df


Unnamed: 0,nom fichier,cas clinique,statut tabagisme
39,EN101019.txt,"Madame H.A est une patiente de 32 ans, primipare, primigeste, sans antecedents particuliers. Elle a ete admise aux urgences de gynecologie-obstetrique du centre hospitalier universitaire de Rabat pour un etat de choc apres un accouchement dystocique dans une maternite peripherique. Des expressions abdominales ainsi qu'une extraction instrumentale ont ete realisee donnant naissance a un nouveau-ne pesant 3050g et dont l'Apgar a ete estime respectivement a 8/10 et 10/10 a la premiere et a la dixieme minute. L'accouchement s'est complique d'une hemorragie de la delivrance jugule par la perfusion d'ocytocique et un massage uterin. Le saignement s'est arrete, mais l'etat hemodynamique de la patiente s'altererait, d'ou son transfert dans notre formation. A l'admission on trouvait une patiente obnubile, polypneique et tachycarde a 120 bat/min, la tension arterielle etait a 70/40 mmHg. Apres mise en condition notamment une oxygenotherapie et un remplissage par serum sale, un examen general a pu etre realise montrant une paleur cutaneo-muqueuse generalisee. L'abdomen etait legerement distendu avec une sensibilite de l'hypochondre gauche. La retraction uterine etait satisfaisante sans saignement exteriorise. Une revision uterine sous couverture antibiotique a ete realisee faisant eliminer une rupture uterine. Un examen sous valve de la filiere genitale etait normal. Le bilan paraclinique objectivait une anemie a 4,5g/dl d'Hemoglobine necessitant la transfusion de 6 culots globulaires. L'echographie abdominopelvienne revelait un epanchement de moyenne abondance, une rate augmentee de volume tres heterogene avec fracture splenique au niveau du pole superieur, le foie et les reins etaient sans anomalies. Le balayage echographique sur l'uterus retrouvait une ligne de vacuite fine sans image de solution de continuite des parois uterines. Une decision pluridisciplinaire d'une laparotomie d'urgence a ete prise, l'equipe se composait de chirurgien obstetricien, un chirurgien visceral et un reanimateur. Une incision mediane a cheval sur l'ombilic a ete realisee. A l'ouverture on retrouvait un hemo-peritoine d'environ 3 litres de sang incoagulable avec des caillots. L'exploration du pelvis notait l'integrite de l'uterus, des annexes et des parametres. L'exploration de la loge splenique decouvrait la rupture du pedicule vasculaire de la rate et une dilaceration du parenchyme splenique avec suffusion hemorragique. Une splenectomie totale a ete realisee apres ligatures des vaisseaux spleniques, suivie d'un drainage de la loge splenique et fermetures plan par plan. La patiente etait stable sur le plan hemodynamique et fut transferee par la suite au service de reanimation ou elle a etait nouvellement transfusee. Les suites operatoires etaient simples et les controles post-operatoires etaient normaux. La patiente est declaree sortante dix jours apres l'intervention.",UNKNOWN
25,EN101713.txt,"Il s'agissait d'un patient de 30 ans, sans antecedents pathologiques particuliers, notamment non tabagique, non alcoolique. Ce patient s'est presente aux urgences pour une tumefaction basi-cervicale anterieure evoluant depuis 3 mois, indolore, associee a une dysphonie, une dysphagie, une dyspnee d'aggravation progressive et un amaigrissement non chiffre, le tout evoluant dans un contexte d'alteration de l'etat general. A l'examen physique il etait apyretique a 37degC (avec une notion de prise anterieure d'antipyretiques) et presentait une masse basi cervicale paramediane gauche mobile, ascensionnant a la deglutition, de consistance molle, sans signes inflammatoires en regard, associee a un leger tirage sus sternal. L'hemogramme objectivait une hyperleucocytose a 11800/uL avec 77% de polynucleaires neutrophiles (PNN). La proteine C reactive (CRP) initiale etait elevee a 354,1 mg/l. La TSH ultrasensible etait basse, a 0,02 UI/mL. La serologie HIV etait negative. L'echographie cervicale mettait en evidence une collection thyroidienne medio lobaire gauche, a contenu epais hypoechogene heterogene siege de bulles d'air et de calcifications, fusant vers le plan musculaire posterieur associee a des ganglions de voisinage d'allure inflammatoire. Le scanner cervico-thoracique objectivait une collection liquidienne du lobe gauche de la thyroide, renfermant des bulles d'air et des calcifications, fistulisee dans les muscles sous hyoidiens et le sinus piriforme gauche. Il s'y associait un epaississement circonferentiel de la paroi anterieure de l'hypopharynx mesurant sur le plan axial 33x24 mm, etendu a la bouche oesophagienne et aux replis ary-epiglottiques, a la commissure posterieure et la region retro crico-thyroidienne avec reduction de la filiere glotto-sous-glottique. Le larynx etait d'aspect normal, la trachee respectee. On notait quelques adenopathies jugulo-carotidiennes. Un important emphyseme cervico mediastinal etait egalement retrouve. Le diagnostic d'abces de la thyroide sur carcinome pharyngo oesophagien etait evoque. La ponction ramenait du liquide purulent, confirmant le diagnostic d'abces thyroidien. La culture faite etait positive a Staphylococcus aureus. Une antibiotherapie etait demarree a base d'Amoxicilline acide clavulanique, Flagyl et Gentamycine avec bonne evolution, regression de la collection au controle echographique et degression de la CRP. Une nasofibroscopie objectivait des secretions purulentes, une stase salivaire au niveau des deux sinus piriformes et une paresie des 2 cordes vocales en ouverture. Une panendoscopie sous anesthesie generale revelait la presence d'une proliferation tumorale de la bouche oesophagienne. Une biopsie faite avec etude anatomopathologique confirmait le diagnostic de carcinome epidermoide de la bouche oesophagienne. Le patient etait adresse en oncologie pour prise en charge de sa neoplasie.",NON-FUMEUR
26,EN101008_0.txt,"Un cycliste age de 17 ans a ete victime d'un accident de velo avec reception du guidon au niveau de l'epigastre occasionnant des epigastralgies. A l'admission, l'abdomen etait sensible, la lipasemie etait a 10 fois la normale. La TDM montrait une fracture isthmique du pancreas avec une pancreatite stade E de Balthazar [6] (figure 1), le Wirsung traversant la zone d'hyperdensite, sa rupture ne pouvait etre ecartee (Classe III Lucas [7]). L'attitude etait le traitement medical de la pancreatite, avec surveillance clinique et echographique. L'evolution etait favorable sans sequelles.",UNKNOWN
43,EN101024.txt,"Nouveau-ne de sexe masculin admis a trois semaines de vie pour prise en charge de nodules cutanes siegeant au niveau du dos associes a des vomissements. L'examen clinique retrouve un nouveau-ne apyretique, tonique, reactif, sans signe de detresse vitale, l'examen des teguments notent des lesions cutanees a type de placards sous-cutanes durs, legerement douloureux, de couleur rouge-violine, localisees au niveau du dos evocatrices d'une cytosteatonecrose. Une biopsie de peau confirme le diagnostic en montrant un infiltrat inflammatoire compose d'histiocytes, de cellules geantes et quelques lymphocytes et des images en aiguilles cristallines a la peripherie de certains adipocytes suggestifs des cristaux dissous. Dans les antecedents, on note une naissance a terme par voie basse avec notion de souffrance neonatale rapidement resolutive. Le bilan a l'admission retrouve une hypercalcemie a 110 mg/l. La phosphoremie et l'albuminemie sont normales, la 1,25 - dihydroxy-vitamine D est eleve a 258 pmol/l (43-148 pmol/l) et la parathormone effondree a 3 pg/ml (14-72). Le bilan lipidique montre une hypertriglyceridemie chez le nouveau-ne et sa mere respectivement a 3,16 g/l et 4,46 g/l pour une valeur normale (0,6-1,5 g/l). L'hemogramme n'a pas objective d'anemie ou de thrombocytose. L'echographie renale n'a pas trouve de nephrocalcinose. Le traitement a consiste en un regime pauvre en calcium, une hyperhydratation saline parenterale associee a un diuretique de l'anse (furosemide/Lasilix(tm)) pendant 8 jours consecutifs permettant une normalisation durable de la calcemie et une regression complete des signes cutanes des l'age de deux mois. L'allaitement maternel et la supplementation vitamino-calcique ont pu etre reintroduis.",UNKNOWN
35,EN101010_3.txt,"Il s'agit d'une fille de 11 ans, traitee pour une tuberculose pulmonaire a l'age de trois ans, operee pour un kyste hydatique hepatique a l'age de 9 ans. Admise aux urgences pour un abdomen aigu suite a une contusion abdominale. L'examen trouve une patiente febrile, avec douleur abdominale, et vomissements. La palpation objective une masse hepatique ferme, douloureuse, avec matite des flancs. Le bilan biologique trouve une hyperleucocytose a 13 000 E/mm3. L'echographie et le scanner abdominal ont revele deux kystes hydatiques hepatiques dont l'un etait rompu, et un kyste renal type III. La patiente a ete operee en urgence pour son kyste hepatique rompu. Elle a developpe un rush cutane avec episode d'hypotension, qui a bien evolue sous corticotherapie et traitement antiparasitaire. La patiente a beneficie deux mois plus tard de la cure de son kyste renal. La patiente a ete mise sous traitement medical a base d'albendazole pendant 6 mois. Le recul est de 4 ans.",UNKNOWN
41,EN101021.txt,"Patiente agee de 70 ans, ayant un antecedent d'acromegalie sur adenome hypophysaire il y a 25 ans, confirmee sur les donnees cliniques, biologiques et radiographiques, traitee chirurgicalement et declaree en remission complete. Elle a presente depuis 5 ans des scapulalgies mecaniques bilaterales d'aggravation progressive avec une limitation fonctionnelle majeure. On a note chez la patiente un nez epate, des pommettes saillantes, un front bombe, des levres epaisses, des rides marquees ainsi que des doigts et des orteils boudines, sequelles de son acromegalie. L'examen osteo-articulaire a trouve des epaules douloureuses et limitees en rotation interne (20deg), rotation externe (20deg), antepulsion (90deg) et abduction (80deg) en bilaterale, sans signe inflammatoire en regard. La radiographie des deux epaules a montre une arthropathie destructrice bilaterale des epaules avec un pincement total de l'interligne articulaire, la presence de geodes, d'osteophytes exuberants, et des exostoses avec des hypertrophies osseuses diffuses. Les radiographies des autres sites articulaires et du rachis etaient sans particularites. Le bilan biologique n'a pas objective de syndrome inflammatoire (VS : 12 mm, CRP : 4 mg/l), ou de perturbation du bilan phosphocalcique (Ca : 90 mg/l, Ph : 25 mg/l, PAL : 85 UI/l). Le bilan immunologique (Facteur rhumatoide, anticorps anti CCP, anticorps anti nucleaires et anti ECT) etait negatif. L'echographie des deux epaules n'a pas objective de bursite inflammatoire ou degenerative ou de tendinopathie des coiffes des rotateurs. Le diagnostic d'une arthropathie acromegalique destructrice des deux epaules apparu apres un traitement radical, a ete retenu. La patiente a refuse le remplacement prothetique des epaules, un traitement palliatif a ete propose a base d'antalgique, de reeducation et de physiotherapie.",UNKNOWN
4,EN101241.txt,"Patient age de 64 ans, diabetique de type 2 sous antidiabetiques oraux, ayant comme antecedent une tuberculose pulmonaire traitee sans sequelles, une rhinite allergique saisonniere et un tabagisme chronique, qui a rapporte un mois avant son admission une toux productive et des hemoptysies evoluant dans un contexte de fievre et alteration de l'etat general. L'auscultation pleuro-pulmonaire a revele des rales crepitants au champ pulmonaire droit, l'examen cardiovasculaire est sans anomalie, le reste de l'examen physique est sans particularites. Le bilan biologique initial a mis en evidence une anemie hypochrome microcytaire, un taux de leucocyte normal sans hyper eosinophilie sanguine et une CRP a 171mg/l. La radiographie thoracique de face a montre une opacite homogene apicale droite, le scanner sans et avec injection du produit de contraste a objective une condensation apicale droite, homogene, presentant une large base d'implantation pleurale sans epanchement pleural ni d'adenopathie mediastinale ou de lesion parenchymateuse pulmonaire homo ou controlaterale. La fibroscopie bronchique a trouve un bourrelet du segment dorsal de la lobaire superieure droite et l'etude cytologique du liquide d'aspiration bronchique a conclue a une hyperplasie des cellules ciliees sans cellules suspecte de malignite et sans hypereosinophilie. L'etude anatomopathologique n'a pas trouve de signe de malignite. La recherche de bacille de Kokh dans les crachats et le liquide d'aspiration bronchique etait negative. Le patient a ete mis sous traitement antibiotique a base d'amoxicilline, d'acide clavulanique et de ciprofloxacine mais sans amelioration clinique ni radiologique. Le malade a represente par la suite deux episodes d'hemoptysie de grande abondance ayant necessite une prise en charge chirurgicale. Il a beneficie d'une lobectomie apicale droite. L'etude anatomopathologie a trouve un tissu inflammatoire essentiellement mononuclee avec presence d'amas de polynucleaires eosinophiles dans la lumiere des alveoles. Devant ce tableau clinico-radiologique et anatomopathologique le diagnostic d'une pneumopathie a eosinophile a ete evoque. Une anamnese dirigee a ete reprise a la recherche d'une cause de cette pneumopathie a eosinophile, il n y avais pas de prise medicamenteuse ni de sejour en endemie parasitaire, les parasitologies de selle etaient negatives, les tests cutanes ainsi la serologie aspergillaire etaient negatifs, le bilan immunologique en particuliers les ANCA etait negatif, Les echographies abdominale et cardiaque pratiquees a la recherche d'atteinte extrapulmonaire etaient normales. Le diagnostic de pneumopathie chronique idiopathique a eosinophilies a ete retenu. Le malade a ete mis sous traitement corticoide avec une evolution remarquablement favorable. Apres 15 mois de surveillance, il a presente une recidive de sa symptomatologie clinique initial avec apparition d'un infiltrat pulmonaire peripherique apical du cote controlateral au scanner thoracique, l'evolution a ete marque par une alteration rapide de l'etat general, le malade est decede en reanimation suite a un etat de choc hemodynamique par hemoptysie foudroyante.",FUMEUR
12,FR100051.txt,"Nous rapportons le cas d'un patient age de 45 ans sans antecedents pathologiques particuliers, admis en unite de soins intensifs pour reanimation post-operatoire d'un triple pontage aorto-coronaire. Les explorations qui ont ete realisees en preoperatoire ont montre une bonne fonction ventriculaire gauche systolique et diastolique a l'echographie cardiaque. La coronarographie a objective une stenose significative du tronc commun gauche, une double stenoses serrees de l'IVA distale, une stenose tres serree de la CDII et une stenose serree de la CD III et le doppler des troncs supra aortiques etait sans anomalie. Dans ses habitudes, nous avons note l'absence stricte de consommation d'alcool, une consommation de 40 cigarettes par jour avec une intoxication tabagique evaluee a 50 paquets.annee. Les durees de la chirurgie, de la CEC et du clampage aortique ont ete respectivement de 240 min, 100 min et 60 min. Le patient a ete extube a H2 post-operatoire (PO) et sevre des catecholamines a j1PO. L'evolution a ete marquee a j2 PO par l'installation d'un etat de choc septique a point de depart pulmonaire necessitant le recours a la ventilation mecanique avec une sedation. Une TDM thoracique a ete en faveur d'une pneumopathie et a montre un emphyseme pan-lobulaire diffus aux 2 poumons plus marque a droite. Le traitement initial comprenait une stabilisation hemodynamique par des vasoconstricteurs, une antibiotherapie probabiliste et une nutrition enterale precoce. Malgre des doses de 0,15 mg/kg par heure de midazolam et de 4 ug/kg par heure de fentanyl, le niveau de la sedation etait insuffisant avec un score de Ramsay inferieur a 3.Une desadaptation au respirateur et des episodes d'agitation ont marque la periode de sedation du patient. Devant la perspective d'une ventilation prolongee et d'un sevrage ventilatoire difficile, une tracheotomie chirurgicale a ete realisee a j 10 PO. Le sevrage de la ventilation mecanique a ete debute a j12 apres l'obtention de pres requis ventilatoires (FiO2= 40%; PEP=3; PaO2/FiO2=260) et generaux [2]. A j 15, l'amelioration du niveau de conscience a ete accompagnee de l'apparition d'hallucinations visuelles et de difficultes de concentration et d'une agitation importante responsable de l'echec du sevrage ventilatoire. Apres avoir elimine une hypoxie, un desordre metabolique ou hydro-electrolytique et un globe vesical, un infarctus cerebral en post-CEC par un scanner cerebral normal et un delirium tremens chez ce patient qui n'a jamais consomme d'alcool, le syndrome de sevrage aux benzodiazepines et aux morphiniques a ete evoque dans un premier temps et de ce fait nous avons administre par voie intra veineuse du tranxene 20mg, de l'haloperidol 30 mg et de la clonidine 450 mg. Apres 48 heures devant la non amelioration, le syndrome de sevrage a la nicotine a ete evoque et un timbre transdermique de 21mg de nicotine a ete mis en place. En quelques heures, nous avons observe un arret de l'agitation et des hallucinations ainsi que la reprise d'une ventilation calme et adaptee au respirateur. Le sevrage de la ventilation mecanique a ete realise avec succes et le patient a ete decanule a j + 24. A J+ 27 le patient a ete transfere au service d'hospitalisation.",FUMEUR
8,EN101665.txt,"Un patient de 62 ans, tabagique chronique, sans autres antecedents pathologiques particuliers, consulte pour une toux seche evoluant depuis 4 mois associee a une dyspnee d'effort d'aggravation progressive. La radiographie du thorax a montre une opacite lobaire inferieure droite. La tomodensitometrique thoracique faite par la suite a objective un processus tumorale du lobe inferieure droit de 48x42 mm localise en paravertebrale droit. La bronchoscopie a mis en evidence un aspect inflammatoire de 1 er degre des bronches droites sans tumeur visible. Il a ete decide de faire une biopsie pulmonaire scannoguidee. Cette derniere a montre une proliferation tumorale a cellules rondes a differenciation majoritairement plasmocytoide. L'etude immunohistochimique a montre une positivite des anticorps anti CD138, EMA et anti KI67 et une negativite des anti chromogranine et synaptophysine. Biologiquement, on a note une augmentation des gammaglobulines en rapport avec l'existence d'un pic monoclonal discret de type IgM. La fonction renale et la b2 microglobuline serique sont normales. Le myelogramme, la biopsie osteomedullaire et le bilan radiologique osseux sont sans anomalies. Il a ete decide de faire une radiotherapie exclusive a 50Gy sur la masse tumorale (2Gy/seance, 5 seances par semaine) en conformationelle. L'evolution a ete marquee par une nette amelioration clinique avec disparition du pic monoclonale et une diminution de 60% de la taille tumorale au scanner de controle a 3 mois. Avec un recul de 18 mois on a note une stabilite de la masse tumorale sans argument en faveur d'une recidive ou d'une progression vers un myelome multiple.",FUMEUR
3,EN101160.txt,"Mr HL age de 58 ans, tabagique est admis aux urgences pour des douleurs thoraciques retrosternale irradiant vers l'epaule gauche survenues lors d'un effort physique, accompagnees de nausees et de sueurs. L'examen clinique a retrouve un patient apyretique en bon etat hemodynamique avec assourdissement des bruits du c'ur a l'auscultation cardiaque et une ischemie sous epicardique apico laterale sur l'ECG. La radiographie thoracique a montre un aspect legerement globuleux de l'arc inferieur gauche. Le bilan biologique standard etait sans particularite en dehors d'une hypereosinophilie a 15%. Le patient fut admis en cardiologie pour angor d'effort. L'echocardiographie trans thoracique a objective la presence d'un processus tumoral kystique multivesiculaire siegeant au niveau de la paroi laterale du ventricule gauche occupant toute l'epaisseur du segment moyen et apical avec trouble de la contractilite a ce niveau et un epanchement pericardique de moyenne abondance. Le scanner a mis en evidence une formation hypodense, liquidienne, homogene, grossierement ovalaire mesurant 50x30mm environ, a paroi discretement epaisse, non modifiee par le produit de contraste et calcifiee par endroit avec epanchement pericardique. Les coupes sous diaphragmatiques ont revelees la presence d'une enorme formation kystique renale droite arrondie de 13.5 cm de diametre, a paroi epaisse ne prenant pas le contraste et siege de fines cloisons. Ce processus refoule le pedicule renal en arriere mais sans retentissement sur les voies excretrices urinaires. Dans ses antecedents, le patient rapporte que son fils a ete opere il y a 6 mois pour une hydatidose hepato renale. Devant ce contexte clinique et radiologique le diagnostic de kystes hydatiques cardiaque et renal grade III selon la classification de Gharbi (multivesiculaire) a ete pose et ensuite confirme par la chirurgie. Le patient a beneficie d'une sternotomie sous CEC puis resection d'un kyste hydatique epicardo pericardique rompue partiellement dans le pericarde suivi d'un lavage au serum sale hypertonique. Les suites operatoires ont ete simples sans complications particulieres. Actuellement, le patient est transfere en urologie pour la prise en charge du kyste hydatique renal.",FUMEUR


In [34]:
### QUELQUES REGEX RECHERCHE ENTITES

regexp_rules_tabac = [

    RegexpMatcherRule(regexp=r"\bcigare(tte)?[s]?\b", label="statut_tabagisme"),
    RegexpMatcherRule(regexp=r"\bfume(e)?[s]?\b", label="statut_tabagisme"),
    RegexpMatcherRule(regexp=r"\btaba(c|gisme|gique)\b", label="statut_tabagisme"),
    RegexpMatcherRule(
    regexp=r"fumeur|fumeuse|paquet.{0,5}?ann[ée].?",
    label="statut_tabagisme",
    unicode_sensitive=True),
]

regexp_rules_alcool= [

    RegexpMatcherRule(regexp=r"\balcool\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\bboit\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\balcoolique\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\bdependance\s*alcool\b", label="statut_alcool"),
    RegexpMatcherRule(regexp=r"\balcoolisme\b", label="statut_alcool"),

]

regexp_rules_situation_familiale= [

    RegexpMatcherRule(regexp=r"\bmarie[e]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bcelibataire\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bdivorce[e]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bveuf\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bveuve\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bpacse[e][s]?\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\bconcubinage\b", label="statut_marital"),
    RegexpMatcherRule(regexp=r"\b(vit|habite)\sseul(e)?\b", label="statut_marital"),

]

# On convertit les règles avec RegexpMatcher
regexp_matcher_tabac = RegexpMatcher(rules=regexp_rules_tabac)
regexp_matcher_alcool = RegexpMatcher(rules=regexp_rules_alcool)
regexp_matcher_situation_familiale = RegexpMatcher(rules=regexp_rules_situation_familiale)

### QUELQUES REGEX NEGATION

neg_rules_tabac = [       

NegationDetectorRule(regexp=r"\bne\s*(semble|consomme|prend)\s*pas"),
NegationDetectorRule(regexp=r"jamais"),
NegationDetectorRule(regexp=r"arret"),
NegationDetectorRule(regexp=r"ancien"),
NegationDetectorRule(regexp=r"\bnon\s*tabagi(que|sme)"),
NegationDetectorRule(regexp=r"\b(ni|non)\/sfumeu(r|se)"),
NegationDetectorRule(regexp=r"\bne/s*fume/s*pas\b"),
NegationDetectorRule(regexp=r"non\\s+fumeur|tabac\\s+non|tabagisme\\s+non|Tabac\\s*[=:]?\\s*0|tabagi(sm|qu)e\\s+sevr|(pas|ni|ou)\\s+de\\s+(consommation\\s+de\\s+)?taba|pas\\s+d\\'intoxication\\s+tabagi|0 tabac",
                    unicode_sensitive=True),

]

neg_rules_alcool = [

    NegationDetectorRule(regexp=r"ne\s*boit\s*pas"),
    NegationDetectorRule(regexp=r"\bne/s*consomme/s*pas\b"),
    NegationDetectorRule(regexp=r"\bni/s*alcool\b"),
]

neg_rules_situation_familiale = [

    NegationDetectorRule(regexp=r"\bn'est pas\b"),
    NegationDetectorRule(regexp=r"\bne vit pas\b"),
    NegationDetectorRule(regexp=r"\bn'habite pas\b"),
    NegationDetectorRule(regexp=r"\bni\b"),
]

   
# Création de l'objet neg detector
neg_detector_tabac = NegationDetector(output_label="is_negated", rules=neg_rules_tabac)
neg_detector_alcool = NegationDetector(output_label="is_negated", rules=neg_rules_alcool)
neg_detector_situation_familiale = NegationDetector(output_label="is_negated", rules=neg_rules_situation_familiale)



# On charge les cas cliniques dans un dico{nom fichier}=cas clinique
clinical_cases_dico = clinical_case_recovery("clinical_case1")

for fichier, clinical_case in clinical_cases_dico.items():
    clinical_case = preprocessing(clinical_case)
    doc = TextDocument(text=clinical_case)
    
    ## On sépare le texte en phrases
    sent_tokenizer = SentenceTokenizer(
        output_label="sentence",
        punct_chars=[".", "?", "!"],
    )
    sentences = sent_tokenizer.run([doc.raw_segment])

    ## On sépare les phrases en syntagmas
    synt_tokenizer = SyntagmaTokenizer(
        output_label="sentence",
        separators=[r"\bmais\b", r"\bet\b"],
    )
    syntagmas = synt_tokenizer.run(sentences)
    
    list_neg_detector = [neg_detector_tabac,neg_detector_alcool,neg_detector_situation_familiale]
    
    for neg_detector in list_neg_detector:
        
        # On applique neg detector aux syntagmas
        neg_detector.run(syntagmas)

        # On applique family detector aux syntagmas
        family_detector = FamilyDetector(output_label='other_detected')
        family_detector.run(syntagmas)

        # CREATION OF ENTITIES
        regexp_matcher = RegexpMatcher(rules=regexp_rules_tabac + regexp_rules_alcool + regexp_rules_situation_familiale,
                                       attrs_to_copy=["is_negated", "other_detected"])

        entities = regexp_matcher.run(syntagmas)
        for entity in entities:
            doc.anns.add((entity))
        
        if neg_detector == neg_detector_tabac:
            statut_tabagisme = statut_extraction_tabac(doc)
        elif neg_detector == neg_detector_alcool:
            statut_alcool = statut_extraction_alcool(doc)
        else:
            statut_familial = statut_extraction_situation_familiale(doc)

    if statut_tabagisme == "FUMEUR":
        print(cinical_case)
        print(statut_tabagisme)
        print("\n")



Un cycliste âgé de 17 ans a été victime d’un accident de vélo avec réception du guidon au niveau de l’épigastre occasionnant des épigastralgies. A l’admission, l’abdomen était sensible, la lipasémie était à 10 fois la normale. La TDM montrait une fracture isthmique du pancréas avec une pancréatite stade E de Balthazar [6] (figure 1), le Wirsung traversant la zone d’hyperdensité, sa rupture ne pouvait être écartée (Classe III Lucas [7]). L’attitude était le traitement médical de la pancréatite, avec surveillance clinique et échographique. L’évolution était favorable sans séquelles.

FUMEUR


Un cycliste âgé de 17 ans a été victime d’un accident de vélo avec réception du guidon au niveau de l’épigastre occasionnant des épigastralgies. A l’admission, l’abdomen était sensible, la lipasémie était à 10 fois la normale. La TDM montrait une fracture isthmique du pancréas avec une pancréatite stade E de Balthazar [6] (figure 1), le Wirsung traversant la zone d’hyperdensité, sa rupture ne pouvai

Un cycliste âgé de 17 ans a été victime d’un accident de vélo avec réception du guidon au niveau de l’épigastre occasionnant des épigastralgies. A l’admission, l’abdomen était sensible, la lipasémie était à 10 fois la normale. La TDM montrait une fracture isthmique du pancréas avec une pancréatite stade E de Balthazar [6] (figure 1), le Wirsung traversant la zone d’hyperdensité, sa rupture ne pouvait être écartée (Classe III Lucas [7]). L’attitude était le traitement médical de la pancréatite, avec surveillance clinique et échographique. L’évolution était favorable sans séquelles.

FUMEUR


Un cycliste âgé de 17 ans a été victime d’un accident de vélo avec réception du guidon au niveau de l’épigastre occasionnant des épigastralgies. A l’admission, l’abdomen était sensible, la lipasémie était à 10 fois la normale. La TDM montrait une fracture isthmique du pancréas avec une pancréatite stade E de Balthazar [6] (figure 1), le Wirsung traversant la zone d’hyperdensité, sa rupture ne pouvai