### Importations

In [1]:
import pandas as pd
import numpy as np
import re
from nltk.tokenize import word_tokenize
from unidecode import unidecode
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer,PorterStemmer

### Lecture du dataset

In [2]:
df = pd.read_csv("Ressources/RessourcesAnalyse/DatasetClean.csv")
df.head()

Unnamed: 0,Maladies,Symptomes,Traitement,Examens
0,endométriose,"douleurs pelviennes intenses,douleurs pendant ...","médicaments anti-inflammatoires,chirurgie,trai...","imagerie médicale (échographie pelvienne),lapa..."
1,anémie ferriprive,"fatigue intense,faiblesse générale,palpitation...","suppléments de fer,ajustement du régime alimen...","analyse de sang (taux de fer),numération sangu..."
2,trouble bipolaire,"variations extrêmes d'humeur,irritabilité ,ins...","médicaments stabilisateurs de l'humeur,thérapi...","évaluation psychiatrique,entretiens cliniques"
3,maladie de lyme,éruption cutanée en forme de cible (érythème m...,"antibiotiques,médicaments anti-inflammatoires,...","test sanguin (détection d'anticorps),analyse d..."
4,schizophrénie,"hallucinations auditives,hallucinations olfact...","antipsychotiques,thérapie psychosociale,hospit...","évaluation psychiatrique,entretiens cliniques,..."


## I - Nettoyage de données 

In [3]:
stop_words = stopwords.words('french')
lemmatizer = WordNetLemmatizer()

ps = PorterStemmer()

In [4]:
new_stopwords =["facilement","tres","pendant"]

stop_words.extend(new_stopwords)

In [5]:
def Cleaning(text):
    
    def remove_s(word):
        if word.endswith('s'):
            return word[:-1]
        if word.endswith('ment'):
            return word[:-4]
        else:
            return word
        
    liste2 = ["abdomin ","abdomen","abdominal"]
    liste1 = ["douleur","mal"]
        
    # Supprimer des ponctuations
    text = re.sub("[^\w\s]", " ", text)
   
    text = ' '.join([lemmatizer.lemmatize(word.lower()) for word in word_tokenize(text) if word.isalnum() and word.lower() not in stop_words])
    
    # supprimer les chiffres
    text = re.sub("\d", "", text)
    
    #text = [remove_s(word) for word in text]
    
    text = text.replace("ee ","e ")
    text = text.replace("cutane","peau")
    
    for i in liste2:
        text = text.replace(i,"ventre ")
        
    text = list(set(text.split()))
    
    text = ' '.join([remove_s(word) for word in text])
    
    for i in liste1:
        text = text.replace(i,"maux")
    
    text = text.replace(" e "," ")
    return text



In [6]:
df["Symptomes_lem_token"] = df["Symptomes"].apply(lambda x: Cleaning(x))
df["Symptomes_lem_token"]

0      maux fatigue exercice intestinaux menstruel in...
1      fatigue lisse étourdissement main langue diffi...
2      rapide délirante augmentation sexuelle décisio...
3      maux fatigue forme musculaire paralysie lympha...
4      émousse délirante mémoire affectif désorganisé...
                             ...                        
96                      maux fatigue tête frisson fièvre
97          éruption maux musculaire fièvre toux cutanée
98               maux fatigue tête enflé ganglion fièvre
99      fatigue paupière trouble fièvre cardiaque gonfle
100    rate enflure poid perte fièvre foie anémie pro...
Name: Symptomes_lem_token, Length: 101, dtype: object

## III -  Calcul de similarité

In [7]:
liste_symptomes ="fievres fatigue frissons maux facilement tête"
liste_symptomes = Cleaning(liste_symptomes)

In [8]:
import spacy

# Charger le modèle linguistique français avec des vecteurs de mots
nlp = spacy.load('fr_core_news_md')

liste_symptomes = nlp(liste_symptomes)

In [9]:
cosine_similarite = []

for i in range(len(df["Symptomes_lem_token"])):
    
    doc = nlp(df['Symptomes_lem_token'][i])
    
    cosine_similaritie = doc.similarity(liste_symptomes)
    
    cosine_similarite.append(cosine_similaritie)

In [10]:
cosine_similaritie = np.array(cosine_similarite)
cosine_similaritie

array([0.61765711, 0.74924506, 0.53719215, 0.75618754, 0.472206  ,
       0.73170917, 0.72621213, 0.68427724, 0.7363549 , 0.837056  ,
       0.74336253, 0.72602673, 0.67744933, 0.78875474, 0.71441516,
       0.82710023, 0.78643023, 0.80600264, 0.80851262, 0.67401403,
       0.73182821, 0.70612302, 0.57441591, 0.76301736, 0.75061754,
       0.60568277, 0.58720548, 0.68861632, 0.68646175, 0.83636448,
       0.62666079, 0.72714423, 0.82907244, 0.70829166, 0.83691497,
       0.65412707, 0.7808528 , 0.60560128, 0.67630347, 0.68015954,
       0.69112177, 0.40540237, 0.52387048, 0.69286046, 0.75806751,
       0.81793195, 0.76174029, 0.75474674, 0.59120357, 0.66484581,
       0.62780598, 0.7564414 , 0.628963  , 0.7684921 , 0.78507042,
       0.71540835, 0.73605219, 0.78507042, 0.73486744, 0.77104624,
       0.77039656, 0.79216623, 0.56942144, 0.69009277, 0.76848895,
       0.6088391 , 0.75981812, 0.75921146, 0.66819427, 0.72950717,
       0.64437436, 0.788338  , 0.76924479, 0.70922922, 0.67339

In [11]:
df['Similarite_%'] = 100*cosine_similaritie.flatten()

In [12]:
df['Similarite_%']

0       61.765711
1       74.924506
2       53.719215
3       75.618754
4       47.220600
          ...    
96     100.000002
97      76.229522
98      91.585805
99      78.878705
100     65.708637
Name: Similarite_%, Length: 101, dtype: float64

In [13]:
df_tri = df.sort_values(by='Similarite_%', ascending=False)

In [14]:
print(liste_symptomes)
df_tri[:20]

maux fatigue fievre tête frisson


Unnamed: 0,Maladies,Symptomes,Traitement,Examens,Symptomes_lem_token,Similarite_%
96,paludisme,"fièvre,frissons,maux de tête,fatigue","antipaludiques,repos",test de dépistage du paludisme,maux fatigue tête frisson fièvre,100.000002
98,trypanosomiase africaine,"fièvre,fatigue,maux de tête,ganglions enflés","médicaments antiparasitaires,antibiotiques",test sanguin,maux fatigue tête enflé ganglion fièvre,91.585805
84,varicelle,"éruption cutanée avec des démangeaisons,fièvre...","antihistaminiques,antipyrétiques,calamine pour...",les symptômes sont souvent suffisants pour le ...,éruption maux fatigue tête fièvre démangeaison...,91.547346
79,méningite,"raideur de la nuque,maux de tête sévères fièvr...","antibiotiques,traitement de support,hospitalis...","ponction lombaire,analyse de liquide céphalora...",maux raideur confusion tête fièvre nuque sévère,91.293596
90,accidents vasculaires cérébraux,"engourdissement,faiblesse soudaine,confusion,m...","thérapie de revascularisation,médicaments anti...","tomographie par ordinateur (tdm) du cerveau,im...",maux confusion soudaine tête faiblesse sévère ...,86.779109
9,toxoplasmose,"gonflement des ganglions lymphatiques,fièvre,m...","antibiotiques,repos,traitement symptomatique","test sanguin (détection d'anticorps),biopsie e...",maux fatigue musculaire lymphatique fièvre mau...,83.7056
34,tréponématose non vénérienne,"lésions cutanées (chancre),ganglions lymphatiq...","pénicilline,doxycycline",test de dépistage de la tréponématose non véné...,lésion maux fatigue maux musculaire éruption t...,83.691497
29,chancre mou (ulcère molle),"ulcération génitale indolore,ganglions lymphat...","azithromycine,céfixime","test de dépistage du chancre mou,examen micros...",maux maux fatigue musculaire éruption tête enf...,83.636448
32,mycobacterium avium complex (mac),"fièvre,sueurs nocturnes,fatigue,perte de poids...","antibiotiques,traitement symptomatique","test de dépistage du mac,imagerie médicale",maux fatigue poid nocturne sueur persistante o...,82.907244
15,amibiase,"diarrhée,douleurs abdominales,crampes abdomina...","antiparasitaires,antibiotiques,réhydratation","analyse de selles,imagerie médicale,tests sang...",maux fatigue vomissement glaireuse poid perte ...,82.710023
