## Importation

In [1]:
import pandas as pd
import numpy as np
import re
from nltk.tokenize import word_tokenize
from unidecode import unidecode
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer,PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import joblib

In [2]:
df = pd.read_csv("Ressources/RessourcesAnalyse/DTfinal.csv")
df.head()

Unnamed: 0,Maladies,Symptomes,Traitement,Examens,Symptomes_lem_token,Symptomes_stem_token
0,endométriose,"douleurs pelviennes intenses,douleurs pendant ...","médicaments anti-inflammatoires,chirurgie,trai...","imagerie médicale (échographie pelvienne),lapa...",ovulation irrégulier pelvienne défécation naus...,sexuel exercic defec pelvienn fatigu intestina...
1,anémie ferriprive,"fatigue intense,faiblesse générale,palpitation...","suppléments de fer,ajustement du régime alimen...","analyse de sang (taux de fer),numération sangu...",concentration étourdissement fatigue ongle pie...,essouffl general fatigu faibles inten pale car...
2,trouble bipolaire,"variations extrêmes d'humeur,irritabilité ,ins...","médicaments stabilisateurs de l'humeur,thérapi...","évaluation psychiatrique,entretiens cliniques",prise dépression concentration humeur activité...,manier prise sexuel depres insomni humeur aug ...
3,maladie de lyme,éruption cutanée en forme de cible (érythème m...,"antibiotiques,médicaments anti-inflammatoires,...","test sanguin (détection d'anticorps),analyse d...",fièvre fatigue faciale raideur érythème maux c...,musculair lumier fatigu facial paralysi cardia...
4,schizophrénie,"hallucinations auditives,hallucinations olfact...","antipsychotiques,thérapie psychosociale,hospit...","évaluation psychiatrique,entretiens cliniques,...",concentration discour paranoïa olfactive émous...,visuel desorgani hallucin affectif pense emous...


In [3]:
class NLTKSearch:
    def __init__(self,df):
        self.df = df
        self.tfidf_vectorizer = TfidfVectorizer()
        self.tfidf_matrix = self.tfidf_vectorizer.fit_transform(df["Symptomes_stem_token"]).toarray()
        self.stop_words = list(set(stopwords.words('french')))
        self.lemmatizer = WordNetLemmatizer()
        self.ps = PorterStemmer()
    
    def search(self, query):
        
        def Cleaning(text):
            
            new_stopwords =["facilement","tres","pendant"]

            self.stop_words.extend(new_stopwords)
    
            def remove_s(word):
                if word.endswith('s'):
                    return word[:-1]
                if word.endswith('ment'):
                    return word[:-4]
                else:
                    return word

            liste2 = ["abdomin ","abdomen","abdominal"]
            liste1 = ["douleur","mal"]

            # Supprimer des ponctuations
            text = re.sub("[^\w\s]", " ", text)
            
            text = ' '.join([self.ps.stem(unidecode(word.lower())) for word in word_tokenize(text) if word.isalnum() and word.lower() not in self.stop_words])

            # supprimer les chiffres
            text = re.sub("\d", "", text)

            #text = [remove_s(word) for word in text]

            text = text.replace("ee ","e ")
            text = text.replace("cutane","peau")

            for i in liste2:
                text = text.replace(i,"ventre ")

            text = list(set(text.split()))

            text = ' '.join([remove_s(word) for word in text])

            for i in liste1:
                text = text.replace(i,"maux")

            text = text.replace(" e "," ")
            return text
    
        processed_query = Cleaning(query)
        
        
        tif2 = TfidfVectorizer()

        cosine_similarite = []

        for i in range(len(df["Symptomes_stem_token"])):
            tfidf2 = tif2.fit_transform([df['Symptomes_stem_token'][i]]).toarray()
            cosine_similaritie = cosine_similarity(tfidf2, tif2.transform([processed_query]))[0]
            cosine_similarite.append(cosine_similaritie)
        
        cosine_similaritie = np.array(cosine_similarite)
        df['Similarites_%'] = 100*cosine_similaritie.flatten()
        df_tri = df.sort_values(by='Similarites_%', ascending=False)
        
        return df_tri

# Créer une instance du moteur de recherche
search_ = NLTKSearch(df)

# Sauvegarder le moteur de recherche avec joblib
joblib.dump(search_, 'Ressources/Joblib/Diagnostic_search.joblib')

['Ressources/Joblib/Diagnostic_search.joblib']

In [4]:
# Charger le moteur de recherche depuis le fichier
Model = joblib.load('Ressources/Joblib/Diagnostic_search.joblib')

# Utiliser le moteur de recherche chargé
query_results = Model.search("j'ai la fievres douala poid peau perte fatigue//. frissons yaya essouflement yaounde maux facilement , la ,   tête")
query_results

Unnamed: 0,Maladies,Symptomes,Traitement,Examens,Symptomes_lem_token,Symptomes_stem_token,Similarites_%
96,paludisme,"fièvre,frissons,maux de tête,fatigue","antipaludiques,repos",test de dépistage du paludisme,fièvre maux fatigue frisson tête,tete fatigu maux fievr frisson,100.000000
84,varicelle,"éruption cutanée avec des démangeaisons,fièvre...","antihistaminiques,antipyrétiques,calamine pour...",les symptômes sont souvent suffisants pour le ...,éruption fièvre démangeaison maux fatigue cuta...,tete demangeaison fatigu maux fievr peau erupt,84.515425
98,trypanosomiase africaine,"fièvre,fatigue,maux de tête,ganglions enflés","médicaments antiparasitaires,antibiotiques",test sanguin,enflé fièvre maux fatigue ganglion tête,tete fatigu ganglion enfl maux fievr,81.649658
97,bilharziose (schistosomiase),"fièvre,toux,éruption cutanée,douleurs musculaires","antiparasitaires,antibiotiques",examen microscopique des selles ou de l'urine,éruption maux fièvre toux musculaire cutanée,musculair maux toux fievr peau erupt,70.710678
78,otite,"douleur à l'oreille,fièvre perte auditive temp...","antibiotiques (si bactérienne),analgésiques,go...",examen de l'oreille par un professionnel de la...,fièvre perte auditive maux oreille temporaire,pert audit oreil temporair fievr maux,70.710678
...,...,...,...,...,...,...,...
2,trouble bipolaire,"variations extrêmes d'humeur,irritabilité ,ins...","médicaments stabilisateurs de l'humeur,thérapi...","évaluation psychiatrique,entretiens cliniques",prise dépression concentration humeur activité...,manier prise sexuel depres insomni humeur aug ...,17.960530
87,coqueluche,"toux sévère par accès,éternuements,épuisement,...","antibiotiques,vaccin de rappel",prélèvement de sécrétions nasales pour la culture,sévère épuise accè aprè éternuement vomissemen...,acc vomis apr sever toux eternu epui,0.000000
22,condylomes génitaux (hpv),"verrues génitales,démangeaisons,saignements pe...","crèmes antivirales,ablation des verrues","test hpv,examen visuel",sexuel verrue démangeaison rapport génitale sa...,sexuel saigne demangeaison genital rapport verru,0.000000
42,maladie de parkinson,"tremblements au repos,raideur musculaire,lente...","médicaments dopaminergiques,thérapie physique,...","examen neurologique,imagerie cérébrale,tests s...",commencer faciale raideur tremblement changeme...,expres problem musculair tremble raideur masqu...,0.000000
