### TODO

- effectuer les similarités entre technolectes de questions en questions et de réponses en réponses.
- faire de même entre une question et ses réponses ?


### Ce qui a été fait

J'ai essayé de faire une première classification par règles. Pour chaque question, je crée des similarités cosinus au mot entre cette question et les autres questions et entre sa réponse et les autres réponses. Toujours pour chaque question, je ne garde que les résultats supérieurs à 0.8 (valeur à modifier par la suite ?). 

Suite à cela, j'ai favorisé une approche plus normée. Les questions sont "bruitées" quand on parle de similarité : beaucoup de termes en commun ne donnant aucun indice sur la réponse à trouver. De plus, une similarité au mot semble peu utile. Il faudrait conserver **exclusivement les technolectes appartenant au champs lexical de la médecine aussi bien dans les questions que dans les réponses**. Avec ces technolectes, on peut ensuite faire de similarités au caractère, plus pertinentes selon moi dans ce contexte.

Les règles de nettoyage sont les suivantes :

- suppression des mots vides, de la ponctuation et des mots d'une longueur de 1. On ignore la case SANS LA SUPPRIMER pour autant.
- on parcours une liste de mots du français (deux listes trouvées, une de 20 000 et plus occurrences, l'autre de 300 000 et plus occurrences) et pour chaque mot reconnu on l'exclu du vocabulaire des technolectes.
- à la fin, on a une liste de mots qui ne sont pas retrouvés dans la liste de mots du français utilisée, la plupart étant des technolectes propres au champs lexical de la médecine.


### Remarques personnelles sur la tâche

Je distingue deux approches au problème :

- une approche visant à savoir si le jeu de données peut se suffire afin d'obtenir de meilleurs résultats que ceux obtenus dans le papier "source" : X questions nous donnent Y indices sur un concept médical, donc on a des liens entre mots clefs au sein du corpus qu'on exploite par la suite.
- une approche visant à créer ou exploiter une base de données médicale suffisement exhaustive afin de permettre une reconnaissance de termes clef entre eux : terme clef A de la question est plus souvent lié au terme B de la réponse X dans un contexte médical.


In [57]:
#Imports et fonctions

import json
import pandas as pd
import string as strii

#from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import spacy
sp = spacy.load("fr_core_news_sm")

def removePunct(string):
    return string.translate(str.maketrans(strii.punctuation, ' '*len(strii.punctuation))) #map punctuation to space

def tokenizer(string):
    spacy_object = sp(string)
    return [word.text for word in spacy_object if word.is_stop == False] #and word.pos_ != "PUNCT" and word.pos_ != "NUM"

def cosinus(q,liste_q):
    #vect = TfidfVectorizer()
    vect = CountVectorizer()
    liste_q_vect = vect.fit_transform(liste_q)
    doc_term_matrix = liste_q_vect.toarray()

    tgt_transform = vect.transform([q]).toarray()
    tgt_cosine = cosine_similarity(doc_term_matrix,tgt_transform)
    return tgt_cosine

def writeJson(path,data):
    with open(path,"w",encoding='utf-8') as f:
        json.dump(data,f,indent=4,ensure_ascii=False)
        
def openJson(path):
    with open(path,'r',encoding='utf-8') as f:
        data = json.load(f)
    return data       

In [58]:
#Chargement du jeu de données

df = pd.read_csv("../data/csv/train.csv",delimiter=";")

In [60]:
#Visualisation du vocabulaire qui peut être utilisé pour des similarités

#Le problème est que beaucoup de mots peuvent fausser la similarité entre une question et une autre question 
#('parmi', 'indiquer', ...). 
#On regarde la liste des mots une fois qu'on retire les stopwords et les ponctuations.

liste = "liste_francais.txt"
#liste = "liste.de.mots.francais.frgut.txt"

with open(liste,'r',encoding='utf-8') as f:
     liste_mots = [line.rstrip('\n').lower() for line in f]

def makeVoc(liste):
    voc = []
    for item in liste:
        for word in tokenizer(removePunct(item)):
            if word not in voc:
                voc.append(word)
    return [w for w in voc if len(w) > 1]

reponses = []
for i in range(len(df)):
    reponses.append(" | ".join([df[f"answers.{l}"][i] for l in df["correct_answers"][i].split("|")]))    

vocQ = makeVoc(df["question"])
vocR = makeVoc(reponses)
voc_global = set(vocQ+vocR)

#voc_medical = list(voc_global - set(liste_mots))
voc_medical = []
voc_reste = []
for word in voc_global:
    if word.lower() in liste_mots:
        voc_reste.append(word)
    else:
        voc_medical.append(word)

print(len(voc_medical))
print(len(voc_reste))


print(voc_reste)


5646
2952
['collectives', 'homme', 'autour', 'malin', 'variation', 'utilisés', 'protéger', 'Taux', 'donneur', 'appel', 'importance', 'positifs', 'habituelle', 'fréquemment', 'obligations', 'épaisseur', 'chromosome', 'meilleur', 'Médicaments', 'origine', 'diminué', 'incolore', 'existants', 'aggraver', 'gène', 'conditionnement', 'participant', 'javel', 'Agents', 'industriels', 'autorisés', 'généralement', 'secondaire', 'toucher', 'conseillé', 'mûrs', 'etat', 'lourde', 'long', 'déclencher', 'lieu', 'solaire', 'observer', 'urbaine', 'surfaces', 'initiale', 'effectué', 'grammes', 'molaire', 'oncogènes', 'stade', 'évoluer', 'répétés', 'Enfant', 'possèdent', 'réaction', 'note', 'mensuel', 'lumineux', 'classiques', 'diminue', 'tampon', 'penser', 'inattendus', 'immunité', 'médicament', 'bon', 'Van', 'émis', 'site', 'performance', 'tête', 'indésirable', 'solitaire', 'but', 'Effectue', 'témoins', 'particule', 'donne', 'osseux', 'lente', 'hétérogène', 'correspond', 'orientations', 'Déclenche', 'po

In [61]:
print(voc_medical)

['Hyperkaliémie', 'progestatifs', 'ultrasoniques', '15ème', 'tyramine', 'Réabsorption', 'hypervariables', 'insulinosécrétion', 'obéit', 'LEPONEX', 'insulinémie', 'sulfonate', 'facio', 'clomipramine', 'IM', 'aliskiren', 'spectroscopie', 'infectant', 'Flaviviridae', 'diazonium', 'polyglobulies', 'Promyélocyte', 'méningoencéphalite', 'dasatinib', 'paludéenne', 'hyperosmolaire', 'Biperidene', 'thécale', 'Intoxication', 'différentiel', 'Mycophénolate', 'imine', 'Raynaud', 'stérilisation', 'désorganisation', 'E1', 'HYPERIUM', 'néphritique', 'hémoconcentration', 'réutilisable', 'leucopénie', 'glutamique', 'physiologiques', 'Ebstein', 'CIVD', 'réabsoption', 'neuroleptiques', 'antidiurétique', 'foetal', 'embolies', 'hydroxylé', 'Interagir', 'ubiquitaire', 'µm', 'podocytes', 'faecalis', 'GRAM', 'radioactive', 'Clarithromycine', 'splénectomie', 'Salicylés', 'Km', 'chlorambucil', 'lipotrope', 'salbutamol', 'ml', 'caillot', 'antivirale', 'tératogène', 'surpoids', 'valproate', 'alvéolaire', 'épi

In [1]:
#BROUILLON

"""ids = []
questions = []
reponses = []
total_reponses = []

for i in range(len(df)):
    ids.append(df["id"][i])
    questions.append(df["question"][i])
    reponses.append(" | ".join([df[f"answers.{l}"][i] for l in df["correct_answers"][i].split("|")]))
    total_reponses.append(df["correct_answers"][i])

for i,idd in enumerate(ids):
    dic[idd] = {"reponses":total_reponses[i],"similarités":{}}
    
    resQ = [list(s) for s in cosinus(questions[i],questions)]
    resR = [list(s) for s in cosinus(reponses[i],reponses)]
    
    for j,idd2 in enumerate(ids):
        dic[idd]["similarités"][idd2] = {"reponses":total_reponses[j],"simQ":resQ[j][0],"simR":resR[j][0]}

writeJson("sims.json",dic)"""

voc = {}
for question in df["question"]:
    for word in removePunct(question).split():
        if word not in voc:
            voc[word] = 0
        voc[word] += 1
        
writeJson("question_voc",voc)

Parmi les affirmations suivantes, une seule est fausse, indiquer laquelle: les particules alpha


ZeroDivisionError: division by zero

In [17]:
#OBSOLETE : Tri des questions par mesure de similarité

data = openJson("sims.json")

similarities_clusters = []

for idQ, subdic in data.items():
    sim_clus = []
    for k,v in subdic["similarités"].items():
        if v["simQ"] > 0.8:
            sim_clus.append(k)
    similarities_clusters.append(sim_clus)

similarities_clusters_clean = []
for l in similarities_clusters:
    if len(l) > 1:
        similarities_clusters_clean.append(l)
    
#on sauvegarde les clusters en supprimant les clusters similaires ET LES CLUSTERS D'UN ELEMENT
writeJson("cluster_by_question_similarities.json",[list(item) for item in set(tuple(row) for row in similarities_clusters_clean)]) 

In [4]:
import pandas as pd

df = pd.read_csv("../data/csv/train.csv",delimiter=";")
data = openJson("cluster_by_question_similarities.json")

questions_list = []
for l in data:
    new_l = []
    for i in range(len(df)):
        if df["id"][i] in l:
            new_l.append(df["question"][i])
    questions_list.append(new_l)
    
writeJson("questions.json",questions_list) 