# Tâche réalisée

Ici, la tâche réalisée est la création d'un jeu de données complémentaire afin de détecter des technolectes médicaux liés.

Nous avons prit l'ensemble du corpus Mesh FR et nous avons réalisé les étapes suivantes :
- **Ouverture des colonnes jugées intéressantes du corpus** : ces colonnes contiennent une nombre important de termes médicaux, mais également des termes courants pouvant être utilisé dans le champs lexical de la médecine, et qui jusqu'alors étaient supprimés.
- **Nettoyage des colonnes ouvertes** : on en retire la ponctuation et les mots vides afin de ne garder que les termes prévalents.
- **Sauvegarde dans un fichier** : on conserve précieusement ce vocabulaire.

In [1]:
import json
import string as strii
import pandas as pd

import spacy
sp = spacy.load("fr_core_news_sm")

def openJson(path):
    with open(path,'r',encoding='utf-8') as f:
        data = json.load(f)
    return data     

def writeJson(path,data):
    with open(path,"w",encoding='utf-8') as f:
        json.dump(data,f,indent=4,ensure_ascii=False)

def removePunct(string):
    return string.translate(str.maketrans(strii.punctuation, ' '*len(strii.punctuation))) #map punctuation to space

def tokenizer(string):
    sp.max_length = 10500000
    spacy_object = sp(string, disable = ['ner', 'parser'])
    return [word.text for word in spacy_object if word.is_stop == False] #and word.pos_ != "PUNCT" and word.pos_ != "NUM"


In [9]:
#ouverture du fichier

df = pd.read_csv("input/MESHFRENSH.csv",delimiter=",")

labels = [str(l).lower() for l in df["Label"]]
synonyms = [str(s).lower() for s in df["Synonyms"]]


In [10]:
#Création d'une liste de mots clefs médicaux à partir de Mesh

labels = tokenizer(removePunct(" ".join(labels)))
synonyms = tokenizer(removePunct(" ".join(synonyms)))

keywords = list(set(labels+synonyms))
writeJson("output/corpusRef/keywordsMesh.json",keywords)


In [4]:
#Création d'une liste en épargant les termes présents dans Mesh

liste = "input/liste.de.mots.francais.frgut.txt"
with open(liste,'r',encoding='utf-8') as f:
     liste_mots = [line.rstrip('\n').lower() for line in f]
liste_keywords = openJson("output/corpusRef/keywordsMesh.json")

liste_mots_without_mesh_mots = []
for word in liste_mots:
    if word not in liste_keywords:
        liste_mots_without_mesh_mots.append(word)
writeJson("output/corpusRef/mots_fr_without_mesh_words.json",liste_mots_without_mesh_mots)

TypeError: writeJson() missing 1 required positional argument: 'data'

In [7]:
def writeOutputFile(path,string):
    with open(path, 'a',encoding='utf-8') as f:
        f.write(f"{string}\n")        

for word in liste_mots_without_mesh_mots:
    writeOutputFile("output/corpusRef/mots_fr_without_mesh_words.txt",word)      
    

In [6]:
df = pd.read_csv("input/corpus_corina V2(pour julien).csv",delimiter=',')
l = []
answers = df["answer"].dropna()
for a in answers:
    l.append(a)
writeJson("output/Corpus_Corina.json",l)
    

In [25]:
df = pd.read_csv("input/output.csv",sep=':')
l = []
answers = df[" extended response"].dropna()
for a in answers:
    l.append(a.replace('"',""))
writeJson("output/chatGPT.json",l)
    