# Tâche réalisée

Ici, la tâche réalisée est la création d'un jeu de données complémentaire afin de détecter des technolectes médicaux liés.

Nous avons prit l'ensemble du manuel Merck et nous avons réalisé les étapes suivantes :
- **suppression manuelle des X premières lignes du manuel** : ces lignes correspondent au sommaire et NE DOIVENT PAS se retrouver dans le jeu de données qu'on construit (ou alors on peut les exploiter différement ?)
- **unification des lignes du corpus, des "pages"** : on veut un pavé de texte découpable en phrases. Comme l'a précisé Toufik, certaines phrases sont coupées à la fin d'une page, il faut donc récupérer les informations segmentées.
- **découpage en phrases** : une fois l'unification effectuée, on découpe notre corpus en liste de phrases avec Spacy.
- **identification du vocabulaire** : pour chaque phrase du corpus, on effectue un tri en ne conservant que les mots qui ne sont pas présents dans la liste des mots du français. On récupère ainsi la majorité du vocabulaire médical.
- **concaténation des phrases mal découpées à partir du vocabulaire** : pour chaque phrase, on regarde son vocabulaire. S'il est inférieur à 2, la phrase (et le vocabulaire) ne permettent pas de mettre deux technolectes en commun, on concatène donc cette phrase (et ce vocabulaire) avec la phrase (et le vocabulaire) précédent. RETIRER CE PROCEDE ? 
- **Stockage des données** : on sauvegarde notre corpus de phrases et de vocabulaires dans un CSV.

In [61]:
import json
import re
import string as strii
import pandas as pd

import spacy
sp = spacy.load("fr_core_news_sm")

def writeJson(path,data):
    with open(path,"w",encoding='utf-8') as f:
        json.dump(data,f,indent=4,ensure_ascii=False)
        
def openJson(path):
    with open(path,'r',encoding='utf-8') as f:
        data = json.load(f)
    return data  

def removePunct(string):
    return string.translate(str.maketrans(strii.punctuation, ' '*len(strii.punctuation))) #map punctuation to space

def tokenizer(string):
    spacy_object = sp(string)
    return [word.text for word in spacy_object if word.is_stop == False] #and word.pos_ != "PUNCT" and word.pos_ != "NUM"

def sentenceSplit(string):
    sp.max_length = 10500000
    sp.add_pipe('sentencizer')
    spacy_object = sp(string, disable = ['ner', 'parser'])
    return [sentence.text for sentence in spacy_object.sents]


In [24]:
#Unification des pages du corpus Merck

#La première étape est de supprimer manuellement le sommaire !
#La seconde étape consiste à supprimer toutes les lignes correspondant aux noms des chapitres et aux URLs
#Les schémas sont : "\d / [A-Z]*" pour les noms de chapitres et "http://pro.msd-france.com" pour les URLs
#La dernière étape consiste à joindre les lignes et à appliquer un découpage par phrases.

with open("input/Manuel_Merck.txt",'r',encoding='utf-8') as f:
    lines = [line.rstrip() for line in f]
    
new_lines = []
for line in lines:
    if line != "" and not re.search(r"\d / [A-Z]*",line) and not re.search("http://pro.msd-france.com",line):
        new_lines.append(line)

manuelMerckSentences = sentenceSplit(" ".join(new_lines))
writeJson("output/corpusRef/manuelMerckSentences.json",manuelMerckSentences)

In [53]:
#Création d'une nouvelle liste "manuelMerckSentences vocabulaire médical" afin de ne conserver que les
#technolectes médicaux au sein de chaque phrase.

liste = "input/liste.de.mots.francais.frgut.txt"
with open(liste,'r',encoding='utf-8') as f:
     liste_mots = [line.rstrip('\n').lower() for line in f]
        
manuelMerckSentences = openJson("output/corpusRef/manuelMerckSentences.json")
manuelMerckSentencesVocMed = []

for sentence in manuelMerckSentences:
    vocMed = []
    for word in tokenizer(removePunct(sentence)):
        if len(word) > 1:
            if word.lower() not in liste_mots:
                vocMed.append(word)
    manuelMerckSentencesVocMed.append(vocMed)

writeJson("output/corpusRef/manuelMerckSentences voc médical.json",manuelMerckSentencesVocMed)

In [60]:
#Pour chaque phrase, on regarde son vocabulaire. S'il est inférieur à 2, on concatène la phrase
#avec la phrase précédente.

sentences = openJson("output/corpusRef/manuelMerckSentences.json")
vocabulaires = openJson("output/corpusRef/manuelMerckSentences voc médical.json")

new_sent = [sentences[0]] 
new_voc = [vocabulaires[0]]

for i in range(len(sentences)):
    vocabulaires[i] = [x.strip(' ') for x in vocabulaires[i] if x !=""]
    if i == 0:
        pass
    if len(vocabulaires[i]) >= 2: #2 mots clefs = le minimum pour les similarités pour la suite
        new_sent.append(sentences[i])
        new_voc.append(vocabulaires[i])
    else:
        new_sent[-1] = new_sent[-1] + sentences[i]
        new_voc[-1] = new_voc[-1] + vocabulaires[i]        

writeJson("output/corpusRef/manuelMerckSentences.json",new_sent)
writeJson("output/corpusRef/manuelMerckSentences voc médical.json",new_voc)

#à la fin, trois problèmes repérés :
# - quelques occurrences de "phrases" mal découpées
# - certaines phrases (contenant ■ ou ❍) sont des annexes / sommaires et peuvent poser problème
# - il y a encore du bruit dans les mots clefs, ce qui peut poser problème ?
#   (PROBLEME si les questions et les phrases du corpus possèdent les mêmes mots clefs problématiques)

In [64]:
#Concaténation des phrases et de leur voc dans un csv

sentences = openJson("output/corpusRef/manuelMerckSentences.json")
vocabulaires = openJson("output/corpusRef/manuelMerckSentences voc médical.json")

convert = [{"id":i,"sentence":sentences[i],"vocabulary":vocabulaires[i]} for i in range(len(sentences))]
df = pd.DataFrame.from_records(convert)
df.to_csv("output/corpusRef/MerckCorpus.csv",sep="\t",encoding="utf-8",index=False)

#plus de 30 000 phrases dans ce corpus
#peut-être faire un set ? on aperçoit des doublons