# Creating training corpus of french pharmacology texts

We try to obtain the more relevant corpus of text for the training of Fasttext embedding

In [1]:
import numpy as np 
import os 
import pandas as pd
import re

In [2]:
path2extern_data ='../external_data/'

path2EMEAcorpus= path2extern_data + 'EMEA.es-fr.fr'
medicament_list_path = path2extern_data + 'medicaments_france.xls'

## EMEA french corpus

In [3]:
with open(path2EMEAcorpus) as f:
        emea_fr = f.read().splitlines()
# removing main title
emea_fr = emea_fr[3:]

In [4]:
emea_fr[:10]

['ABILIFY',
 'Résumé EPAR à l’ intention du public',
 'Ce document est un résumé du rapport européen public d’ évaluation (EPAR).',
 'Il explique comment le comité des médicaments à usage humain (CHMP) a évalué les études réalisées afin d’ aboutir à ses recommandations relatives aux conditions d’ utilisation du médicament.',
 'Pour plus d’ informations sur votre état ou votre traitement, veuillez consulter la notice (également comprise dans l’ EPAR) ou contacter votre médecin ou votre pharmacien.',
 'Si vous souhaitez davantage d’ informations sur la base des recommandations du CHMP, veuillez lire la discussion scientifique (également comprise dans l’ EPAR).',
 "Qu’ est -ce qu'Abilify?",
 'Abilify est un médicament qui contient le principe actif aripiprazole.',
 'Il est disponible sous la forme de comprimés de 5 mg, 10 mg, 15 mg et 30 mg, de comprimés orodispersibles (comprimés qui se dissolvent dans la bouche) de 10 mg, 15 mg et 30 mg, sous la forme d’ une solution buvable (1 mg/ ml) 

In [5]:
emea_train = [e for e in emea_fr if len(e.split()) >=3]

In [6]:
emea_train[:20]
print('We discard approximately: ', np.round(1 - len(emea_train)/len(emea_fr), 2), '% of the orginal corpus')

We discard approximately:  0.23 % of the orginal corpus


In [7]:
# lower the title lines of the corpus that are upper case
def lower_titles(s):
    s_list = s.split()
    # detect upercase titles
    up = 0
    for w in s_list:
        if w.lower()!=w:
            up+=1
    #print(up)
    if up == len(s_list):
        return s.lower()
    else:
        return s

In [8]:
emea_train = [lower_titles(s) for s in emea_train]

In [9]:
emea_train[:5]

['Résumé EPAR à l’ intention du public',
 'Ce document est un résumé du rapport européen public d’ évaluation (EPAR).',
 'Il explique comment le comité des médicaments à usage humain (CHMP) a évalué les études réalisées afin d’ aboutir à ses recommandations relatives aux conditions d’ utilisation du médicament.',
 'Pour plus d’ informations sur votre état ou votre traitement, veuillez consulter la notice (également comprise dans l’ EPAR) ou contacter votre médecin ou votre pharmacien.',
 'Si vous souhaitez davantage d’ informations sur la base des recommandations du CHMP, veuillez lire la discussion scientifique (également comprise dans l’ EPAR).']

## Add the medicaments list

In [10]:
medic_db = pd.read_excel(medicament_list_path)
medic_db.head()

Unnamed: 0,Titulaire,Code CIS,Dénomination spécialité,Libellé ATC,Code ATC,N° CESP,Date de dépôt,Code pictogramme (1 ou 2 ou 3)
0,3M ESPE AG (ALLEMAGNE),65319857,"UBISTESIN ADRENALINEE au 1/100 000, solution i...",Articaïne en association,N01BB58,,,
1,3M ESPE AG (ALLEMAGNE),63852237,"UBISTESIN ADRENALINEE au 1/200 000, solution i...",Articaïne en association,N01BB58,,,
2,ABBVIE,63615206,"FORENE, liquide pour inhalation par vapeur",Isoflurane,N01AB06,,,
3,ABBVIE,66282739,"SEVORANE, liquide pour inhalation par vapeur",Sévoflurane,N01AB08,,,
4,ABBVIE,66840005,"CHIROCAÏNE 2,5 mg/ml, solution injectable ou s...",Lévobupivacaïne,N01BB10,,,


In [11]:
# retrieve and concatenate the two interesting columns : 'Dénomination spécialité' , 'Libellé ATC'
medic_train = [(e[2] + ' '+ e[3]).lower() for e in medic_db.values]

In [12]:
# replace ',' by '.' in numerical expressions:
def replace_coma(s):
    reg_num = re.search('\d+,\d+', s)
    while reg_num != None:
        s = re.sub(reg_num.group(0), re.sub(',', '.',reg_num.group(0)), s)
        reg_num = re.search('\d+,\d+', s) 
    return s

In [13]:
medic_train = [replace_coma(s) for s in medic_train]
medic_train[:5]

['ubistesin adrenalinee au 1/100 000, solution injectable pour usage dentaire articaïne en association',
 'ubistesin adrenalinee au 1/200 000, solution injectable pour usage dentaire articaïne en association',
 'forene, liquide pour inhalation par vapeur isoflurane',
 'sevorane, liquide pour inhalation par vapeur sévoflurane',
 'chirocaïne 2.5 mg/ml, solution injectable ou solution à diluer pour perfusion lévobupivacaïne']

## Other corpus to add? Add them here! 

## Write final training corpus

In [21]:
path2output = path2extern_data + 'training_fr.txt'
with open(path2output, 'w') as out:
    for s in emea_train:
        out.write(s + '\n')
    for s in medic_train:
        out.write(s + '\n')