# Try SpaCy

In [1]:
import spacy

In [2]:
from spacy import displacy

In [None]:
# run this command line the first time you need to use fr_core_news_sm
#!python -m spacy download fr_core_news_sm

# similarly, run these command lines for these models
#!python -m spacy download fr_core_news_lg
#!python -m spacy download en_core_web_sm
#!python -m spacy download fr_dep_news_trf

## The model en_core_web_sm works well in English

In [2]:
nlp = spacy.load("en_core_web_sm")
sentence = "On Wall Street, the financial industry officially started \
on May 17, 1792, at 6 pm by signing the Buttonwood Agreement. \
The document in now part of the archival collection of the New York Stock \
Exchange in New York, owned by International Exchange which CEO is Jeffrey Craig Sprecher."
doc = nlp(sentence)
displacy.render(doc, style="ent", jupyter=True)

## But the model fr_core_news_sm and the other models for French are not trained to recognise dates so they don't work so well for us

In [6]:
nlp = spacy.load("fr_core_news_sm")
sentence = "A Rue de la Paix, l'industrie a officiellement commancée le 17 mai 1792, à 18h00 par la \
signature de la convention Dubois. Le document fait maintenant partie de la collection des Archives de Paris \
à Paris, appartenant à la République Française dont le président est Emmanuel Macron."
doc = nlp(sentence)
displacy.render(doc, style="ent", jupyter=True)

In [3]:
nlp = spacy.load("fr_dep_news_trf")
sentence = "A Rue de la Paix, l'industrie a officiellement commancée le 17 mai 1792, à 18h00 par la \
signature de la convention Dubois. Le document fait maintenant partie de la collection des Archives de Paris \
à Paris, appartenant à la République Française dont le président est Emmanuel Macron."
#sentence = "À Wall Street, l'industrie financière a officiellement débuté le 17 mai 1792, \
#à 18 heures, par la signature de l'accord de Buttonwood. Le document fait maintenant partie de \
#la collection d'archives de la bourse de New York. de New York, détenue par International Exchange \
#dont le PDG est Jeffrey Craig Sprecher."
doc = nlp(sentence)
displacy.render(doc, style="ent", jupyter=True)



In [10]:
sentence = "Réalisation d'une prise de sang chez monsieur Didier Nicolas Prise de \
sang réalisée le 12 février 2022 à 9h15 à domicile, patient en ald merci."
#sentence = "Ordonnance pour la réalisation d'un test PCR covid-19 à madame gauthier monique. \
#Test réalisé à domicile le 28 03 2022 à 9h15 test pris en charge car ordonnance pour \
#intervention programmée et patiente au parcours vaccinal complet. Merci."
#sentence = "Vaccin fait le 11/11/2020 au domicile de la patiente merci."
#sentence = "Prise de sang, réaliser au cabinet le 10 août à 9h10 dans le cadre du 100% ald."
#sentence = "Je sang fait au domicile de la patiente le 9 janvier attention, changement de nom, \
#reprise du nom de jeune fille au nom de marie-claude, à la place de vader. \
#Mutuelle, numériser, merci. Prise de sang fait le 9, merci."

In [11]:
doc = nlp(sentence)
displacy.render(doc, style="ent", jupyter=True)

## Try the med7 model (but this issue is that it was trained in English, not French)

In [2]:
med7 = spacy.load("en_core_med7_lg")

In [14]:
# create distinct colours for labels
col_dict = {}
seven_colours = ['#e6194B', '#3cb44b', '#ffe119', '#ffd8b1', '#f58231', '#f032e6', '#42d4f4']
for label, colour in zip(med7.pipe_labels['ner'], seven_colours):
    col_dict[label] = colour

options = {'ents': med7.pipe_labels['ner'], 'colors':col_dict}

text = 'A patient was prescribed Magnesium hydroxide 400mg/5ml suspension PO of total 30ml bid for the next 5 days.'
#text = 'A patient was prescribed Magnesium hydroxide 400mg/5ml suspension PO of total 30ml bid for 5 days a week.'
#text = "Blood test performed at mister Didier Nicolas'. Blood test performed on February 12, 2022 \
#at 9:15 a.m. at home, patient in ald thanks."

doc = med7(text)

spacy.displacy.render(doc, style='ent', jupyter=True, options=options)

[(ent.text, ent.label_) for ent in doc.ents]

[('Magnesium hydroxide', 'DRUG'),
 ('suspension', 'FORM'),
 ('PO', 'ROUTE'),
 ('30ml', 'DOSAGE'),
 ('bid', 'FREQUENCY'),
 ('for the', 'DURATION')]