In [142]:
# Load a spacy model and chekc if it has ner
import spacy
nlp=spacy.load('en_core_web_sm')

nlp.pipe_names
# Getting the pipeline component
ner=nlp.get_pipe("ner")

In [145]:
nlp.pipe_names

['tagger', 'parser', 'ner']

In [130]:
TRAIN_DATA = [
              ("Walmart is a leading e-commerce company", {"entities": [(0, 7, "ORG")]}),
              ("I reached Chennai yesterday.", {"entities": [(19, 28, "GPE")]}),
              ("I recently ordered a book from Amazon", {"entities": [(24,32, "ORG")]}),
              ("I was driving a BMW", {"entities": [(16,19, "PRODUCT")]}),
              ("I ordered this from ShopClues", {"entities": [(20,29, "ORG")]}),
              ("Fridge can be ordered in Amazon ", {"entities": [(0,6, "PRODUCT")]}),
              ("I bought a new Washer", {"entities": [(16,22, "PRODUCT")]}),
              ("I bought a old table", {"entities": [(16,21, "PRODUCT")]}),
              ("I bought a fancy dress", {"entities": [(18,23, "PRODUCT")]}),
              ("I rented a camera", {"entities": [(12,18, "PRODUCT")]}),
              ("I rented a tent for our trip", {"entities": [(12,16, "PRODUCT")]}),
              ("I rented a screwdriver from our neighbour", {"entities": [(12,22, "PRODUCT")]}),
              ("I repaired my computer", {"entities": [(15,23, "PRODUCT")]}),
              ("I got my clock fixed", {"entities": [(16,21, "PRODUCT")]}),
              ("I got my truck fixed", {"entities": [(16,21, "PRODUCT")]}),
              ("Flipkart started it's journey from zero", {"entities": [(0,8, "ORG")]}),
              ("I recently ordered from Max", {"entities": [(24,27, "ORG")]}),
              ("Flipkart is recognized as leader in market",{"entities": [(0,8, "ORG")]}),
              ("I recently ordered from Swiggy", {"entities": [(24,29, "ORG")]})
              ]

In [131]:
# Adding labels to the `ner`
for _, annotations in TRAIN_DATA:
    for ent in annotations.get("entities"):
        ner.add_label(ent[2])

In [132]:
#Disable pipeline components you dont need to change
pipe_exceptions = ["ner", "trf_wordpiecer", "trf_tok2vec"]
unaffected_pipes = [pipe for pipe in nlp.pipe_names if pipe not in pipe_exceptions]

In [133]:
# Import requirements
import random
from spacy.util import minibatch, compounding
from pathlib import Path

# TRAINING THE MODEL
with nlp.disable_pipes(*unaffected_pipes):

  # Training for 30 iterations
  for iteration in range(30):

    # shuufling examples  before every iteration
    random.shuffle(TRAIN_DATA)
    losses = {}
    # batch up the examples using spaCy's minibatch
    batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001))
    for batch in batches:
        texts, annotations = zip(*batch)
        nlp.update(
                    texts,  # batch of texts
                    annotations,  # batch of annotations
                    drop=0.5,  # dropout - make it harder to memorise data
                    losses=losses,
                )
        print("Losses", losses)

Losses {'ner': 5.201842270096677}
Losses {'ner': 11.014893497984303}
Losses {'ner': 12.782992042604747}
Losses {'ner': 18.744357949592086}
Losses {'ner': 20.57355493090847}
Losses {'ner': 3.002758458522294}
Losses {'ner': 5.58918810731484}
Losses {'ner': 8.580373360673548}
Losses {'ner': 11.783930865552975}
Losses {'ner': 13.04278807843366}
Losses {'ner': 1.5206242532269698}
Losses {'ner': 5.558721702840785}
Losses {'ner': 11.253823889035402}
Losses {'ner': 16.006544473837266}
Losses {'ner': 16.025851539109045}
Losses {'ner': 6.914257180280174}
Losses {'ner': 10.766244150248667}
Losses {'ner': 12.279224579285255}
Losses {'ner': 13.939598044887305}
Losses {'ner': 15.23069228532205}
Losses {'ner': 4.1097685216518585}
Losses {'ner': 10.319944654507026}
Losses {'ner': 12.510728397500543}
Losses {'ner': 15.771001857566489}
Losses {'ner': 15.773579163318345}
Losses {'ner': 1.346089240611036}
Losses {'ner': 3.4721689179241366}
Losses {'ner': 5.5597207665741735}
Losses {'ner': 7.69838928776516

In [134]:
# Testing the model
doc = nlp("I was driving a Alto")
print("Entities", [(ent.text, ent.label_) for ent in doc.ents])

Entities [('Alto', 'PRODUCT')]


In [135]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [136]:
# chargement du model pre-existing de spacy 
import spacy
nlp=spacy.load('fr_core_news_md')

In [140]:
doc = nlp("Interrogée au Sénat le 16 janvier par des sénateurs à propos de la hausse des frais universitaires décidée récemment par le gouvernement pour les étudiants étrangers non européens, la ministre de l’enseignement supérieur Frédérique Vidal a estimé que les universités françaises, en tant qu’établissements publics opérateurs de l’État, étaient tenues par un ( devoir d’obéissance ) envers les décisions prises par le gouvernement. Sans se prononcer sur le passage des frais de scolarité de 243 à 2770  (licence) et 3770 (masters) euros dès la rentrée 2019, il  faut préciser que si les présidents d’université sont bien tenus d’appliquer cette mesure, ce n’est pas en vertu d’un ( devoir d’obéissance ), surtout s’agissant d’universitaires qui bénéficient d’un principe d’indépendance à l’égard de l’État, mais en vertu de la loi. L’article L712-2 du code de l’éducation1 fixe le statut du président de l’université ainsi que les différentes missions qui lui incombent. Il (est élu à la majorité absolue des membres du conseil d’administration parmi les enseignants-chercheurs, chercheurs, professeurs ou maîtres de conférences (…) ), et à ce titre il est en charge notamment de la direction de l’université. Or une université, en tant qu’établissement public, est en charge d’un service public, c’est-à-dire d’une activité entièrement régie par les  lois et règlements. Donc le président applique – obligatoirement – des lois et règlements. Or les frais de scolarité relèvent d’un arrêté du ministre, pas du président. En effet, le président d’université détient un pouvoir réglementaire comme tout chef de service2, qui lui permet, au nom de l’université,  de définir par exemple les conditions d’examens ou l’organisation des services de l’université, mais ce pouvoir ne porte pas sur les frais de scolarité. Même si la loi de 2007 dite loi LRU3, a considérablement accru les compétences dévolues au président d’université, elle ne lui a pas confié le pouvoir de fixer les droits de scolarité des formations générales. En somme, le président applique les lois et règlement par fonction et pas par obéissance. Comme nous l’avions rappelé dans un précédent article4, le président d’université, en qualité d’enseignant-chercheur, jouit d’un principe d’indépendance qui constitue même un principe fondamental reconnu par les lois de la République selon le Conseil constitutionnel5 et le Conseil d’État6.  Cela signifie qu’il n’est pas en tant qu’enseignant sous la hiérarchie du ministre et n’a pas à lui ( obéir ). Mais en tant que président, il doit appliquer les textes. En somme les déclarations de certains présidents d’universités tendant au refus d’augmenter les droits d’inscription tiennent plus de la protestation que du refus effectif, car pour l’instant l’arrêté ministériel sur les nouveaux tarifs n’est pas publié et aussi parce que ces tarifs n’entreraient en vigueur qu’en septembre 2019. Si l’arrêté est publié, aucun président ne pourra le contourner, car aucun comptable public ne pourra encaisser des droits pour un montant qui ne correspond pas à celui de l’arrêté ministériel. Ce serait une faute grave du comptable public, et un président qui obligerait le comptable à commettre cette faute serait lui-même en faute.")

In [141]:
# parcourir les entités prédites
for ent in doc.ents:
    # Affiche le texte de l'entité et son label
    print(ent.text, "------->", ent.label_)

Sénat -------> ORG
Frédérique Vidal -------> PER
État -------> LOC
État -------> LOC
L712 -------> MISC
LRU3 -------> MISC
République -------> MISC
Conseil constitutionnel5 -------> ORG
Conseil d’État6 -------> ORG


In [54]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [58]:
import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span

nlp = spacy.load("fr_core_news_sm")
Date = ["janvier", "février", "mars", "avril", "mai", "juin", "juillet", "aout", "septembre", "octobre", "novembre", "décembre"]
Date_patterns = list(nlp.pipe(Date))
print("Date_patterns :", Date_patterns)
matcher = PhraseMatcher(nlp.vocab)
matcher.add("DATE", None, *Date_patterns)

# Définis le composant personnalisé
def Date_component(doc):
    # Applique le matcher au doc
    matches = matcher(doc)
    # Crée un Span pour chaque correspondance et assigne-lui le label "ANIMAL"
    spans = [Span(doc, start, end, label="DATE") for match_id, start, end in matches]
    # Actualise doc.ents avec les spans en correspondance
    doc.ents = list(doc.ents) + spans
    return doc

# Ajoute le composant au pipeline après le composant "ner"
nlp.add_pipe(Date_component, after="ner")
print(nlp.pipe_names)


Date_patterns : [janvier, février, mars, avril, mai, juin, juillet, aout, septembre, octobre, novembre, décembre]
['tagger', 'parser', 'ner', 'Date_component']


In [59]:
# Traite le texte et affiche le texte et le label pour les doc.ents
doc = nlp("J'ai un chat et un Golden Retriever le 22 mars 2021")
print([(ent.text, ent.label_) for ent in doc.ents])

[('Golden Retriever', 'MISC'), ('mars', 'DATE')]
