# Lemmatization

https://pypi.org/project/spacy-lefff/

In [2]:
#!pip install spacy-lefff

In [1]:
#!python -m spacy download fr

In [3]:
import spacy
from spacy_lefff import LefffLemmatizer, POSTagger

nlp = spacy.load('fr')
french_lemmatizer = LefffLemmatizer()
nlp.add_pipe(french_lemmatizer, name='lefff')
doc = nlp(u"Apple cherche a acheter une startup anglaise pour 1 milliard de dollard")
for d in doc:
    print(d.text, d.pos_, d._.lefff_lemma, d.tag_, d.lemma_)

2021-02-04 00:36:31,041 - spacy_lefff.lefff - INFO - New LefffLemmatizer instantiated.
2021-02-04 00:36:31,043 - spacy_lefff.lefff - INFO - Token lefff_lemma already registered
2021-02-04 00:36:31,044 - spacy_lefff.lefff - INFO - Reading lefff data...
2021-02-04 00:36:32,171 - spacy_lefff.lefff - INFO - Successfully loaded lefff lemmatizer
Apple NOUN None NOUN__Gender=Masc|Number=Sing apple
cherche NOUN cherche NOUN__Gender=Fem|Number=Sing cherche
a AUX None AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin avoir
acheter VERB acheter VERB__VerbForm=Inf acheter
une DET un DET__Definite=Ind|Gender=Fem|Number=Sing|PronType=Art un
startup ADJ None ADJ__Number=Sing startup
anglaise NOUN anglaise NOUN__Gender=Fem|Number=Sing anglaise
pour ADP None ADP pour
1 NUM None NUM__NumType=Card 1
milliard NOUN milliard NOUN__Gender=Masc|Number=Sing|NumType=Card milliard
de ADP un ADP de
dollard PROPN None PROPN__Gender=Masc|Number=Sing dollard


In [8]:
from typing import Iterable, List, Text

In [22]:
class FrenchLemmatizer(object):
    
    def __init__(self):
        self.nlp = spacy.load('fr')
        self.lemmatizer = LefffLemmatizer()
        self.nlp.add_pipe(self.lemmatizer, name='lefff')
        
    def lemmatize(self, sentence: Iterable[Text]) -> List[Text]:
        doc = self.nlp(" ".join(sentence))
        return [d.lemma_ for d in doc]

    def lemmatize_s(self, sentence: Text) -> List[Text]:
        doc = self.nlp(sentence)
        return [d.lemma_ for d in doc]


In [23]:
lemmatizer = FrenchLemmatizer()

2021-02-04 00:47:01,598 - spacy_lefff.lefff - INFO - New LefffLemmatizer instantiated.
2021-02-04 00:47:01,599 - spacy_lefff.lefff - INFO - Token lefff_lemma already registered
2021-02-04 00:47:01,600 - spacy_lefff.lefff - INFO - Reading lefff data...
2021-02-04 00:47:02,372 - spacy_lefff.lefff - INFO - Successfully loaded lefff lemmatizer


In [26]:
#%%timeit
lemmatizer.lemmatize_s("Apple cherche a acheter une startup anglaise pour 1 milliard de dollard")

['apple',
 'cherche',
 'avoir',
 'acheter',
 'un',
 'startup',
 'anglaise',
 'pour',
 '1',
 'milliard',
 'de',
 'dollard']

In [27]:
lemmatizer.lemmatize_s("honoré de balzac code des gens honnêtes ou l art de ne pas être dupe des fripons 1825 avant propos l argent par le temps qui court donne le plaisir la considération les amis les succès les talents l esprit même ce doux métal doit donc être l objet constant de l amour et de la sollicitude des mortels de tout âge de toute condition depuis les rois jusqu aux grisettes depuis les propriétaires jusqu aux émigrés")

['honoré',
 'de',
 'balzac',
 'code',
 'de',
 'gens',
 'honnête',
 'ou',
 'l',
 'art',
 'de',
 'ne',
 'pas',
 'être',
 'dupe',
 'de',
 'fripon',
 '1825',
 'avant',
 'propos',
 'l',
 'argent',
 'par',
 'le',
 'temps',
 'qui',
 'court',
 'donne',
 'le',
 'plaisir',
 'le',
 'considération',
 'le',
 'ami',
 'le',
 'succès',
 'le',
 'talent',
 'l',
 'esprit',
 'même',
 'ce',
 'dou',
 'métal',
 'devoir',
 'donc',
 'être',
 'l',
 'objet',
 'conster',
 'de',
 'l',
 'amour',
 'et',
 'de',
 'le',
 'sollicitude',
 'de',
 'mortel',
 'de',
 'tout',
 'âge',
 'de',
 'tout',
 'condition',
 'depuis',
 'le',
 'roi',
 'jusqu',
 'à',
 'grisette',
 'depuis',
 'le',
 'propriétaire',
 'jusqu',
 'à',
 'émigré']

In [29]:
lemmatizer.lemmatize_s("paier")

['paier']