In [1]:
import spacy
nlp = spacy.load("pl_core_news_sm")

### lematyzacja polega na sprowadzeniu słowa do formy bazowej

In [8]:
doc = nlp("jem jemy jedzcie jecie")

for t in doc:
  print(f"{t.text:<8} => {t.lemma_:<8}")

jem      => jeść    
jemy     => jeść    
jedzcie  => jedzcie 
jecie    => jecie   


tagger do ustalenia znaczenia słowa wykorzystuje jego kontekst. Powyżej słowo "jedzcie" nie zostało umieszczone w kontekście i nie zostało odmienie. Poniżej słowo "jedzcie" zostało poprawnie zinterpretowane i odmienione.

In [9]:
doc = nlp("Jedzcie kolację")

for t in doc:
  print(f"{t.text:<10} => {t.lemma_:<10}")

Jedzcie    => jeść      
kolację    => kolacja   


Poniżej 2 formy słowa "damy" o odmiennej interpretacji.

In [22]:
doc = nlp("Damy prezent dla młodej damy.")

for t in doc:
  print(f"{t.text:<8} => {t.lemma_:<8}")

Damy     => dać     
prezent  => prezenta
dla      => dla     
młodej   => młody   
damy     => dama    
.        => .       


Poniżej przykład, gdy wyłaczymy moduły "tagger", "parser", "ner". Dla każdego słowa skopiuje formę tekstową i zamieni ją na małe litery

In [23]:
doc = nlp("Damy prezent dla młodej damy.", disable=["tagger", "parser", "ner"])

for t in doc:
  print(f"{t.text:<10} => {t.lemma_:<10}")

Damy       => damy      
prezent    => prezent   
dla        => dla       
młodej     => młodej    
damy       => damy      
.          => .         


Poniżej przykład, gdy wyłaczymy moduły "parser", "ner". Moduł tagger konieczny jest do przeprowadzenia analizy morfosyntaktycznej. Model przypisze lemat.

In [20]:
doc = nlp("Damy prezent dla młodej damy.", disable=["parser", "ner"])

for t in doc:
  print(f"{t.text:<10} => {t.lemma_:<10}")

Damy       => dać       
prezent    => prezenta  
dla        => dla       
młodej     => młody     
damy       => dama      
.          => .         


Moduł tagger określa klasę gramatyczną dla słowa.
Przykłady:
* ADJ: adjective - przymiotnik
* ADP: adposition - przyimek
* ADV: adverb - przysłówek
* CONJ: coordinating conjunction - spójnik
* INTJ: interjection - wykrzyknik
* NOUN: noun - rzeczownik
* NUM: numeral - liczebnik
* PART: particle - partykuła
* PRON: pronoun - zaimek
* PROPN: proper noun - nazwa własna
* PUNCT: punctuation - znak interpunkcyjny
* VERB: verb - czasownik
* X: other - inne

In [24]:
doc = nlp("Damy prezent dla młodej damy.", disable=["parser", "ner"])

for t in doc:
  print(f"{t.text:<8} => {t.pos_:<8} => {t.lemma_:<8}")

Damy     => VERB     => dać     
prezent  => NOUN     => prezenta
dla      => ADP      => dla     
młodej   => ADJ      => młody   
damy     => NOUN     => dama    
.        => PUNCT    => .       
