# Lematização
Tem como objetivo reduzir uma palavra à sua forma base e agrupar diferentes formas da mesma palavra. Por exemplo, os verbos no tempo passado são alterados para presente (por exemplo, “foi” é alterado para “vai”) e os sinônimos são unificados (por exemplo, “melhor” é alterado para “bom”), padronizando palavras com significado semelhante à sua raiz.   

_A lematização resolve as palavras em sua forma de dicionário (conhecida como lema), para a qual requer dicionários detTemalhados nos quais o algoritmo pode pesquisar e vincular palavras aos lemas correspondentes._  

Por exemplo, as palavras “correr", "corre" e "correu" são todas formas da palavra "correr", portanto "correr" é o lema de todas as palavras anteriores.  

A lematização também leva em consideração o contexto da palavra __para resolver outros problemas, como a desambiguação__, o que significa que ela pode discriminar entre palavras idênticas que têm significados diferentes, dependendo do contexto específico. Pense em palavras como “morcego” (que pode corresponder ao animal ou ao clube de “banco”. Ao fornecer um parâmetro de parte do discurso para uma palavra (seja um substantivo, um verbo etc.), é possível definir um papel para essa palavra na frase e remover a desambiguação.

A implementação deste processo pode ser realizado com a lib stanza.  O módulo de lematização retorna a forma do lema para cada palavra de entrada. Por exemplo, a sequência de entrada “Eu comi uma maçã” será lematizada em “Eu como uma maçã”. Esse tipo de normalização de palavras é útil em muitos aplicativos do mundo real. Na Stanza, a lematização é realizada pelo `LemmaProcessor` .



## Exemplo de utilização

In [2]:
! pip install stanza

Collecting stanza
  Downloading stanza-1.4.0-py3-none-any.whl (574 kB)
[?25l[K     |▋                               | 10 kB 25.1 MB/s eta 0:00:01[K     |█▏                              | 20 kB 33.0 MB/s eta 0:00:01[K     |█▊                              | 30 kB 36.6 MB/s eta 0:00:01[K     |██▎                             | 40 kB 16.5 MB/s eta 0:00:01[K     |██▉                             | 51 kB 11.6 MB/s eta 0:00:01[K     |███▍                            | 61 kB 12.2 MB/s eta 0:00:01[K     |████                            | 71 kB 12.5 MB/s eta 0:00:01[K     |████▋                           | 81 kB 13.5 MB/s eta 0:00:01[K     |█████▏                          | 92 kB 14.8 MB/s eta 0:00:01[K     |█████▊                          | 102 kB 13.4 MB/s eta 0:00:01[K     |██████▎                         | 112 kB 13.4 MB/s eta 0:00:01[K     |██████▉                         | 122 kB 13.4 MB/s eta 0:00:01[K     |███████▍                        | 133 kB 13.4 MB/s eta 0:0

In [3]:
import stanza
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')
doc = nlp('Barack Obama was born in Hawaii.')
print(
    *[f'word: {word.text+" "}\tlemma: {word.lemma}'
    for sent in doc.sentences for word in sent.words],
    sep='\n'
)

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …



Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.4.0/models/tokenize/combined.pt:   0%|    …

Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.4.0/models/pos/combined.pt:   0%|         …

Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.4.0/models/lemma/combined.pt:   0%|       …

Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.4.0/models/pretrain/combined.pt:   0%|    …

2022-04-29 00:24:16 INFO: Loading these models for language: en (English):
| Processor | Package  |
------------------------
| tokenize  | combined |
| pos       | combined |
| lemma     | combined |

2022-04-29 00:24:16 INFO: Use device: cpu
2022-04-29 00:24:16 INFO: Loading: tokenize
2022-04-29 00:24:16 INFO: Loading: pos
2022-04-29 00:24:17 INFO: Loading: lemma
2022-04-29 00:24:17 INFO: Done loading processors!


word: Barack 	lemma: Barack
word: Obama 	lemma: Obama
word: was 	lemma: be
word: born 	lemma: bear
word: in 	lemma: in
word: Hawaii 	lemma: Hawaii
word: . 	lemma: .


O tutorial para obter mais detalhes pode ser acessado em [https://stanfordnlp.github.io/stanza/lemma.html](https://stanfordnlp.github.io/stanza/lemma.html)