<a href="https://colab.research.google.com/github/castroborges/castroborges.github.io/blob/main/Lematizador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Complexidade da Lematização em Português

A lematização é uma tarefa que simplifica a análise textual, tornando-a mais eficaz em tarefas de PLN.

Em idiomas como o português, a lematizacão pode ser mais desafiadora do que em inglês devido à riqueza de flexões verbais, conjugações nominais e derivações. Isso requer algoritmos mais sofisticados e extensos dicionários léxicos para lidar com as nuances da língua.

## Ferramentas de PLN para lematizaçao

Existem várias bibliotecas e ferramentas de PLN que implementam algoritmos eficientes de lematização para o português, como a [NLTK (Natural Language Toolkit)](https://www.nltk.org/) e a spaCy:

Neste exemplo, utilizaremos a bibliotec spaCy, uma biblioteca Python de código aberto para PLN que oferece recursos não só para lematização, mas também Reconhecimento de Entidades Nomeadas, marcação POS, análise de dependência, vetores de palavras, entre outros.

## Instalação do spaCy e download do modelo

O primeiro passo é instalar o pacote do spaCy para o idioma português.

In [None]:
#!pip install spacy



Em seguida, baixe o modelo 'pt_core_news_sm' em português:

In [None]:
import spacy

#Baixe o modelo 'pt_core_news_sm'
spacy.cli.download("pt_core_news_sm")

#Carregue o modelo para português
pln = spacy.load("pt_core_news_sm")



[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


Agora, vamos aplicar a lematização no texto de exemplo:

In [None]:
texto = "Como os computadores 'entendem' a linguagem humana?"
doc = pln(texto)

lemmas = [token.lemma_ for token in doc]
print(lemmas)

['como', 'o', 'computador', "'", 'entender', "'", 'o', 'linguagem', 'humano', '?']


## Criando um DataFrame com os resultados da lematização

In [None]:
import pandas as pd

#Função para lematizar um texto
def lemmatize_text(texto):
  doc = pln(texto)
  lemmas = [token.lemma_ for token in doc]
  return ' '.join(lemmas)

#Dados de exemplo
dados = {'Texto': ['Como os computadores "entendem" a linguagem humana?',
                   'Os gatos estão caçando ratos no jardim',
                   'Ele gostava de correr todas as manhãs',
                   'Ela canta muito bem']}
#Criar DataFrame
df = pd.DataFrame(dados)

#Aplicar lematização aos dados
df['Texto lematizado'] = df['Texto'].apply(lemmatize_text)

#Imprimir df
df


Unnamed: 0,Texto,Texto lematizado
0,"Como os computadores ""entendem"" a linguagem hu...","como o computador "" entender "" o linguagem hum..."
1,Os gatos estão caçando ratos no jardim,o gato estar caçar rato em o jardim
2,Ele gostava de correr todas as manhãs,ele gostar de correr todo o manhãs
3,Ela canta muito bem,ela cantar muito bem
