<a href="https://colab.research.google.com/github/Guidevit/notebooks/blob/main/Engenharia_de_Software_IA_Lemmatization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução à Lematização em Processamento de Linguagem Natural (NLP)

A lematização é uma técnica essencial no campo do Processamento de Linguagem Natural (NLP), buscando simplificar a análise textual ao normalizar palavras para sua forma base, conhecida como "lema". Este material propõe-se a explorar de maneira abrangente o conceito de lematização, com foco especial na língua portuguesa. Através de exemplos práticos, utilizando Python e bibliotecas populares de NLP como NLTK e spaCy, iremos ilustrar não apenas a importância da lematização, mas também sua aplicação em contextos reais, destacando sua relevância no desenvolvimento de sistemas de processamento de texto mais eficazes.

## O que é Lematização?
Em análise textual, a técnica chamada de lematização visa simplificar formas variantes de palavras, trazendo-as de volta à sua raiz ou lema original. O objetivo é normalizar termos flexionais ou derivados em sua forma canônica, facilitando assim operações posteriores de busca, indexação ou classificação.

Considere, por exemplo, os substantivos "gato", "gatinho" e "gatos"; todos eles compartilham do lema "gato". Outro caso semelhante se dá com os adjetivos "azul" e "azuis", cujo lema é também "azul". No entanto, é necessário reconhecer que existem desafios associados à lematização, especialmente quando lidamos com palavras irregulares ou distintas estruturas gramaticais presentes em outros idiomas além do inglês.

Assim sendo, embora essa ferramenta seja valiosa em diversas áreas relacionadas ao tratamento de linguagem natural, seu uso requer cautela e consciência dos seus limites potenciais.

## Importância da Lematização
A lematização é uma etapa crucial no processamento de linguagem natural, pois visa simplificar a análise textual através da redução das palavras às suas formas canônicas, conhecidas como "lemas". Trata-se de uma técnica fundamental que auxilia em diversas atividades de NLP, inclusive em tarefas como classificação de texto, extração de informações e tradução automática. Exploremos agora os principais motivos pelos quais a lematização assume um papel tão relevante neste campo.

**Redução de Variações:**

No interior de qualquer idioma, as palavras podem aparecer sob diferentes formas, decorrentes principalmente de flexões verbais, conjugações e pluralizações. Por exemplo, a raiz "correr" pode assumir formas distintas, como "correu", "correndo", "corra", "corram", e assim por diante. De modo similar, o substantivo "casa" admite declinações como "casas", "casa", "casinhas", dentre outras. A lematização age exatamente nesse sentido, concentrando todos esses casos num único lema, isto é, a forma original da palavra, facilitando grandemente a manipulação e análise computacional do texto. Contudo, cabe observar que a lematização nem sempre estará livre de erros, haja vista que certas construções linguísticas complexas podem induzir incertezas quanto à verdadeira identidade do lema. Um exemplo característico são expressões idiomáticas, nas quais as partes componentes frequentemente sofrem modificações morfológicas peculiarmente difíceis de capturar através de mecanismos genéricos de lematização.

**Compreensão Contextual:**

Além de reduzir as variações gramaticais, a lematização proporciona uma maior compreensão contextual dos termos presentes no texto. Quando as palavras são convertidas para suas formas canônicas, algoritmos de NLP conseguem estabelecer relações semânticas mais robustas entre elas, favorecendo a inferência do significado das expressões conforme o contexto em que emergem. Considere a frase "Ele correu para casa": mediante a lematização de "correu" e "casa" ("correr" e "casa"), os algoritmos naturalmente tenderão a reconhecer que o sujeito estava se dirigindo rumo a um local habitacional. Esta capacidade de extrair sentidos e inferir proposições superlativas é imprescindível no âmbito de disciplinas como análise de sentimentos, onde a compreensão contextual é determinante para garantir uma interpretação adequada do teor das mensagens. Entretanto, cabe advertir que, em alguns casos, a conversão de palavras para seus lemas pode originar ambiguidades sérias, sendo indispensável um tratamento rigoroso do contexto circunjacente para dissipar eventuais mal-entendidos.

**Melhoria da Precisão:**

Uma consequência imediata da redução de variações e da compreensão contextual é a melhora na precisão de modelos preditivos derivados de técnicas de NLP. Conforme observado previamente, a lematização permite que os algoritmos detectem padrões mais facilmente, o que acaba impactando positivamente nas taxas de acurácia obtidas durante o processamento das informações. Tal fenômeno foi registrado em diversos trabalhos recentes, notadamente em áreas ligadas à mineração de opiniões e classificação de texto. Todavia, vale salientar que a utilidade da lematização depende bastante do domínio em análise, havendo situações em que sua incorporação pode acabar por prejudicar a performance global do sistema. Portanto, optar pela lematização requer cautela, levando-se em consideração a natureza dos problemas envolvidos e a disponibilidade de recursos computacionais adequados.

## Como funciona a Lematização?
A lematização é um processo complexo que envolve a identificação da forma base de uma palavra, conhecida como "lema", a partir de suas variações flexionadas ou derivadas. Vamos explorar mais detalhadamente como a lematização é realizada e as diferentes abordagens usadas para alcançá-la:

**Uso de Dicionários Léxicos e Regras Gramaticais:**

Uma abordagem comum para a lematização é o uso de dicionários léxicos, que são coleções de palavras organizadas com suas formas flextionadas e seus lemas correspondentes. As regras gramaticais também são empregadas para ajudar na identificação do lema em contextos específicos. Por exemplo, um dicionário léxico pode listar as formas verbais "andei", "andando" e "anda" com o lema "andar". As regras gramaticais podem então ser aplicadas para determinar o lema apropriado com base na conjugação verbal.

**Complexidade da Lematização em Português:**

Em muitos idiomas, incluindo o português, a lematização pode ser mais desafiadora do que em inglês devido à riqueza de flexões verbais, conjugações nominais e derivações. Isso requer algoritmos mais sofisticados e extensos dicionários léxicos para lidar com as nuances da língua.

**Ferramentas de NLP para Lematização:**

Existem várias bibliotecas e ferramentas de NLP que implementam algoritmos eficientes de lematização para o português, facilitando o processo para os desenvolvedores e, apesar de não serem perfeitos, são muito utilizados. Algumas dessas ferramentas incluem:

* NLTK (Natural Language Toolkit): Uma biblioteca amplamente utilizada em Python para processamento de linguagem natural, que oferece módulos para lematização.

* spaCy: Uma biblioteca de PLN moderna e eficiente em Python que fornece suporte para lematização, entre outras funcionalidades.

**Abordagens de Modelagem de Aprendizado de Máquina:**

Algumas ferramentas de lematização utilizam modelos de aprendizado de máquina treinados em grandes conjuntos de texto anotados manualmente. Esses modelos aprendem padrões linguísticos complexos e contextuais para prever o lema de uma palavra com base em seu contexto. Os conjuntos de dados anotados manualmente contêm pares de palavras e seus lemas correspondentes, permitindo que os modelos aprendam a associar cada palavra à sua forma base.

# Prática

Instale o pacote do spaCy para o idioma português:

In [None]:
!pip install spacy



In [None]:
# Baixe o modelo 'pt_core_news_sm' em português
spacy.cli.download("pt_core_news_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


Exemplo básico de lemmatização com spaCy:

In [None]:
import spacy

# Carregue o modelo para português
nlp = spacy.load('pt_core_news_sm')

# Texto de exemplo
texto = "Os gatos estão caçando ratos no jardim"

# Processamento do texto com spaCy
doc = nlp(texto)

# Lemmatização
lemmas = [token.lemma_ for token in doc]

# Imprimir os lemas
print(lemmas)


['o', 'gato', 'estar', 'caçar', 'rato', 'em o', 'jardim']


Criando um DataFrame com os resultados da lematização:

In [None]:
import pandas as pd
import spacy

# Carregue o modelo para português
nlp = spacy.load('pt_core_news_sm')

# Função para lematizar um texto
def lemmatize_text(texto):
    doc = nlp(texto)
    lemmas = [token.lemma_ for token in doc]
    return ' '.join(lemmas)

# Dados de exemplo
dados = {'Texto': ['Os gatos estão caçando ratos no jardim',
                   'Ele gostava de correr todas as manhãs',
                   'Ela canta muito bem']}

# Criar DataFrame
df = pd.DataFrame(dados)

# Aplicar lematização aos dados
df['Texto Lematizado'] = df['Texto'].apply(lemmatize_text)

# Imprimir DataFrame
df


Unnamed: 0,Texto,Texto Lematizado
0,Os gatos estão caçando ratos no jardim,o gato estar caçar rato em o jardim
1,Ele gostava de correr todas as manhãs,ele gostar de correr todo o manhãs
2,Ela canta muito bem,ela cantar muito bem
