# NLTK Text Analyzer: Processamento e Métricas de Vocabulário

Este notebook realiza uma análise de texto em português utilizando a biblioteca **NLTK**, aplicando etapas de:
- Tokenização  
- Remoção de *stopwords*  
- Extração de radicais (*stemming*)  
- Cálculo de riqueza lexical  
- Frequência dos principais radicais

O texto usado como exemplo é um ensaio de opinião sobre a moral e política no Brasil.


## 1. Instalação e Importação das Bibliotecas
Nesta etapa, são instaladas e importadas as dependências necessárias para o processamento de texto.


In [73]:
# Instalar a biblioteca NLTK
!pip install nltk

# Importar módulos necessários
import nltk
import re
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer

try:
    nltk.data.find('tokenizers/punkt')
    nltk.data.find('corpora/stopwords')
    nltk.data.find('stemmers/rslp')
except nltk.downloader.DownloadError:
    nltk.download('punkt_tab')
    nltk.download("stopwords")
    nltk.download("rslp")




## 2. Função de Pré-Processamento

A função `pre_processar_texto()` executa:
1. **Tokenização** – separa o texto em palavras.  
2. **Remoção de *stopwords*** – elimina palavras muito comuns do português.  
3. **Stemming** – reduz palavras a seus radicais.  

Ela retorna duas listas:  
- Lista de **radicais** (*stems*)  
- Lista de **palavras originais filtradas**


In [74]:
def pre_processar_texto(texto):
    """
    Executa Tokenização, Remoção de Stop Words e Stemming no texto.

    Args:
        texto (str): O texto a ser processado.

    Returns:
        list: Lista de radicais (stems) das palavras significativas.
        list: Lista de palavras (tokens) antes do stemming.
    """
    # 1. Configurar
    stemmer = RSLPStemmer()
    stop_words_pt = set(stopwords.words('portuguese'))

    # 2. Tokenização e Normalização
    # Encontra apenas palavras (letras), e converte para minúsculas
    # Pontuação não foi selecionado.
    palavras = re.findall(r'\b[A-Za-zÀ-ú]+\b', texto.lower())

    # 3. Remoção de Stop Words
    palavras_filtradas = [
        palavra for palavra in palavras if palavra not in stop_words_pt
    ]

    # 4. Stemming
    radicais = [
        stemmer.stem(palavra) for palavra in palavras_filtradas
    ]

    return radicais, palavras


## 3. Texto de Entrada

O texto abaixo serve como base para análise (o texto foi retirado de uma publicação no MEDIUM).

https://medium.com/@ligandooexploda-se/um-triagulo-das-bermudas-chamado-brasil-4177d1c9a3ae

Ele trata de reflexões políticas e sociais, permitindo explorar a diversidade e frequência vocabular.


In [75]:
# Entrada de Dados
TEXTO_DE_ANALISE = """
Existe um triangulo em alto mar formato, pelas ilhas Bermudas ao norte, Porto Rico ao sul e a costa da Florida a oeste onde vez por outra noticiam-se estranhos sumiços de barcos e aeronaves. Especialistas estimam que o tamanho da região que compõem o Triangulo das Bermudas é de cerca de 1 milhão de km2. O Brasil tem 8.515.767,049 quilômetros quadrados, ou seja, temos mais de sete vezes o chamando do Triângulo das Bermudas onde objetos materiais como navios e aviões desaparecem.
Imagino que dado seu tamanho, no Brasil desaparecem elementos materiais e digamos que outros nem tanto, como respeito, dignidade, princípios, caráter, honra e outros atributos que dignificam o “homem” na qualidade de figura humana. O Brasil está se tornando um autêntico deserto de qualidades morais.
Se olharmos para outras Nações que sustentam seus projetos de direito, de live expressão e democracia, todas se baseiam na Justiça, já a nossa justiça tem estado sob dúvidas. Quando a imprensa divulga que esposas, irmãos, filhos e filhas de ministros do Superior Tribunal Federal, a instancia maior da nossa justiça, mitigam ações justamente naquela casa, e ninguém acha estranho ou imoral, constatamos que vergonha, respeito e dignidade são artigos raros no Brasil e seguimos em frente.
Se olharmos para o nosso Congresso, vemos semanalmente de terça a quinta um escarnio atrás do outro, como verdadeiro tapa na cara da Sociedade pagadora de impostos. Como, por exemplo as emendas parlamentares, sem destino, sem autor e sem vergonha. Tão sem vergonha e certos da impunidade, que se permitiram aumentar o fundo eleitoral de R$ 2.034 bilhões em 2022 para R$ 4.960 bilhões para 2.026.
Deve ser um dos poucos países do mundo em que a classe política cobra do cidadão para se eleger e usufruir de todas as benesses de ter um mandato. O que lhes dá o direito de ter imunidade parlamentar, que na minha opinião, é uma espécie de licença para traficar. Como todos os possuidores de imunidade parlamentar ao serem flagrados em suas traficâncias vão ser julgados pelo STF, e lá os processos dormem, de acordo com os interesses políticos do momento.
Por fim, mas não menos importante, temos um governo cujo líder foi retirado da prisão exatamente por decisão do STF que o auxiliou para ganhar a eleição e, a partir daí, deixa-lo livre para pôr em execução um plano que ainda não está bem claro que rumo vai tomar. É obvio que o custo para satisfazer todos os envolvidos, sejam dos partícipes do judiciário, os do Congresso e os do governo transformaram o Ministro Fernando Haddad em um arrecadador de impostos insaciável, mesmo considerando a já brutal carga tributaria de pagamos.
Como a maior preocupação deste governo é arrecadar, questões como INSS, metanol em bebidas alcoólicas , organizações criminosas infiltradas em todas areas da administração pública, são deixadas de lado até que a população esqueça, atropelada por outro escandalo. Mas há sinais claros para todos, mesmo os minimamente informados, que caminhamos para uma espécie de sistema de proletariado onde o governo decide tudo, paga tudo, transformando boa parte da Sociedade em dependentes do Estado e com isso ganha eleições duvidosas como em Cuba, Venezuela e, talvez em breve, no Brasil.
"""

print(f"--- Texto a ser Analisado (Amostra) ---\n{TEXTO_DE_ANALISE.strip()[:150]}...\n")

--- Texto a ser Analisado (Amostra) ---
Existe um triangulo em alto mar formato, pelas ilhas Bermudas ao norte, Porto Rico ao sul e a costa da Florida a oeste onde vez por outra noticiam-se ...



## 4. Execução do Processamento

Nesta etapa, o texto é processado e são extraídos:
- Palavras significativas
- Radicais correspondentes  


In [76]:
# Execução do Processamento
radicais, palavras_originais = pre_processar_texto(TEXTO_DE_ANALISE)

palavras_filtradas = [
    palavra for palavra in palavras_originais if palavra not in stop_words_pt
    ]

## 5. Cálculo de Métricas

Aqui são calculadas as métricas fundamentais:
- **Riqueza Lexical** = (Palavras Únicas / Palavras Significativas Totais)
- **Top 10 Radicais** mais frequentes


In [77]:
# --- Cálculo de Métricas ---

# Riqueza Lexical
total_palavras_significativas = len(palavras_filtradas)
total_palavras_unicas = len(set(palavras_filtradas))
total_radicais_unicos = len(set(radicais))

riqueza_lexical = total_palavras_unicas / total_palavras_significativas if total_palavras_significativas > 0 else 0.0

# Top 10 Radicais Mais Frequentes
dist_frequencia = nltk.FreqDist(radicais)
top_10_radicais = dist_frequencia.most_common(10)


## 6. Relatório Final

O relatório exibe:
- Estatísticas de vocabulário  
- Diversidade lexical  
- Lista dos radicais mais frequentes  


In [78]:
# --- Cálculo de Métricas ---

# Riqueza Lexical
total_palavras_significativas = len(palavras_filtradas)
total_palavras_unicas = len(set(palavras_filtradas))
total_radicais_unicos = len(set(radicais))

riqueza_lexical = total_palavras_unicas / total_palavras_significativas if total_palavras_significativas > 0 else 0.0

# Top 10 Radicais Mais Frequentes
dist_frequencia = nltk.FreqDist(radicais)
top_10_radicais = dist_frequencia.most_common(10)


# --- Relatório Final (Saída) ---

print("="*40)
print("     RELATÓRIO DE ANÁLISE DE TEXTO     ")
print("="*40)

print("\n[1] Visão Geral do Vocabulário:")
print(f" - Palavras Totais (Tokens): {len(palavras_originais)}")
print(f" - Palavras Únicas: {total_palavras_unicas}")
print(f" - Radicais Únicos: {total_radicais_unicos}")
print(f" - Riqueza Lexical (Diversidade): **{riqueza_lexical:.4f}**")
print("   *Métrica: Palavras Únicas / Palavras Significativas Totais")

print("\n[2] Frequência Temática (Top 10 Radicais):")
for i, (radical, contagem) in enumerate(top_10_radicais):
    print(f" {i+1}. '{radical}': {contagem} ocorrências")

     RELATÓRIO DE ANÁLISE DE TEXTO     

[1] Visão Geral do Vocabulário:
 - Palavras Totais (Tokens): 525
 - Palavras Únicas: 253
 - Radicais Únicos: 232
 - Riqueza Lexical (Diversidade): **0.8576**
   *Métrica: Palavras Únicas / Palavras Significativas Totais

[2] Frequência Temática (Top 10 Radicais):
 1. 'outr': 6 ocorrências
 2. 'tod': 6 ocorrências
 3. 'brasil': 5 ocorrências
 4. 'govern': 4 ocorrências
 5. 'bermud': 3 ocorrências
 6. 'ond': 3 ocorrências
 7. 'justiç': 3 ocorrências
 8. 'vergonh': 3 ocorrências
 9. 'pag': 3 ocorrências
 10. 'parlament': 3 ocorrências


## 7. Considerações Finais

O notebook demonstra de forma prática como aplicar técnicas de **pré-processamento textual** em português usando o **NLTK**.  
A análise de riqueza lexical e frequência de radicais pode ser usada para:
- Avaliar a complexidade de textos
- Apoiar análise de sentimento e tópicos
- Enriquecer pipelines de PLN em projetos reais
