<a href="https://colab.research.google.com/github/nobertomaciel/PLN-ANIMA/blob/main/UA1/PLN_NLTK_Simplificado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PLN com NLTK — Versão Simplificada
Este notebook realiza tokenização, limpeza, remoção de stopwords e vetorização (Bag of Words) em português.

In [None]:
# Instala o Natural Language Toolkit (NLTK)
!pip install nltk



In [None]:
# Importações principais
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
import string

In [None]:
# Faz o download dos recursos necessários do NLTK
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# Texto de exemplo
texto = """Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto de Damião,
que o dito apelido fora dado a um cavaleiro, herói nas jornadas da África, em prêmio da façanha que praticou,
arrebatando trezentas cubas aos mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour.
Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo?"""

# Limita o texto para fins de demonstração
texto = texto[:950].replace('\n', ' ')

In [None]:
# Tokeniza o texto em sentenças e depois em palavras
sentencas = sent_tokenize(texto, language='portuguese')
tokens = word_tokenize(texto, language='portuguese')

print("Total de sentenças:", len(sentencas))
print("Total de tokens:", len(tokens))
print("Exemplo de tokens:", tokens[:20])

Total de sentenças: 4
Total de tokens: 99
Exemplo de tokens: ['Como', 'este', 'apelido', 'de', 'Cubas', 'lhe', 'cheirasse', 'excessivamente', 'a', 'tanoaria', ',', 'alegava', 'meu', 'pai', ',', 'bisneto', 'de', 'Damião', ',', 'que']


In [None]:
# Remove pontuação e caracteres especiais
tokens_limpos = [t for t in tokens if t not in string.punctuation]

print("Tokens após remoção de pontuação:", tokens_limpos[:20])

Tokens após remoção de pontuação: ['Como', 'este', 'apelido', 'de', 'Cubas', 'lhe', 'cheirasse', 'excessivamente', 'a', 'tanoaria', 'alegava', 'meu', 'pai', 'bisneto', 'de', 'Damião', 'que', 'o', 'dito', 'apelido']


In [None]:
# Remove palavras irrelevantes (stopwords)
stop_words = set(stopwords.words('portuguese'))
tokens_sem_stop = [t for t in tokens_limpos if t.lower() not in stop_words]

print("Tokens após remoção de stopwords:", tokens_sem_stop[:20])

Tokens após remoção de stopwords: ['apelido', 'Cubas', 'cheirasse', 'excessivamente', 'tanoaria', 'alegava', 'pai', 'bisneto', 'Damião', 'dito', 'apelido', 'dado', 'cavaleiro', 'herói', 'jornadas', 'África', 'prêmio', 'façanha', 'praticou', 'arrebatando']


In [None]:
# 1. Cria o vetorizador Bag of Words (BoW)
cv = CountVectorizer(min_df=0.0, max_df=1.0, binary=False, ngram_range=(1,1))

# 2. Gera o vocabulário e transforma as sentenças (esta variável bow é a que será utilizada em algum algoritmo de machine learning)
bow = cv.fit_transform(sentencas)

# 3. Exibe resultados
print('BoW Shape:', bow.shape)
print('Vocabulário (', len(cv.vocabulary_), 'palavras):', cv.vocabulary_)
for n,sent in enumerate(bow):
    print('\n','Sentença',n,':\n', " ".join(map(str, sent.toarray().flatten())))

BoW Shape: (4, 57)
Vocabulário ( 57 palavras): {'como': 11, 'este': 22, 'apelido': 2, 'de': 16, 'cubas': 12, 'lhe': 32, 'cheirasse': 10, 'excessivamente': 23, 'tanoaria': 49, 'alegava': 0, 'meu': 34, 'pai': 42, 'bisneto': 5, 'damião': 15, 'que': 47, 'dito': 18, 'fora': 25, 'dado': 14, 'um': 52, 'cavaleiro': 9, 'herói': 27, 'nas': 37, 'jornadas': 30, 'da': 13, 'áfrica': 56, 'em': 19, 'prêmio': 46, 'façanha': 24, 'praticou': 45, 'arrebatando': 3, 'trezentas': 51, 'aos': 1, 'mouros': 35, 'era': 20, 'homem': 28, 'imaginação': 29, 'escapou': 21, 'asas': 4, 'calembour': 7, 'bom': 6, 'caráter': 8, 'varão': 54, 'digno': 17, 'leal': 31, 'poucos': 44, 'tinha': 50, 'verdade': 55, 'uns': 53, 'fumos': 26, 'pacholice': 41, 'mas': 33, 'quem': 48, 'não': 39, 'pouco': 43, 'pachola': 40, 'nesse': 38, 'mundo': 36}

 Sentença 0 :
 1 1 2 1 0 1 0 0 0 1 1 1 2 2 1 1 2 0 1 1 0 0 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 0 0 1 1 2 0 1 0 1 1 0 0 0 1

 Sentença 1 :
 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 2 0 0 0 1 1 0 0

A variável **bow** tem a principal utilidade de alimentar modelos de aprendizado de máquina para tarefas como:
*   Classificação de texto (ex: spam vs. não-spam)
*   Análise de sentimento (positivo, negativo)
*   Agrupamento de documentos (clustering)
*   Detecção de temas (topic modeling)