<a href="https://colab.research.google.com/github/nobertomaciel/PLN-ANIMA/blob/main/UA1/PLN_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# instala a o Natural Language Tool Kit (https://www.nltk.org/)
!pip install nltk



In [None]:
# Importações
# 1. Importa o NLTK
# 2. Importa o corpus “Machado de Assis” disponível no NLTK, um dos conjuntos de textos literários em português incluídos na biblioteca.
# 3. Importa as funções sent_tokenize() e word_tokenize() do módulo nltk.tokenize
# 4. Importa o CountVectorizer da biblioteca skleanr, que faz a conversão de texto em números, criando uma matriz de contagem de palavras (bag of words).
# 5. Importa a biblioteca que permite acessar arquivos na web
import nltk
from nltk.corpus import machado
from nltk.tokenize import sent_tokenize,word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
import requests

In [None]:
# Faz o download dos pacotes do NLTK
# 1. Lista de palavras de parada (stopwords) — palavras muito comuns que geralmente são removidas de textos porque têm pouco valor semântico
# 2. Tokenizador Punkt, um modelo estatístico que divide textos em sentenças e palavras.
# 3. Tabelas de idioma que ele usa para tokenizar corretamente.
# 4. Corpus de Machado de Assis (um conjunto de textos literários em português incluído no NLTK).
# A função sent_tokenize() serve para dividir o texto em sentenças (frases) — ou seja, faz a tokenização em nível de sentença.
# A função word_tokenize() é usada para dividir um texto em palavras (tokens), ou seja, realizar a tokenização lexical.
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('machado')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data]   Package machado is already up-to-date!


True

In [None]:
# Faz o pré-processamento do texto:
# [ABANDONADO: apresentando erro no pacote nltk.corpus machado] 1. Abre o arquivo 'romance/marm05.txt'atribui à variável f
# [ABANDONADO: erro] 2. Faz a leitura do arquivo e atribui o conteúdo à variável texto
# 1. [ABANDONADO: usando string] 3. Seleciona apenas uma parte do texto (um recorte específico do arquivo 'romance/marm05.txt') e substitui na variável texto
# 2. [4.] Remove as quebras de linha (\n), substituindo-as por espaços.
# 3. [5.] Imprime o texto pré-processado
# with machado.open('romance/marm05.txt') as f:
#     texto = f.read()
texto = "Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto de Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da África, em prêmio da façanha que praticou, arrebatando trezentas cubas aos mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor, Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas."
texto = texto.replace('\n',' ')
print(texto)

Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto de Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da África, em prêmio da façanha que praticou, arrebatando trezentas cubas aos mouros. Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour. Era um bom caráter, meu pai, varão digno e leal como poucos. Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo? Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor, Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás. Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.


In [None]:
# Esse trecho de código faz a tokenização de sentenças (ou seja, divide um texto em frases) e depois exibe cada sentença numerada.
# 1. Atribui o texto tokenizado à variável sentencas como uma lista
# 2. Faz uma iteração em sentencas, extraíndo e numerando cada uma das frases
# 3. Imprime as sentenças na tela, devidamente enumeradas
sentencas = sent_tokenize(texto, language='portuguese')
for i,sent in enumerate(sentencas):
     print(i,'-',sent)

0 - Como este apelido de Cubas lhe cheirasse excessivamente a tanoaria, alegava meu pai, bisneto de Damião, que o dito apelido fora dado a um cavaleiro, herói nas jornadas da África, em prêmio da façanha que praticou, arrebatando trezentas cubas aos mouros.
1 - Meu pai era homem de imaginação; escapou à tanoaria nas asas de um calembour.
2 - Era um bom caráter, meu pai, varão digno e leal como poucos.
3 - Tinha, é verdade, uns fumos de pacholice; mas quem não é um pouco pachola nesse mundo?
4 - Releva notar que ele não recorreu à inventiva senão depois de experimentar a falsificação; primeiramente, entroncou-se na família daquele meu famoso homônimo, o capitão-mor, Brás Cubas, que fundou a vila de São Vicente, onde morreu em 1592, e por esse motivo é que me deu o nome de Brás.
5 - Opôs-se-lhe, porém, a família do capitão-mor, e foi então que ele imaginou as trezentas cubas mouriscas.


In [None]:
# Continua com a tokenização, só que agora lexical (dividindo em palavras)
# 1. Atribui as palavras tokenizadas à variável palavras como uma lista
# 2. Imprime o conteúdo de palavras na tela
palavras = word_tokenize(texto, language='portuguese')
print(palavras)

['Como', 'este', 'apelido', 'de', 'Cubas', 'lhe', 'cheirasse', 'excessivamente', 'a', 'tanoaria', ',', 'alegava', 'meu', 'pai', ',', 'bisneto', 'de', 'Damião', ',', 'que', 'o', 'dito', 'apelido', 'fora', 'dado', 'a', 'um', 'cavaleiro', ',', 'herói', 'nas', 'jornadas', 'da', 'África', ',', 'em', 'prêmio', 'da', 'façanha', 'que', 'praticou', ',', 'arrebatando', 'trezentas', 'cubas', 'aos', 'mouros', '.', 'Meu', 'pai', 'era', 'homem', 'de', 'imaginação', ';', 'escapou', 'à', 'tanoaria', 'nas', 'asas', 'de', 'um', 'calembour', '.', 'Era', 'um', 'bom', 'caráter', ',', 'meu', 'pai', ',', 'varão', 'digno', 'e', 'leal', 'como', 'poucos', '.', 'Tinha', ',', 'é', 'verdade', ',', 'uns', 'fumos', 'de', 'pacholice', ';', 'mas', 'quem', 'não', 'é', 'um', 'pouco', 'pachola', 'nesse', 'mundo', '?', 'Releva', 'notar', 'que', 'ele', 'não', 'recorreu', 'à', 'inventiva', 'senão', 'depois', 'de', 'experimentar', 'a', 'falsificação', ';', 'primeiramente', ',', 'entroncou-se', 'na', 'família', 'daquele', 'me

In [None]:
# Refaz a tokenização em nível de sentença, só que, dessa vez, com as palavras divididas
# 1. Atribui o texto tokenizado à variável sentencas como uma lista
# 2. Faz uma iteração em sentencas, extraíndo e numerando cada uma das frases
# 3. Imprime as palavras tokenizadas como uma lista
sentencas = sent_tokenize(texto, language='portuguese')
for i,sent in enumerate(sentencas):
     print(i,'-',word_tokenize(sent, language='portuguese'))

0 - ['Como', 'este', 'apelido', 'de', 'Cubas', 'lhe', 'cheirasse', 'excessivamente', 'a', 'tanoaria', ',', 'alegava', 'meu', 'pai', ',', 'bisneto', 'de', 'Damião', ',', 'que', 'o', 'dito', 'apelido', 'fora', 'dado', 'a', 'um', 'cavaleiro', ',', 'herói', 'nas', 'jornadas', 'da', 'África', ',', 'em', 'prêmio', 'da', 'façanha', 'que', 'praticou', ',', 'arrebatando', 'trezentas', 'cubas', 'aos', 'mouros', '.']
1 - ['Meu', 'pai', 'era', 'homem', 'de', 'imaginação', ';', 'escapou', 'à', 'tanoaria', 'nas', 'asas', 'de', 'um', 'calembour', '.']
2 - ['Era', 'um', 'bom', 'caráter', ',', 'meu', 'pai', ',', 'varão', 'digno', 'e', 'leal', 'como', 'poucos', '.']
3 - ['Tinha', ',', 'é', 'verdade', ',', 'uns', 'fumos', 'de', 'pacholice', ';', 'mas', 'quem', 'não', 'é', 'um', 'pouco', 'pachola', 'nesse', 'mundo', '?']
4 - ['Releva', 'notar', 'que', 'ele', 'não', 'recorreu', 'à', 'inventiva', 'senão', 'depois', 'de', 'experimentar', 'a', 'falsificação', ';', 'primeiramente', ',', 'entroncou-se', 'na', '

In [None]:
# Cria uma lista de caracteres especiais
# 1. Importa a biblioteca string (padrão do Python), que contém funções e constantes úteis para manipulação de textos e caracteres
# 2. Extrai apenas os caracteres especiais, atribuindo à variáel punctuations como uma lista
# 3. Imprime o conteúdo de punctuations
import string
punctuations = list(string.punctuation)
print(punctuations)

['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~']


In [None]:
# Faz o mesmo processo anterior, só que retirando os caracteres especiais
sentencas = sent_tokenize(texto, language='portuguese')
for i,sent in enumerate(sentencas):
    sent_sem_pontuacao = [i for i in word_tokenize(sent, language='portuguese') if i not in punctuations]
    print(i,'-',sent_sem_pontuacao)

0 - ['Como', 'este', 'apelido', 'de', 'Cubas', 'lhe', 'cheirasse', 'excessivamente', 'a', 'tanoaria', 'alegava', 'meu', 'pai', 'bisneto', 'de', 'Damião', 'que', 'o', 'dito', 'apelido', 'fora', 'dado', 'a', 'um', 'cavaleiro', 'herói', 'nas', 'jornadas', 'da', 'África', 'em', 'prêmio', 'da', 'façanha', 'que', 'praticou', 'arrebatando', 'trezentas', 'cubas', 'aos', 'mouros']
1 - ['Meu', 'pai', 'era', 'homem', 'de', 'imaginação', 'escapou', 'à', 'tanoaria', 'nas', 'asas', 'de', 'um', 'calembour']
2 - ['Era', 'um', 'bom', 'caráter', 'meu', 'pai', 'varão', 'digno', 'e', 'leal', 'como', 'poucos']
3 - ['Tinha', 'é', 'verdade', 'uns', 'fumos', 'de', 'pacholice', 'mas', 'quem', 'não', 'é', 'um', 'pouco', 'pachola', 'nesse', 'mundo']
4 - ['Releva', 'notar', 'que', 'ele', 'não', 'recorreu', 'à', 'inventiva', 'senão', 'depois', 'de', 'experimentar', 'a', 'falsificação', 'primeiramente', 'entroncou-se', 'na', 'família', 'daquele', 'meu', 'famoso', 'homônimo', 'o', 'capitão-mor', 'Brás', 'Cubas', 'qu

In [None]:
# Seleciona as palavras que serão utilizadas como stopwords (que devem ser ignoradas no processamento)
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [None]:
# Faz o mesmo processo de tokenização, só que dessa vez aplicando tanto a remoção de caracteres quanto as stopwords
sentencas = sent_tokenize(texto, language='portuguese')
for i,sent in enumerate(sentencas):
    sent_sem_pontuacao = [i for i in word_tokenize(sent, language='portuguese') if i not in punctuations]
    sent_sem_stopwords = [i for i in sent_sem_pontuacao if i not in stopwords]
    print(i,'-',sent_sem_stopwords)

0 - ['Como', 'apelido', 'Cubas', 'cheirasse', 'excessivamente', 'tanoaria', 'alegava', 'pai', 'bisneto', 'Damião', 'dito', 'apelido', 'dado', 'cavaleiro', 'herói', 'jornadas', 'África', 'prêmio', 'façanha', 'praticou', 'arrebatando', 'trezentas', 'cubas', 'mouros']
1 - ['Meu', 'pai', 'homem', 'imaginação', 'escapou', 'tanoaria', 'asas', 'calembour']
2 - ['Era', 'bom', 'caráter', 'pai', 'varão', 'digno', 'leal', 'poucos']
3 - ['Tinha', 'verdade', 'uns', 'fumos', 'pacholice', 'pouco', 'pachola', 'nesse', 'mundo']
4 - ['Releva', 'notar', 'recorreu', 'inventiva', 'senão', 'experimentar', 'falsificação', 'primeiramente', 'entroncou-se', 'família', 'daquele', 'famoso', 'homônimo', 'capitão-mor', 'Brás', 'Cubas', 'fundou', 'vila', 'São', 'Vicente', 'onde', 'morreu', '1592', 'motivo', 'deu', 'nome', 'Brás']
5 - ['Opôs-se-lhe', 'porém', 'família', 'capitão-mor', 'então', 'imaginou', 'trezentas', 'cubas', 'mouriscas']


In [None]:
# 1. Cria o vetorizador Bag of Words (BoW), que conta as ocorrências de cada palavra e define o tipo de n-gramas (aqui, unigramas)
# 2. Realiza o aprendizado do vocabulário (fit) e transforma as sentenças em vetores numéricos (transform)
# 3. Imprime o formato da matriz BoW: linhas = sentenças, colunas = palavras únicas
# 4. Imprime o vocabulário aprendido e o número total de palavras distintas
# 5. Imprime a primeira sentença transformada em vetor numérico (array)
# 6. Imprime a segunda sentença transformada em vetor numérico (array)
cv = CountVectorizer(min_df=0.0,max_df=1.0,binary=False,ngram_range=(1,1))
bow = cv.fit_transform(sentencas)
print('BoW Shape:',bow.shape)
print('BoW Vocabulário (',len(cv.vocabulary_),'palavras ):',cv.vocabulary_)
print('Primeira sentença:',bow[0].toarray())
print('Segunda sentença:',bow[1].toarray())

# Neste ponto nós temos a variável bow, cuja principal utilidade é alimentar modelos de aprendizado de máquina para tarefas como:
# a) Classificação de texto (ex: spam vs. não-spam)
# b) Análise de sentimento (positivo, negativo)
# c) Agrupamento de documentos (clustering)
# d) Detecção de temas (topic modeling)

BoW Shape: (6, 98)
BoW Vocabulário ( 98 palavras ): {'como': 15, 'este': 34, 'apelido': 3, 'de': 21, 'cubas': 16, 'lhe': 53, 'cheirasse': 14, 'excessivamente': 35, 'tanoaria': 88, 'alegava': 1, 'meu': 56, 'pai': 73, 'bisneto': 7, 'damião': 19, 'que': 81, 'dito': 25, 'fora': 42, 'dado': 18, 'um': 91, 'cavaleiro': 13, 'herói': 45, 'nas': 64, 'jornadas': 51, 'da': 17, 'áfrica': 97, 'em': 28, 'prêmio': 80, 'façanha': 40, 'praticou': 78, 'arrebatando': 4, 'trezentas': 90, 'aos': 2, 'mouros': 61, 'era': 31, 'homem': 46, 'imaginação': 48, 'escapou': 32, 'asas': 6, 'calembour': 10, 'bom': 8, 'caráter': 12, 'varão': 93, 'digno': 24, 'leal': 52, 'poucos': 77, 'tinha': 89, 'verdade': 94, 'uns': 92, 'fumos': 43, 'pacholice': 72, 'mas': 54, 'quem': 82, 'não': 68, 'pouco': 76, 'pachola': 71, 'nesse': 65, 'mundo': 62, 'releva': 84, 'notar': 67, 'ele': 27, 'recorreu': 83, 'inventiva': 50, 'senão': 86, 'depois': 22, 'experimentar': 36, 'falsificação': 37, 'primeiramente': 79, 'entroncou': 29, 'se': 85,

FIM