<a href="https://colab.research.google.com/github/carloscesar182/ai_advanced_course/blob/main/Notebooks/NLP/NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import nltk
import string

# palavras sem valor semantico
from nltk.corpus import stopwords

# tecnicas que reduzem a palavra pra forma raiz
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer

# tecnicas de tokenização
from nltk.tokenize import word_tokenize, sent_tokenize

# tagging dizendo o que é cada palavra
from nltk.tag import pos_tag, pos_tag_sents

In [None]:
# download dos pacotes
nltk.download('stopwords') # lista das stopwords
nltk.download('punkt') # pontuações
nltk.download('punkt_tab')
nltk.download('tagsets_json') # pos tagging
nltk.download('averaged_perceptron_tagger_eng') # pos tagging
nltk.download('maxent_ne_chunker_tab') # chunking
nltk.download('words') # chunking
nltk.download('wordnet')

In [None]:
# corpus é um conjunto de documentos
texto = '''Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o
cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer
existiram. Mas sem ela não vamos a lugar algum.'''
print(texto)

In [None]:
# tokenização de sentenças
sentencas = sent_tokenize(texto)
print(sentencas)

In [None]:
# ver a qty de sentenças
print(len(sentencas))

In [None]:
# tokenizar palavras
token = word_tokenize(texto, language='portuguese')
print(token)
print(len(token))

In [None]:
# stopwords
stops = stopwords.words('portuguese')
print(stops)
print(len(stops))

In [None]:
# remover stopwords: pratica muito comum para algumas tecnicas de pln
sem_stopwords = [palavra for palavra in token if palavra not in stops]
print('Tokens: ', token)
print('Sentença sem stopwords: ', sem_stopwords)
print('Tamanho da sentença sem stopwords: ', len(sem_stopwords))

In [None]:
# remover pontuação
print(string.punctuation)
sem_pontuacao = [palavra for palavra in sem_stopwords if palavra not in string.punctuation]
print('Sentença sem stopwords: ', sem_stopwords)
print('Senteça sem stopwords e sem pontuação: ', sem_pontuacao)
print('Tamanho da sentença sem stopwords e sem pontuação: ', len(sem_pontuacao))

In [None]:
# distribuição de frequencia de cada token no corpus
from nltk.probability import FreqDist
freq = FreqDist(sem_pontuacao)
freq

In [None]:
# metodo most_common pra separar as palavras mais frequentes
mais_comuns = freq.most_common(5)
mais_comuns

In [None]:
# stemmers
# porter
stemmer = PorterStemmer()
stem1 = [stemmer.stem(palavra) for palavra in sem_stopwords]
print('Sem stopwords: ', sem_stopwords)
print('Stem Porter: ', stem1)

# snowball
stemmer2 = SnowballStemmer('portuguese')
stem2 = [stemmer2.stem(palavra) for palavra in sem_stopwords]
print('Stem Snowball: ', stem2)

# lancaster
stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(palavra) for palavra in sem_stopwords]
print('Stem Lancaster: ', stem3)

In [None]:
# pos tagging: é o endereçamento do que é cada palavra (verbo, pronome, etc)

# ver a documentação do pos tagging
nltk.help.upenn_tagset()

In [None]:
# gerar um pos tagging das nossas palavras já processadas
pos = nltk.pos_tag(sem_pontuacao)
print(pos)

In [None]:
# lemmatizer: tecnica mais sofisticada que o stemming
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in sem_stopwords]
print('Sem stopwords: ', sem_stopwords)
print('Lematização: ', resultado)

In [None]:
# entidades nomeadas: reconhecer lugares, marcas, nomes no texto
texto_en = "Brasil é o país em que o Lula é o presidente"
token3 = word_tokenize(texto_en)
tags = nltk.pos_tag(token3) # usamos pos tag pq ele faz a marcação que a palavra tem pra ajudar reconhecer a entidade nomeada
en = nltk.ne_chunk(tags)
print(en)