In [None]:
# ntlk é uma das bibliotecas mais tradicionais para NLP
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents

In [None]:
import string

In [None]:
# download de modelos específicos para a prática
nltk.download("stopwords")
nltk.download("punkt")
nltk.download("tagsets")
nltk.download("wordnet")
nltk.download("averaged_perceptron_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("words")

In [None]:
# Corpus
Texto = '''Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o
cosmos se autoconhecer. A imaginação nos leva a mundos que nunca
sequer existiram. Mas sem ela não vamos a lugar algum.  '''
print(Texto)

In [None]:
# TOKENIZATION
sentencas = sent_tokenize(Texto, language="portuguese")
print(type(sentencas))
print(sentencas) # cada sentença é armazenada em um espaço de uma lista

In [None]:
print(len(sentencas))

In [None]:
tokens = word_tokenize(Texto, language="portuguese")
print(tokens) # agora todos elementos da sentença são separados e postos em uma única lista

In [None]:
# STOPWORDS -> palavras que não tem valor semântico
stops = stopwords.words("portuguese")
print(stops)

In [None]:
# removendo as stopwords para que não prejudique o modelo
palavras_sem_stopwords = [p for p in tokens if p not in stops]
print(palavras_sem_stopwords)

In [None]:
# diferença da remoção das stopwords
print(len(tokens))
print(len(palavras_sem_stopwords))

In [None]:
# conjunto que contém as pontuações
print(string.punctuation)

In [None]:
# removendo pontuação
palavras_sem_pontuacao = [p for p in palavras_sem_stopwords if p not in string.punctuation]
print(palavras_sem_pontuacao)

In [None]:
# consultas a repetição de palavras -> retorna um dicionário em ordem decrescente
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
frequencia

In [None]:
# consultar as palavras mais comuns
mais_comuns = frequencia.most_common(2)
mais_comuns

In [None]:
# técnicas para redução das palavras (usando stemer, que é mais simples que lemmatizing)
stemmer = PorterStemmer()
stem1 = [stemmer.stem(word) for word in palavras_sem_pontuacao]
print(stem1)

In [None]:
stemmer2 = SnowballStemmer("portuguese")
stem2 = [stemmer2.stem(word) for word in palavras_sem_pontuacao]
print(stem2)

In [None]:
stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(word) for word in palavras_sem_pontuacao]
print(stem3)

In [None]:
# lista de POS Tagging para entender as tags atribuídas às palavras
nltk.help.upenn_tagset()

In [None]:
# aplicando o POS Taggin
pos = nltk.pos_tag(palavras_sem_pontuacao)
print(pos)

In [None]:
# LEMMATIZING
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in palavras_sem_pontuacao]
print(resultado)

In [None]:
# ENTIDADES NOMEADAS -> reconhecimento de famosos, por ex
texto_en = "Barak Obama foi um presidente dos EUA"
token3 = word_tokenize(texto_en)
tags = pos_tag(token3)
en = nltk.ne_chunk(tags)
print(en)