# Exemplos

In [1]:
import pandas as pd
import nltk

nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger') 

text="Os que enxergam o copo meio cheio ainda apontarão que várias economias desenvolvidas, como Alemanha, Itália," \
"Canadá, França e Reino Unido, tiveram quedas maiores que a brasileira. No entanto, o infortúnio alheio não reduz "\
"em nada nossa própria tragédia. E, em boa parte, a recuperação depende do que for feito internamente, "\
"mais que do cenário externo."

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


# Tokenização por sentenças

In [2]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text, "portuguese"))

['Os que enxergam o copo meio cheio ainda apontarão que várias economias desenvolvidas, como Alemanha, Itália,Canadá, França e Reino Unido, tiveram quedas maiores que a brasileira.', 'No entanto, o infortúnio alheio não reduz em nada nossa própria tragédia.', 'E, em boa parte, a recuperação depende do que for feito internamente, mais que do cenário externo.']


In [3]:
from nltk.tokenize import word_tokenize

print(nltk.word_tokenize(text, "portuguese"))

['Os', 'que', 'enxergam', 'o', 'copo', 'meio', 'cheio', 'ainda', 'apontarão', 'que', 'várias', 'economias', 'desenvolvidas', ',', 'como', 'Alemanha', ',', 'Itália', ',', 'Canadá', ',', 'França', 'e', 'Reino', 'Unido', ',', 'tiveram', 'quedas', 'maiores', 'que', 'a', 'brasileira', '.', 'No', 'entanto', ',', 'o', 'infortúnio', 'alheio', 'não', 'reduz', 'em', 'nada', 'nossa', 'própria', 'tragédia', '.', 'E', ',', 'em', 'boa', 'parte', ',', 'a', 'recuperação', 'depende', 'do', 'que', 'for', 'feito', 'internamente', ',', 'mais', 'que', 'do', 'cenário', 'externo', '.']


# Sinonimos

In [4]:
from nltk.corpus import wordnet
sin = wordnet.synsets("intelligent")
print(sin)

[Synset('intelligent.a.01'), Synset('intelligent.s.02'), Synset('healthy.s.04'), Synset('intelligent.s.04')]


In [5]:
print(sin[0].definition())

having the capacity for thought and reason especially to a high degree


In [6]:
print(sin[0].examples())

['is there intelligent life in the universe?', 'an intelligent question']


# Stemming

In [7]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("portuguese")
print(stemmer.stem("Cantava"))

cant


In [8]:
print(stemmer.stem("estudante"))

estud


In [9]:
print(stemmer.stem("dançarina"))

dançarin


# Lemmatizer

In [10]:
from nltk.stem import WordNetLemmatizer
lem = WordNetLemmatizer()
print(lem.lemmatize("consulting", pos = "v")) #begin

consult


# Stopwords

In [11]:
from nltk.corpus import stopwords
from string import punctuation

stopwords.words("portuguese")


['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

In [12]:
stw = set(stopwords.words("portuguese"))
palavras = word_tokenize(text)
filtro = [ ]
for p in palavras:
    if p not in stw:
        filtro.append(p)

print(filtro)

['Os', 'enxergam', 'copo', 'meio', 'cheio', 'ainda', 'apontarão', 'várias', 'economias', 'desenvolvidas', ',', 'Alemanha', ',', 'Itália', ',', 'Canadá', ',', 'França', 'Reino', 'Unido', ',', 'quedas', 'maiores', 'brasileira', '.', 'No', 'entanto', ',', 'infortúnio', 'alheio', 'reduz', 'nada', 'própria', 'tragédia', '.', 'E', ',', 'boa', 'parte', ',', 'recuperação', 'depende', 'feito', 'internamente', ',', 'cenário', 'externo', '.']


# Retirando pontuação

In [13]:
from string import punctuation
stw = set(stopwords.words("portuguese")+ list(punctuation))
palavras_sem_stopwords = [palavra for palavra in palavras if palavra not in stw]
palavras_sem_stopwords

['Os',
 'enxergam',
 'copo',
 'meio',
 'cheio',
 'ainda',
 'apontarão',
 'várias',
 'economias',
 'desenvolvidas',
 'Alemanha',
 'Itália',
 'Canadá',
 'França',
 'Reino',
 'Unido',
 'quedas',
 'maiores',
 'brasileira',
 'No',
 'entanto',
 'infortúnio',
 'alheio',
 'reduz',
 'nada',
 'própria',
 'tragédia',
 'E',
 'boa',
 'parte',
 'recuperação',
 'depende',
 'feito',
 'internamente',
 'cenário',
 'externo']

# Classificando palavras

In [14]:
from nltk.tokenize import PunktSentenceTokenizer
text = "the quick brown fox jumps over the lazy dog"

frases =  nltk.sent_tokenize(text)
for frase in frases:
    print(nltk.pos_tag(nltk.word_tokenize(frase)))


[('the', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]
