###NLTK - Corpora

In [1]:
import nltk #Importando a biblioteca NLTK
nltk.download('floresta') #Fazendo o download do corpus caso esse não tenha sido previamente baixado
nltk.download('punkt') #Biblioteca utilizada para tokenizar as sentenças

from nltk.corpus import floresta #Importando o corpus floresta

[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Unzipping corpora/floresta.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [2]:
floresta.fileids()[:3] #A função fileids() retorna os ids de todos os documentos do corpus

['Floresta_7.4.ptb']

In [3]:
print(floresta.raw('Floresta_7.4.ptb')[317:343]) #Retorna o conteúdo completo de um texto

Um revivalismo refrescante


###NLKT - Stopwords

In [4]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [5]:
'''
Para retornar as stopwords de uma língua, basta utilizar
a função words e informar a string da língua
'''
stopwords.words('portuguese')

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

### NLTK - Tokenização

In [10]:
from nltk.tokenize import word_tokenize #Importando o tokenizador de palavras
from nltk.tokenize import sent_tokenize #Importando o tokenizador de sentenças
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [11]:
#Criando um texto de exemplo
texto = 'Goku is a hero in the Dragon Ball since 1989! Goku saves the earth so many times.'

In [12]:
nltk.sent_tokenize(texto) #Tokenizando um texto considerando sentenças como unidades

['Goku is a hero in the Dragon Ball since 1989!',
 'Goku saves the earth so many times.']

In [13]:
word_tokenize(texto) #Tokenizando um texto considerando palavras como unidades

['Goku',
 'is',
 'a',
 'hero',
 'in',
 'the',
 'Dragon',
 'Ball',
 'since',
 '1989',
 '!',
 'Goku',
 'saves',
 'the',
 'earth',
 'so',
 'many',
 'times',
 '.']

In [14]:
from nltk.tokenize import TweetTokenizer
texto2 = "I'm very veryyyy happyyyyy #betterlife @barneys :p :D"

In [15]:
twitterTokenizer = TweetTokenizer()
twitterTokenizer.tokenize(texto2)

["I'm", 'very', 'veryyyy', 'happyyyyy', '#betterlife', '@barneys', ':p', ':D']

In [16]:
"""
-strip_handles=True: remove os nomes de usuário do texto
-reduce_len=True: substitui sequencias de 3 ou mais caracteres repetidos por sequencia de 3 caracteres
"""
twitterTokenizer2 = TweetTokenizer(strip_handles=True, reduce_len=True)
twitterTokenizer2.tokenize(texto2)

["I'm", 'very', 'veryyy', 'happyyy', '#betterlife', ':p', ':D']

###NLTK - Simplificação das Palavras

In [17]:
from nltk.stem.snowball import SnowballStemmer

In [18]:
SnowballStemmer.languages #Listando as linguas suportadas pelo SnowBallStemmer
snowballStemmer = SnowballStemmer("portuguese") #Criando um objeto stemizador

In [19]:
snowballStemmer.stem('computação') #Radicalizando as palavras

'comput'

In [20]:
snowballStemmer.stem('computador')

'comput'

In [21]:
snowballStemmer.stem('computando')

'comput'

In [26]:
from nltk.stem import WordNetLemmatizer #Importando o WordNetLemmatizer e fazendo download do recurso caso não exista
nltk.download("wordnet")

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [27]:
"""Também é possível informar a função sintática da palavra no parâmetro 'pos' .\
	No exemplo abaixo, 'a' denota adjetivo"""
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize("better", pos = "a")

'good'

In [28]:
"""O uso da função sintática pode alterar/melhorar o resultado da lematização"""
lemmatizer.lemmatize("clustering")

'clustering'

In [29]:
lemmatizer.lemmatize("clustering", pos='v')

'cluster'

###SPACY - Tokenização

In [30]:
import spacy

nlp = spacy.load("en_core_web_sm")
"""Gerando um objeto o qual gerará um objeto iteravel e cada item representa um token, e
   cada token contém além da palavra em sei, sua versão simplificada, função sintática, etc."""

sentenca = nlp('Rafael is working at Google in the South America. He works very hard :D')

for token in sentenca:
	print(token.text)

Rafael
is
working
at
Google
in
the
South
America
.
He
works
very
hard
:D


In [32]:
#Caso queira considerar primeiramente cada sentença como token também é possível
#Para isso basta utilizar a propriedade sents do objeto gerado
doc = nlp('Lucas is working at Google in the South America. He works very hard!')

for sent in doc.sents:
	print(sent.text)

Lucas is working at Google in the South America.
He works very hard!


###SPACY - Stopwords

In [33]:
sentenca = nlp('Lucas is working at Google in the South America.\
		He works very hard!')

for token in sentenca: #A propriedade .is_stop retorna True se o token está na lista de stopwords
	print(f'{token.text} - {token.is_stop}')

Lucas - False
is - True
working - False
at - True
Google - False
in - True
the - True
South - False
America - False
. - False
		 - False
He - True
works - False
very - True
hard - False
! - False


###SPACY - Composição dos tokens

In [34]:
sentenca = nlp('Lucas is working at Google in the South America since 1999.\
		            He works very hard!')

#A propriedade .is_alpha retorna True se o token é composto apenas por caracteres alfabéticos
for token in sentenca:
	print(f'{token.text} - {token.is_alpha}')

Lucas - True
is - True
working - True
at - True
Google - True
in - True
the - True
South - True
America - True
since - True
1999 - False
. - False
		             - False
He - True
works - True
very - True
hard - True
! - False


###SPACY - Lematização

In [36]:
sentenca = nlp('Lucas has drinked two coffees while the\
		computer is computing the values of the matrices.')

for token in sentenca:
	print(f'{token.text} - {token.lemma_}')

Lucas - Lucas
has - have
drinked - drink
two - two
coffees - coffee
while - while
the - the
		 - 		
computer - computer
is - be
computing - compute
the - the
values - value
of - of
the - the
matrices - matrix
. - .


### SPACY - POS Tagging

In [37]:
sentenca = nlp('Rafael is working at Google in the South America. He works very hard!')

for token in sentenca:
	print(f'{token.text} - {token.pos_} - {token.tag_}')

Rafael - PROPN - NNP
is - AUX - VBZ
working - VERB - VBG
at - ADP - IN
Google - PROPN - NNP
in - ADP - IN
the - DET - DT
South - PROPN - NNP
America - PROPN - NNP
. - PUNCT - .
He - PRON - PRP
works - VERB - VBZ
very - ADV - RB
hard - ADV - RB
! - PUNCT - .
