#Importando um corpus da Biblioteca NLTK

In [1]:
#importando a biblioteca NLTK
import nltk
#Fazendo o downloado do corpus caso esse não tenha sido previamente baixado
nltk.download('machado')
#Biblioteca utilizada para tokenizar as sentenças
nltk.download('punkt')
#Importanto o corpus machado
from nltk.corpus import machado

[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [2]:
# A função fileids() retorna os ids de todos os documentos do corpus
machado.fileids()[:3]

['contos/macn001.txt', 'contos/macn002.txt', 'contos/macn003.txt']

In [None]:
# Retornando o conteúdo completo de um texto
print(machado.raw('contos/macn001.txt'))

In [4]:
#Retornando a categoria de um texto
machado.categories('contos/macn001.txt')

['contos']

In [5]:
#Retornando os tokens de um texto
machado.words('contos/macn001.txt')

['Conto', ',', 'Contos', 'Fluminenses', ',', '1870', ...]

In [6]:
#Retornando as sentenças tokenizadas
machado.sents('contos/macn001.txt')

[['Conto', ',', 'Contos', 'Fluminenses', ',', '1870'], ['Contos', 'Fluminenses'], ...]

#Lista de stopwords

In [7]:
#Importando a biblioteca NLTK
import nltk
#Fazendo o download das listas de stopwords
nltk.download('stopwords')
#Importando o objeto de stopwords
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [8]:
"""
Para retornar as stopwords de uma língua, basta utilizar a função 
words e informa a string da língua
"""
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

#Tokenização

In [9]:
#Importanto o tokenizador de palavras
from nltk.tokenize import word_tokenize
#Importanto o tokenizador de sentenças
from nltk.tokenize import sent_tokenize

In [10]:
#Criando um texto de exemplo
texto = 'Goku is a hero in the Dragon Ball since 1989! Goku saved the earth so many times.'

In [11]:
#Tokenizando um texto considerando sentenças como unidades
sent_tokenize(texto)

['Goku is a hero in the Dragon Ball since 1989!',
 'Goku saved the earth so many times.']

In [12]:
#Tokenizando um texto considerando palavras como unidades
word_tokenize(texto)

['Goku',
 'is',
 'a',
 'hero',
 'in',
 'the',
 'Dragon',
 'Ball',
 'since',
 '1989',
 '!',
 'Goku',
 'saved',
 'the',
 'earth',
 'so',
 'many',
 'times',
 '.']

#Tokenização 2

In [13]:
#Criando um texto de exemplo
texto = 'Goku is a hero in the Dragon Ball since 1989! Goku saved the earth so many times.'

In [14]:
#Importando o RegexpTokenizer para criar expressões regulares para definir o que é um token
from nltk.tokenize import RegexpTokenizer
"""Criando tokenizar o qual considerá como token apenas sequencias de dois ou
   mais caracteres alfanuméricos e que comecem com uma letra maiúscula"""
tokenizer = RegexpTokenizer(r'[A-Z]\w+')
tokenizer.tokenize(texto)

['Goku', 'Dragon', 'Ball', 'Goku']

#Tokenização 3

In [15]:
from nltk.tokenize import TweetTokenizer
texto2 = "I'm very veryyyy happyyyyyyyyy #betterlife @barneys :P :D"

In [16]:
"""Analizando a diferença entre o word_tokenize
   e o twitter tokenize"""
word_tokenize(texto2)

['I',
 "'m",
 'very',
 'veryyyy',
 'happyyyyyyyyy',
 '#',
 'betterlife',
 '@',
 'barneys',
 ':',
 'P',
 ':',
 'D']

In [17]:
twitterTokenizer = TweetTokenizer()
twitterTokenizer.tokenize(texto2)

["I'm",
 'very',
 'veryyyy',
 'happyyyyyyyyy',
 '#betterlife',
 '@barneys',
 ':P',
 ':D']

In [18]:
"""
-strip_handles=True: remove os nomes de usuário do texto
-reduce_len=True: substitui sequencias de 3 ou mais caracteres repetidos por sequência de 3 caracteres
"""
twitterTokenizer2 = TweetTokenizer(strip_handles=True, reduce_len=True)
twitterTokenizer2.tokenize(texto2)

["I'm", 'very', 'veryyy', 'happyyy', '#betterlife', ':P', ':D']

# Simplificação das Palavras

## Radicalização com o algoritmo de Porter

In [19]:
#Importando o stemizador de Porter
from nltk.stem.porter import PorterStemmer

In [20]:
#Instanciando um objeto stemizar utilizando o algoritmo de Porter
porterStemmer = PorterStemmer()

In [21]:
#Stemizando palavras
porterStemmer.stem('computer')

'comput'

In [22]:
porterStemmer.stem('computers')

'comput'

In [23]:
porterStemmer.stem('computing')

'comput'

## Radicalização com o algoritmo SnowBall

In [24]:
from nltk.stem.snowball import SnowballStemmer

In [25]:
# Listando as linguas suportadas pelo SnowBallStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [26]:
#Criando um objeto stemizador
snowballStemmer = SnowballStemmer("portuguese")

In [27]:
#Radicalizando as palavras
snowballStemmer.stem('computação')

'comput'

In [28]:
snowballStemmer.stem('computador')

'comput'

In [29]:
snowballStemmer.stem('computando')

'comput'

# Radicalização com o RSLPStemmer (específico para o português)

In [30]:
#Importando e falzendo download do RSLP
from nltk.stem import RSLPStemmer
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [31]:
#Criando um objeto stemizador
rslpStemmer = RSLPStemmer()

In [32]:
#Radicalizando as palavras
rslpStemmer.stem('computação')

'comput'

In [33]:
rslpStemmer.stem('computador')

'comput'

In [34]:
rslpStemmer.stem('computando')

'comput'

## Lematização com o WordNetLemmatizer

In [35]:
#Importando o WordNetLemmatizer e fazendo download do recurso caso não exista
from nltk.stem import WordNetLemmatizer 
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [36]:
#Criando o objeto lematizador
wordNetLemmatizer = WordNetLemmatizer()

In [37]:
#Lematizando as palavras
wordNetLemmatizer.lemmatize("rocks")

'rock'

In [38]:
wordNetLemmatizer.lemmatize("corpora")

'corpus'

In [39]:
""" Também é possível informar a função sintática da palavra
    no parâmetro 'pos'. No exemplo abaixo, 'a' denota adjetivo"""
wordNetLemmatizer.lemmatize("better", pos ="a")

'good'

In [40]:
""" O uso da função sintárica pode alterar/melhorar o resultado
    da lematização """
wordNetLemmatizer.lemmatize("clustering")

'clustering'

In [41]:
wordNetLemmatizer.lemmatize("clustering", pos='v')

'cluster'

#POS Tagging usando NLTK

## Para o inglês

In [42]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [43]:
text = 'I love Google. Google is the best'

In [44]:
nltk.pos_tag(word_tokenize(text))

[('I', 'PRP'),
 ('love', 'VBP'),
 ('Google', 'NNP'),
 ('.', '.'),
 ('Google', 'NNP'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('best', 'JJS')]

In [45]:
text2 = 'Rafael is working at Google in the South America'

In [46]:
print(nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(text2))))

(S
  (GPE Rafael/NNP)
  is/VBZ
  working/VBG
  at/IN
  (ORGANIZATION Google/NNP)
  in/IN
  the/DT
  (LOCATION South/NNP America/NNP))


#Integrando o NLTK e o SkLearn para pré-processar os textos e gerar uma representação estruturada

In [69]:
#Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

import nltk
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer 

"""O ojeto string possui uma série de caracteres de determinadas
   categorias para comparação"""
import string 

#Importanto o re para eliminar sequencias puras de dígitos
import re

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


In [130]:
#Obtendo a lista de stopwords
stopwords_en = stopwords.words('english')
#Crindo o lematizador
wordNetLemmatizer = WordNetLemmatizer()
#Opção para alterar o tamanho da exibição das colunas no pandas
pd.set_option('max_colwidth',200)
#Criando o padrão de sequências de dígitos
reNumber = re.compile('\d+')

In [131]:
"""Criando a função para preprocessar os textos.
   Nessa função, serão removidos os caracteres de pontuação,
   stopwords, e os termos serão lematizados"""
def preprocessamento (texto): 
  tokens = word_tokenize(texto)
  final_tokens = []
  for token in tokens:
    if not reNumber.match(token): 
      if (token not in string.punctuation):
        token = token.lower()
        if (token not in stopwords_en): 
          final_tokens.append(wordNetLemmatizer.lemmatize(token))
      
  return ' '.join(final_tokens)

In [132]:
#Criando a base de dados
texts = ['Goku is a hero in the Dragon Ball since 1989! Goku saved the earth so many times.',
         'The 7 Dragon balls can make wishes come true! Each ball contains his own dragon.',
         'If the wishes are superfluous, the dragon balls will become dark.' ,
         'Seiya is a bronze knight and is one of the main Knights of the Zodiac. He saved Athena several times.',
         "A knight of the zodiac wear a bronze, silver or a gold cloth to protect Athena.",
         'Saint Seiya: Knights of the Zodiac is a Japanese manga in which mystical warriors called the Saints fight wearing sacred cloths.']
classes = ['Dragon Ball', 'Dragon Ball', 'Dragon Ball', 'Cav. Zod.', 'Cav. Zod.', 'Cav. Zod.']

df = pd.DataFrame({'texts': texts, 'classes': classes})

In [133]:
df

Unnamed: 0,texts,classes
0,Goku is a hero in the Dragon Ball since 1989! Goku saved the earth so many times.,Dragon Ball
1,The 7 Dragon balls can make wishes come true! Each ball contains his own dragon.,Dragon Ball
2,"If the wishes are superfluous, the dragon balls will become dark.",Dragon Ball
3,Seiya is a bronze knight and is one of the main Knights of the Zodiac. He saved Athena several times.,Cav. Zod.
4,"A knight of the zodiac wear a bronze, silver or a gold cloth to protect Athena.",Cav. Zod.
5,Saint Seiya: Knights of the Zodiac is a Japanese manga in which mystical warriors called the Saints fight wearing sacred cloths.,Cav. Zod.


In [134]:
"""Aplicando a função de preprocessamento na base de dados
   e ferando uma nova coluna"""
df['texts_preprocessed'] = df['texts'].apply(preprocessamento)


In [135]:
#Exibindo as diferenças entre o texto pre-processado e o texto normal
df

Unnamed: 0,texts,classes,texts_preprocessed
0,Goku is a hero in the Dragon Ball since 1989! Goku saved the earth so many times.,Dragon Ball,goku hero dragon ball since goku saved earth many time
1,The 7 Dragon balls can make wishes come true! Each ball contains his own dragon.,Dragon Ball,dragon ball make wish come true ball contains dragon
2,"If the wishes are superfluous, the dragon balls will become dark.",Dragon Ball,wish superfluous dragon ball become dark
3,Seiya is a bronze knight and is one of the main Knights of the Zodiac. He saved Athena several times.,Cav. Zod.,seiya bronze knight one main knight zodiac saved athena several time
4,"A knight of the zodiac wear a bronze, silver or a gold cloth to protect Athena.",Cav. Zod.,knight zodiac wear bronze silver gold cloth protect athena
5,Saint Seiya: Knights of the Zodiac is a Japanese manga in which mystical warriors called the Saints fight wearing sacred cloths.,Cav. Zod.,saint seiya knight zodiac japanese manga mystical warrior called saint fight wearing sacred cloth


In [140]:
#Criando o vetorizador e já obtendo o vocabulário e gerando a representação estruturada
vetorizador = CountVectorizer(min_df=2)
representacao = vetorizador.fit_transform(df['texts_preprocessed'])

In [141]:
#Obtendo os termos ordenados de acordo com o seu índice no vocabulário
colunas = [item[0] for item in sorted(vetorizador.vocabulary_.items(), key = lambda x: x[1])]

#Gerando o DataFrame com o dados
df_repr = pd.DataFrame(representacao.toarray(), columns=colunas)

In [142]:
df_repr

Unnamed: 0,athena,ball,bronze,cloth,dragon,knight,saved,seiya,time,wish,zodiac
0,0,1,0,0,1,0,1,0,1,0,0
1,0,2,0,0,2,0,0,0,0,1,0
2,0,1,0,0,1,0,0,0,0,1,0
3,1,0,1,0,0,2,1,1,1,0,1
4,1,0,1,1,0,1,0,0,0,0,1
5,0,0,0,1,0,1,0,1,0,0,1


In [143]:
df_repr.shape

(6, 11)