## Aula Prática de PROCESSAMENTO DE LINGUAGEM NATURAL

![Biblioteca Para Processamento de Linguagem Natural](python_nltk.png)

In [3]:
# Importação da Biblioteca
import nltk

### Textos para análise

In [4]:
# texto em inglês
text = 'Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.'
# texto em português
texto = 'Gamão é um dos mais antigos jogos de tabuleiro conhecidos. Sua história remonta quase 5.000 anos às descobertas arqueológicas no Oriente Médio. É um jogo para dois jogadores, onde cada jogador tem quinze damas que se movem entre vinte e quatro pontos de acordo com o lançamento de dois dados.'

### Tokenização de Sentenças

In [5]:
## Tokenização das Sentenças em Inglês
sentences = nltk.sent_tokenize(text)

for sent in sentences:
    print(sent)
    print()

Backgammon is one of the oldest known board games.

Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East.

It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.



In [6]:
## Tokenização das Sentenças em Português
sentences = nltk.sent_tokenize(texto)

for sent in sentences:
    print(sent)
    print()

Gamão é um dos mais antigos jogos de tabuleiro conhecidos.

Sua história remonta quase 5.000 anos às descobertas arqueológicas no Oriente Médio.

É um jogo para dois jogadores, onde cada jogador tem quinze damas que se movem entre vinte e quatro pontos de acordo com o lançamento de dois dados.



### Tokenização de Palavras por Sentenças

In [7]:
## Tokenização das Palavras por Sentença em Inglês
## Passo 1 Tokenização das Sentenças em Inglês
sentences = nltk.sent_tokenize(text)

## Passo 2 Tokenização das Palavras por Sentença em Inglês
for sent in sentences:
    words = nltk.word_tokenize(sent)
    print(words)
    print()

['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.']

['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.']

['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']



In [8]:
## Tokenização das Palavras por Sentença em Português
## Passo 1 Tokenização das Sentenças em Português
sentences = nltk.sent_tokenize(texto)

## Passo 2 Tokenização das Palavras por Sentença em Português
for sent in sentences:
    words = nltk.word_tokenize(sent)
    print(words)
    print()

['Gamão', 'é', 'um', 'dos', 'mais', 'antigos', 'jogos', 'de', 'tabuleiro', 'conhecidos', '.']

['Sua', 'história', 'remonta', 'quase', '5.000', 'anos', 'às', 'descobertas', 'arqueológicas', 'no', 'Oriente', 'Médio', '.']

['É', 'um', 'jogo', 'para', 'dois', 'jogadores', ',', 'onde', 'cada', 'jogador', 'tem', 'quinze', 'damas', 'que', 'se', 'movem', 'entre', 'vinte', 'e', 'quatro', 'pontos', 'de', 'acordo', 'com', 'o', 'lançamento', 'de', 'dois', 'dados', '.']



## Stemming e Lematização

In [17]:
# Importação da Biblioteca dos Stemmer e Lemmatizer
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\domin\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\domin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [61]:
stemmer = PorterStemmer()

## Passo 1 Tokenização das Sentenças em Português
sentences = nltk.sent_tokenize(text)
## Passo 2 Stemming das Palavras Tokenizadas por Sentença em Português
text_stemmed = []
for sent in sentences:
    words = nltk.word_tokenize(sent)
    print('_________________________')
    for word in words:
        print(word +' => '+stemmer.stem(word))

_________________________
Backgammon => backgammon
is => is
one => one
of => of
the => the
oldest => oldest
known => known
board => board
games => game
. => .
_________________________
Its => it
history => histori
can => can
be => be
traced => trace
back => back
nearly => nearli
5,000 => 5,000
years => year
to => to
archeological => archeolog
discoveries => discoveri
in => in
the => the
Middle => middl
East => east
. => .
_________________________
It => It
is => is
a => a
two => two
player => player
game => game
where => where
each => each
player => player
has => ha
fifteen => fifteen
checkers => checker
which => which
move => move
between => between
twenty-four => twenty-four
points => point
according => accord
to => to
the => the
roll => roll
of => of
two => two
dice => dice
. => .


### POS Tagging

In [39]:
## Passo 1 Tokenização das Sentenças em Inglês
sentences = nltk.sent_tokenize(text)
## Passo 2 Tagging das Palavras Tokenizadas por Sentença em Inglês

for sent in sentences:
    print('_________________________')
    for tag in nltk.pos_tag(nltk.word_tokenize(sent)):
        print(tag)

_________________________
('Backgammon', 'NNP')
('is', 'VBZ')
('one', 'CD')
('of', 'IN')
('the', 'DT')
('oldest', 'JJS')
('known', 'VBN')
('board', 'NN')
('games', 'NNS')
('.', '.')
_________________________
('Its', 'PRP$')
('history', 'NN')
('can', 'MD')
('be', 'VB')
('traced', 'VBN')
('back', 'RB')
('nearly', 'RB')
('5,000', 'CD')
('years', 'NNS')
('to', 'TO')
('archeological', 'JJ')
('discoveries', 'NNS')
('in', 'IN')
('the', 'DT')
('Middle', 'NNP')
('East', 'NNP')
('.', '.')
_________________________
('It', 'PRP')
('is', 'VBZ')
('a', 'DT')
('two', 'CD')
('player', 'NN')
('game', 'NN')
('where', 'WRB')
('each', 'DT')
('player', 'NN')
('has', 'VBZ')
('fifteen', 'VBN')
('checkers', 'NNS')
('which', 'WDT')
('move', 'VBP')
('between', 'IN')
('twenty-four', 'NN')
('points', 'NNS')
('according', 'VBG')
('to', 'TO')
('the', 'DT')
('roll', 'NN')
('of', 'IN')
('two', 'CD')
('dice', 'NNS')
('.', '.')


## POS Tagging e Lematização

In [60]:
lemmatizer = WordNetLemmatizer()

## Passo 1 Tokenização das Sentenças em Português
sentences = nltk.sent_tokenize(text)
## Passo 2 Stemming das Palavras Tokenizadas por Sentença em Português
tag_list = [wordnet.ADJ,wordnet.NOUN,wordnet.VERB,wordnet.ADV]
for sent in sentences:
    words = nltk.word_tokenize(sent)
    print('_________________________')
    for word in words:
            for tag in tag_list:
                if word !=lemmatizer.lemmatize(word,pos = tag):
                    print(word +' => '+lemmatizer.lemmatize(word,pos = tag))

_________________________
is => be
oldest => old
known => know
games => game
games => game
_________________________
traced => trace
years => year
discoveries => discovery
_________________________
is => be
has => ha
has => have
checkers => checker
checkers => checker
points => point
points => point
according => accord


## Remoção de Stopwords

In [63]:
## Remoção de Stopword em Ingles
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [64]:
## Remoção de Stopword em Português
from nltk.corpus import stopwords
print(stopwords.words("portuguese"))

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

In [65]:
stop_words = set(stopwords.words("english"))

for sentence in nltk.sent_tokenize(text):
    print(sentence)
    words = nltk.word_tokenize(sentence)
    print(words)
    without_stop_words = [word for word in words if not word in stop_words]
    print(without_stop_words)

Backgammon is one of the oldest known board games.
['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.']
['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']
Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East.
['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.']
['Its', 'history', 'traced', 'back', 'nearly', '5,000', 'years', 'archeological', 'discoveries', 'Middle', 'East', '.']
It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.
['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']
['It', 'two', 'player', 'game', 'player', 'fifteen', 'checkers', 'move', 'twenty-f

In [67]:
stop_words = set(stopwords.words("portuguese"))

for sentence in nltk.sent_tokenize(texto):
    print(sentence)
    words = nltk.word_tokenize(sentence)
    print(words)
    without_stop_words = [word for word in words if not word in stop_words]
    print(without_stop_words)

Gamão é um dos mais antigos jogos de tabuleiro conhecidos.
['Gamão', 'é', 'um', 'dos', 'mais', 'antigos', 'jogos', 'de', 'tabuleiro', 'conhecidos', '.']
['Gamão', 'é', 'antigos', 'jogos', 'tabuleiro', 'conhecidos', '.']
Sua história remonta quase 5.000 anos às descobertas arqueológicas no Oriente Médio.
['Sua', 'história', 'remonta', 'quase', '5.000', 'anos', 'às', 'descobertas', 'arqueológicas', 'no', 'Oriente', 'Médio', '.']
['Sua', 'história', 'remonta', 'quase', '5.000', 'anos', 'descobertas', 'arqueológicas', 'Oriente', 'Médio', '.']
É um jogo para dois jogadores, onde cada jogador tem quinze damas que se movem entre vinte e quatro pontos de acordo com o lançamento de dois dados.
['É', 'um', 'jogo', 'para', 'dois', 'jogadores', ',', 'onde', 'cada', 'jogador', 'tem', 'quinze', 'damas', 'que', 'se', 'movem', 'entre', 'vinte', 'e', 'quatro', 'pontos', 'de', 'acordo', 'com', 'o', 'lançamento', 'de', 'dois', 'dados', '.']
['É', 'jogo', 'dois', 'jogadores', ',', 'onde', 'cada', 'jogador

## Bag of Words (BoW)

In [68]:
text2 = "I like this movie, it's funny.I hate this movie. This was awesome! I like it. Nice one. I love it."
texto2 = "Eu gosto deste filme, é engraçado. Eu odeio esse filme. Isso foi incrível! Eu gosto. Legal. Eu amo."
documents = nltk.sent_tokenize(text2)
documentos = nltk.sent_tokenize(texto2)
print(documents)
print(documentos)

["I like this movie, it's funny.I hate this movie.", 'This was awesome!', 'I like it.', 'Nice one.', 'I love it.']
['Eu gosto deste filme, é engraçado.', 'Eu odeio esse filme.', 'Isso foi incrível!', 'Eu gosto.', 'Legal.', 'Eu amo.']


In [69]:
# Import as bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# Passo 2. Crie o vcoabulario
# O padrão de token remove os tokens de um único caractere. 
#É por isso que não temos os tokens "I" e "s" no modelo de saída usando a classe CountVectorizer mencionada acima.
count_vectorizer = CountVectorizer()

# Psso 3. Criar o modelo Bag-of-Words Model
bag_of_words = count_vectorizer.fit_transform(documents)

# Mostre o Modelo Bag-of-Words como um DataFrame Pandas (Tabela)
feature_names = count_vectorizer.get_feature_names()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0,1,1,1,1,0,2,0,0,2,0
1,1,0,0,0,0,0,0,0,0,1,1
2,0,0,0,1,1,0,0,0,0,0,0
3,0,0,0,0,0,0,0,1,1,0,0
4,0,0,0,1,0,1,0,0,0,0,0


In [70]:
# Passo 2. Crie o vcoabulario
# O padrão de token remove os tokens de um único caractere. 
#É por isso que não temos os tokens "I" e "s" no modelo de saída usando a classe CountVectorizer mencionada acima.
count_vectorizer = CountVectorizer()

# Psso 3. Criar o modelo Bag-of-Words Model
bag_of_words2 = count_vectorizer.fit_transform(documentos)

# Mostre o Modelo Bag-of-Words como um DataFrame Pandas (Tabela)
nomes_atributos = count_vectorizer.get_feature_names()
pd.DataFrame(bag_of_words2.toarray(), columns = nomes_atributos)

Unnamed: 0,amo,deste,engraçado,esse,eu,filme,foi,gosto,incrível,isso,legal,odeio
0,0,1,1,0,1,1,0,1,0,0,0,0
1,0,0,0,1,1,1,0,0,0,0,0,1
2,0,0,0,0,0,0,1,0,1,1,0,0
3,0,0,0,0,1,0,0,1,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,1,0
5,1,0,0,0,1,0,0,0,0,0,0,0


## N Gramas

vamos primeiro construir uma função básica para construir N Gramas e deposi aplicá-la para apresentar os 2,3,4 Gramas dos testos exemplo

In [79]:
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

def get_ngrams(text, n ):
    n_grams = ngrams(word_tokenize(text), n)
    return [ ' '.join(grams) for grams in n_grams]

### Bigramas em Inglês

In [73]:
for doc in documents:
    print(get_ngrams(doc, 2))

['I like', 'like this', 'this movie', 'movie ,', ', it', "it 's", "'s funny.I", 'funny.I hate', 'hate this', 'this movie', 'movie .']
['This was', 'was awesome', 'awesome !']
['I like', 'like it', 'it .']
['Nice one', 'one .']
['I love', 'love it', 'it .']


### Trigramas em Inglês

In [74]:
for doc in documents:
    print(get_ngrams(doc, 3))

['I like this', 'like this movie', 'this movie ,', 'movie , it', ", it 's", "it 's funny.I", "'s funny.I hate", 'funny.I hate this', 'hate this movie', 'this movie .']
['This was awesome', 'was awesome !']
['I like it', 'like it .']
['Nice one .']
['I love it', 'love it .']


### Quadrigramas em Inglês

In [75]:
for doc in documents:
    print(get_ngrams(doc, 4))

['I like this movie', 'like this movie ,', 'this movie , it', "movie , it 's", ", it 's funny.I", "it 's funny.I hate", "'s funny.I hate this", 'funny.I hate this movie', 'hate this movie .']
['This was awesome !']
['I like it .']
[]
['I love it .']


### Bigramas em Português

In [76]:
for doc in documentos:
    print(get_ngrams(doc, 2))

['Eu gosto', 'gosto deste', 'deste filme', 'filme ,', ', é', 'é engraçado', 'engraçado .']
['Eu odeio', 'odeio esse', 'esse filme', 'filme .']
['Isso foi', 'foi incrível', 'incrível !']
['Eu gosto', 'gosto .']
['Legal .']
['Eu amo', 'amo .']


### Trigramas em Português

In [77]:
for doc in documents:
    print(get_ngrams(doc, 3))

['I like this', 'like this movie', 'this movie ,', 'movie , it', ", it 's", "it 's funny.I", "'s funny.I hate", 'funny.I hate this', 'hate this movie', 'this movie .']
['This was awesome', 'was awesome !']
['I like it', 'like it .']
['Nice one .']
['I love it', 'love it .']


### Quadrigramas em Português

In [78]:
for doc in documents:
    print(get_ngrams(doc, 4))

['I like this movie', 'like this movie ,', 'this movie , it', "movie , it 's", ", it 's funny.I", "it 's funny.I hate", "'s funny.I hate this", 'funny.I hate this movie', 'hate this movie .']
['This was awesome !']
['I like it .']
[]
['I love it .']


## Matriz TDIDF

In [81]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(documents)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
TDIDF = pd.DataFrame(values.toarray(), columns = feature_names, index = documents)

In [82]:
TDIDF

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
"I like this movie, it's funny.I hate this movie.",0.0,0.321029,0.321029,0.214997,0.259005,0.0,0.642059,0.0,0.0,0.518009,0.0
This was awesome!,0.614189,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.495524,0.614189
I like it.,0.0,0.0,0.0,0.638711,0.769447,0.0,0.0,0.0,0.0,0.0,0.0
Nice one.,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.707107,0.707107,0.0,0.0
I love it.,0.0,0.0,0.0,0.556451,0.0,0.830881,0.0,0.0,0.0,0.0,0.0


In [83]:
values = tfidf_vectorizer.fit_transform(documentos)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
TDIDF = pd.DataFrame(values.toarray(), columns = feature_names, index = documentos)

In [84]:
TDIDF

Unnamed: 0,amo,deste,engraçado,esse,eu,filme,foi,gosto,incrível,isso,legal,odeio
"Eu gosto deste filme, é engraçado.",0.0,0.5201,0.5201,0.0,0.308554,0.426489,0.0,0.426489,0.0,0.0,0.0,0.0
Eu odeio esse filme.,0.0,0.0,0.0,0.575019,0.341135,0.471523,0.0,0.0,0.0,0.0,0.0,0.575019
Isso foi incrível!,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.57735,0.57735,0.0,0.0
Eu gosto.,0.0,0.0,0.0,0.0,0.586157,0.0,0.0,0.810198,0.0,0.0,0.0,0.0
Legal.,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
Eu amo.,0.86004,0.0,0.0,0.0,0.510227,0.0,0.0,0.0,0.0,0.0,0.0,0.0
