# Processamento de Linguagem Natural (PLN) - Básico


SERPRO - SUPSD - DIVISÃO DE DESENVOLVIMENTO E SUSTENTAÇÃO DE PRODUTOS COGNITIVOS


## Parte 2 - Modelagem Estatística dos Dados

Esta é a segunda parte do curso básico sobre PLN. Vimos até então como realizar o pré-processamento dos dados realizando operações básicas e essenciais para o PLN. Agora vamos abordar algumas modelagens estatísticas de forma que possamos estruturar os dados (textos). Os dados estruturados são a entrada para a próxima etapa onde iremos de fato criar um modelo para o processamento de linguagem natural. 

Conteúdo:
 - Modelagem Estatística da Linguagem
     - N-Gramas
     - Bag of Words (BoW)             
     - TF-IDF 
        

# Modelos n-gramas

Um  n-grama  é  simplesmente  uma  sequência  de  tokens. No  contexto  da  linguística computacional,  esses  tokens  são  geralmente  palavras,  embora  possam  ser  caracteres  ou subconjuntos de caracteres. O n simplesmente se refere ao número de tokens.

Se estivermos contando palavras, a string "Amanhã vai chover forte" é um 4-gramas. Este 4-gramas contém os 3-gramas “Amanhã vai chover” e “vai chover forte”. Seguindo, o 3-gramas “Amanhã vai chover” contém os 2-gramas “Amanhã vai” e “vai chover”. Um unigrama é um único token, por exemplo, “Amanhã”.

Mais precisamente, podemos usar modelos n-gramas para derivar uma probabilidade da sentença, W, como a probabilidade conjunta de cada palavra individual na sentença, wi: __P(W) = P(w1, w2, ..., wn)__.  

Para  que  podemos  usar  modelos  n-grama?  Dadas  as  probabilidades  de  uma  frase, podemos determinar a probabilidade de uma tradução automática automatizada estar correta, podemos prever que a próxima palavra mais provável ocorrerá em uma frase, podemos gerar automaticamente texto da fala, automatizar correção ortográfica ou determinar o sentimento relativo de um texto.

Um exemplo de problema que necessita de inferência estatística é a previsão da palavra seguinte em uma frase, dadas as palavras anteriores. Uma sequência de palavras pode começar de uma maneira conhecida, mas terminar por uma palavra desconhecida.

Os casos de n-gramas mais utilizados são com n = 2, 3 e 4, particularmente denominados bigramas, trigramas e tetragramas. Quanto maior o valor de n, isto é, maior o número de classes que dividem os dados, maior a confiabilidade da inferência. No entanto, o número de parâmetros a serem estimados cresce  exponencialmente  em  relação  a  n.  Por  isso,  geralmente  são  utilizados  bigramas  ou trigramas em sistemas dessa natureza.

Exemplo utilizando N-grams com a biblioteca NLTK.  

In [1]:
# Imports
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
?ngrams

In [2]:
# Texto
text = "Eu preciso escrever um programa em NLTK que quebra um corpus (uma grande coleção de arquivos txt) em unigramas, bigramas, trigramas e quatro gramas. Eu preciso escrever um programa em NLTK que quebra um corpus"
text = text.lower()

# Tokenização
token = nltk.word_tokenize(text)

# N-gramas
bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)

# Imprime na tela os n-gramas e suas respectivas ocorrências
print("\nTexto: ")
print(text)
print("\nBigramas: ")
print (Counter(bigrams))
print("\n")
print("\nTrigramas: ")
print (Counter(trigrams))
print("\n")
print("\nTetragramas: ")
print (Counter(fourgrams))
print("\n")


Texto: 
eu preciso escrever um programa em nltk que quebra um corpus (uma grande coleção de arquivos txt) em unigramas, bigramas, trigramas e quatro gramas. eu preciso escrever um programa em nltk que quebra um corpus

Bigramas: 
Counter({('eu', 'preciso'): 2, ('preciso', 'escrever'): 2, ('escrever', 'um'): 2, ('um', 'programa'): 2, ('programa', 'em'): 2, ('em', 'nltk'): 2, ('nltk', 'que'): 2, ('que', 'quebra'): 2, ('quebra', 'um'): 2, ('um', 'corpus'): 2, ('corpus', '('): 1, ('(', 'uma'): 1, ('uma', 'grande'): 1, ('grande', 'coleção'): 1, ('coleção', 'de'): 1, ('de', 'arquivos'): 1, ('arquivos', 'txt'): 1, ('txt', ')'): 1, (')', 'em'): 1, ('em', 'unigramas'): 1, ('unigramas', ','): 1, (',', 'bigramas'): 1, ('bigramas', ','): 1, (',', 'trigramas'): 1, ('trigramas', 'e'): 1, ('e', 'quatro'): 1, ('quatro', 'gramas'): 1, ('gramas', '.'): 1, ('.', 'eu'): 1})



Trigramas: 
Counter({('eu', 'preciso', 'escrever'): 2, ('preciso', 'escrever', 'um'): 2, ('escrever', 'um', 'programa'): 2, ('um'

---

## Exercício 1

Copie e cole a célula acima.

Modifique a nova célula para que antes da criação dos N-gramas sejam removidas as stopwords e feito o stemming com RSLPStemmer

Dica:
1. portuguese_stemmer = RSLPStemmer()
2. portuguese_stops = set(stopwords.words('portuguese'))


Execute novamente a célula e verifique os resultados

---

## Bag of Words

###  Conceituação

O modelo de "saco de palavras" é uma representação simplificada usada no processamento de linguagem natural e recuperação de informação. Neste modelo, um texto (como uma sentença ou um documento) é representado como o saco (multiset) de suas palavras, desconsiderando a gramática e até a ordem das palavras, mas mantendo a multiplicidade.

Na classificação de documentos, um saco de palavras é um vetor esparso de ocorrência de contagens de palavras; Ou seja, um histograma esparso sobre o vocabulário.

O BOW facilita  nossa  vida  porque  simplifica  a representação usada em PLN. Vamos mostrar um exemplo para você entender melhor o  BOW. Vamos pegar o seguinte conjunto de documentos:

 - Documento de texto 1: __Joao gosta de assistir ao futebol. Jose gosta de futebol também__. 
 - Documento de texto 2: __Joao também gosta de assistir a filmes__. 

Com base nesses dois documentos de texto, você pode gerar a seguinte lista de palavras (vocabulário):

Lista  de  palavras (Vocabulário)= __["Joao",  "gosta",  "de", "assistir", "ao", "futebol",  "Jose", "também", "a", "filmes"]__

Para  os  documentos  anteriores,  você  pode gerar  a  seguinte  lista  de  frequências: 
- Contagem de frequência para o documento 1: __[1, 2, 2, 1, 1, 2, 1, 1, 0, 0]__
- Contagem de frequência para o Documento 2: __[1, 1, 1, 1, 0, 0, 0, 0, 1, 1]__

Esta lista é chamada BOW (Bag of Words). Aqui, não estamos considerando a gramática das sentenças. Nós também não estamos incomodados com a ordem das palavras. 

Então,  como  geramos  a  lista  de  contagens  de  frequência?  Para  gerar  a contagem de frequência do Documento 1, considere a lista de palavras e verifique quantas vezes cada uma das palavras listadas aparece no Documento 1. 

Aqui, primeiro pegamos a palavra __"Joao"__, que aparece no Documento 1 uma única  vez;  a  contagem  de  frequência  para  o  Documento  1  é  1.  Contagem  de frequência para o Documento 1: __[1]__. 

Para a segunda entrada, a palavra __"gosta"__ aparece duas vezes no Documento 1, portanto, a  contagem  de  frequência  é  2.  Contagem  de frequência para  o Documento 1: __[1, 2]__. 

Então seguindo a lógica geramos a contagem de frequência para o Documento 1 e Documento 2. 

Depois de gerar a BOW, podemos  derivar  o  termo-frequência (Term-Frequency) de  cada  palavra  no documento,  que  pode  ser  posteriormente  alimentado em um  algoritmo  de aprendizado de máquina. Vamos aprender mais sobre frequência quando estudarmos TF-IDF, próximo tópico.

Agora, seguem alguns exemplos para criação do BoW:

### Implementando o modelo de BoW
Neste exemplo o BoW irá conter a contagem da ocorrência das features (palavras) no texto do documento.

In [3]:
import nltk

doc1 = 'Joao gosta de assistir ao futebol. Jose gosta de futebol também.' 
doc2 = 'Joao também gosta de assistir a filmes.'

# Tokenizacao dos documentos
words_doc1 = nltk.word_tokenize(doc1)
print("Palavras tokenizadas doc1:", words_doc1)

words_doc2 = nltk.word_tokenize(doc2)
print("Palavras tokenizadas doc2:", words_doc2)

# Vocabulário com todas as Palavras dos documentos
words = words_doc1+words_doc2

# Obtem a lista  as palavras dos documentos (remove as repetidas e ordena)
words = sorted(list(set(words)))
print ("Lista de palavras (Vocabulário):",words)

bow = []

for w in words:
        #bow.append(1) if w in words_doc1 else bow.append(0) # Binário
        bow.append(words_doc1.count(w)) #Contagem da palavra

print('Bow documento 1',bow)

bow = []
for w in words:
        #bow.append(1) if w in words_doc2 else bow.append(0)
        bow.append(words_doc2.count(w))

print('Bow documento 2',bow)     


Palavras tokenizadas doc1: ['Joao', 'gosta', 'de', 'assistir', 'ao', 'futebol', '.', 'Jose', 'gosta', 'de', 'futebol', 'também', '.']
Palavras tokenizadas doc2: ['Joao', 'também', 'gosta', 'de', 'assistir', 'a', 'filmes', '.']
Lista de palavras (Vocabulário): ['.', 'Joao', 'Jose', 'a', 'ao', 'assistir', 'de', 'filmes', 'futebol', 'gosta', 'também']
Bow documento 1 [2, 1, 1, 0, 1, 1, 2, 0, 2, 2, 1]
Bow documento 2 [1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1]


---

#### Exercício 2

Copie e cole a célula acima.

Modifique a nova célula para que sejam removidas as stopwords e feito o stemming com RSLPStemmer para cada documento.

Inclua um novo documento com uma frase à sua escolha e faça o BoW com o vocabulário criado anteriormente com os outros 2 documentos.

Execute novamente a célula e verifique os resultados

---

### Criando BoW a partir do CountVectorizer 

Neste exemplo criamos um BoW com as frequências das ocorrências das features do documento. As features neste caso serão os bigramas.

In [4]:
#!pip install scikit-learn
# Imports
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

?CountVectorizer

In [5]:
doc1 = 'Joao gosta de assistir ao futebol. Jose gosta de futebol também' 
doc2 = 'Joao também gosta de assistir a filmes'

# Cria um ngram vectorizer
# Vamos criar o BOW dos 2 documentos
# Usamos n_gram = (2,2)
ngram_vectorizer = CountVectorizer(ngram_range=(2,2))

# Contabilizamos as combinações de caracteres nas palavras
bows = ngram_vectorizer.fit_transform([doc1, doc2])

# Imprimimir as features
print ('Features (bigramas) - Vocabulário:')
print(ngram_vectorizer.get_feature_names())

# Imprimir o BOW
print ('Bow - BagOfN-Gram:')
print (bows.toarray().astype(int))
print(bows.shape)

Features (bigramas) - Vocabulário:
['ao futebol', 'assistir ao', 'assistir filmes', 'de assistir', 'de futebol', 'futebol jose', 'futebol também', 'gosta de', 'joao gosta', 'joao também', 'jose gosta', 'também gosta']
Bow - BagOfN-Gram:
[[1 1 0 1 1 1 1 2 1 0 1 0]
 [0 0 1 1 0 0 0 1 0 1 0 1]]
(2, 12)


---

#### Exercício 3

Copie e cole a célula acima.

Inclua mais um documento com uma frase à sua escolha.

Consulte a documentação da classe CountVectorizer para adicionar dois novos parâmetros:
    
- stop_words para poder remover stopwords em português
- max_features para limitar em 5 o número de palavras do vocabulário

Execute novamente a célula e verifique os resultados

---

Outra forma é passar um vocabulário para limitar o BOW

In [6]:
# Outra forma é passar um vocabulário para limitar o BOW
vocabulary = ['ao futebol', 'assistir filmes', 'de futebol', 'futebol também', 'gosta de', 'joao também', 'também gosta']

vocabulary_vec = CountVectorizer(ngram_range=(2,2), vocabulary = vocabulary)
print("BOW para o vocabulário:",vocabulary_vec.fit_transform([doc1]).toarray().astype(int))

BOW para o vocabulário: [[1 0 1 1 2 0 0]]


Podemos também obter o BOW do documento usando apenas as features mais relevantes com nltk.FreqDist

In [7]:
# Documentos
words_doc1 = [w.lower() for w in words_doc1]
words_doc2 = [w.lower() for w in words_doc2]
print(words_doc1)
print(words_doc2)

# Obtem o vocabulário com as features mais relevante
words_freq=nltk.FreqDist(words_doc1+words_doc2)
word_features_top = [i[0] for i in words_freq.most_common(10)]
print("Features mais frequentes:", word_features_top)

# Gera o Bow limitando as 10 features mais utilizadas
relevant_vec = CountVectorizer(vocabulary = word_features_top)
bow_top = relevant_vec.fit_transform([doc1]).toarray().astype(int)
print("BOW com relação ao vocabulário:",bow_top)

['joao', 'gosta', 'de', 'assistir', 'ao', 'futebol', '.', 'jose', 'gosta', 'de', 'futebol', 'também', '.']
['joao', 'também', 'gosta', 'de', 'assistir', 'a', 'filmes', '.']
Features mais frequentes: ['gosta', 'de', '.', 'joao', 'assistir', 'futebol', 'também', 'ao', 'jose', 'a']
BOW com relação ao vocabulário: [[2 2 0 1 1 2 1 1 1 0]]


## Modelos N-grama x Bag of Words

N-gramas e BOW são diferentes, entretanto possuem relacionamentos. 

<p style='text-align: justify;'>A diferença está em termos de seu uso em  aplicativos de PLN.  Em  n-gramas,  a  ordem  das  palavras  é importante, enquanto que na BOW não é importante manter a ordem das palavras. Durante a aplicação de PLN, n-gram é usado para considerar as palavras em sua ordem real, para que possamos ter uma ideia sobre o contexto da palavra em particular. BOW é usado para construir vocabulário para o seu conjunto de dados de texto.</p>

<p style='text-align: justify;'>N-gramas e BOW estão relacionados entre si. Considerando-se n-grama como um recurso, então BOW é a representação de texto derivada usando um unigrama. Portanto, nesse caso, um n-grama é igual a um recurso e o BOW é igual a uma representação de texto usando um unigrama (um grama) contido nele. Da mesma forma podemos ter um BOW utilizando um bigrama seria uma representação do texto usando os bigramas contidos nele.</p>

# Matrizes de Documentos

Antes de estudar TF-IDF vamos compreender o que são matrizes de documentos.

<p style='text-align: justify;'>Ao trabalhar com arquivos de texto estamos trabalhando com dados não estruturados. Entretanto,  nós precisamos antes transformar esses dados não estruturados colocando algum nível de estrutura neles. Para então aplicar técnicas de análise de dados e construir aplicações de PLN. Uma das formas de se aplicar uma estrutura é utilizar uma matriz de documentos. </p>

Um conceito importante é que a representação de um documento, de forma geral, se dá utilizando um conjunto de palavras-chaves(ou termos).

<p style='text-align: justify;'>Para modelar uma matriz de documentos antes é importante aplicar técnicas de pré-processamento, como remoção de stopwords, steeming etc melhorar a sua representação. É possível modelar cada documento como um vetor numa matriz de dimensão n_x_m, onde n é o conjunto de documentos e m é o número de termos. Os vetores podem ser:</p>

- Binários
- Ternários
- Frequência Absoluta
- Frequência Relativa

__Matriz Binária (Booleana)__ 

Os vetores são binários: 0 para ausência do termo e 1 para presença do termo no documento.  
Segue exemplo de uma matriz binária onde t representa os termos (linhas) e d os documentos (colunas):
![matriz_binaria.png](images/matriz_binaria.png)

__Matriz Ternária__ 

Na matriz ternária adiciona-se um terceiro valor ao vetor: 0 para ausência do termo, 1 para presença do termo no documento e 2 para quando o termo ocorre mais de uma vez.

__Matriz de Frequência Absoluta__

Os vetores contém a quantidade de vezes (frequência absoluta) que o termo aparece em cada documento. O que pode ser mais relevante que saber apenas se o termo está presente ou não. Exemplo:
![matriz_freq_abs.png](images/matriz_freq_abs.png)

__Matriz de Frequência Relativa__

Os vetores contém a frequência relativa de cada termo no documento, ou seja, a frequência absoluta dividido pelo número total das ocorrências de todos os termos no documento. Exemplo:
![matriz_freq_rel.png](images/matriz_freq_rel.png)


Como podemos perceber, o modelo BOW é uma matriz de documentos. 

Uma vez obtida a matriz de documentos é possível aplicar qualquer métrica de distância, para verificar documentos similares, uma vez que o esperado é que tais documentos possuam frequências similares. 

Além disso é possível modificar a matriz de frequência de forma a considerar a importância percebida daquele termo. A formulação TF-IDF então é utilizada para computar pesos ou scores para os termos e indicando para a análise quais desses termos são mais relevantes para o documento. 

Vamos então entender o que é o TF-IDF. 

# TF-IDF


__TF-IDF__ (abreviação do inglês _term frequency-inverse document frequency_, que significa frequência do termo-inverso da frequência nos documentos), é uma medida estatística que tem o objetivo de indicar a importância de uma palavra de um documento em relação a uma coleção de documentos.  

__Características da Métrica TF-IDF__: 
- Quando o termo aparece em muitos documentos ele é considerado irrelevante e o fator de escala é diminuído, tendendo a zero.
- Quando o termo é relativamente único e aparece em poucos documentos o fator de escala aumenta uma vez que ele parece ser importante 
- O resultado desse processo é um score positivo que substitui a frequência em célula em nossa tabela/matrix. 
- Quanto maior o score mais importante seu valor esperado para o método de aprendizado
 
 _Em resumo, quanto maior a pontuação TF*IDF (peso), mais raro o termo e vice-versa._

 
__Derivando o Score TF-IDF__:

Uma Frequência de Termo (__TF__) é uma contagem de quantas vezes uma palavra ocorre num determinado documento (sinônimo de Bag of Words). Normalmente é usado a frequência relativa.

A Frequência Inversa do Documento (__IDF__) é o número de vezes que uma palavra ocorre em um Corpus de documentos. 



__TF-IDF__ é usado para ponderar as palavras de acordo com a importância delas. Palavras que são usadas com frequência em muitos documentos terão uma ponderação mais baixa, enquanto as menos frequentes terão uma ponderação mais alta. 

Assim, __TF-IDF__ é uma técnica de recuperação de informações que pesa a frequência de um termo (__TF__) e sua frequência inversa no documento (__IDF__). Cada palavra ou termo tem sua respectiva pontuação __TF__ e __IDF__. O produto das pontuações __TF__ e __IDF__ é chamado de __peso TF*IDF__ deste termo. 


O algoritmo __TF-IDF__ é usado para pesar um palavra-chave em qualquer conteúdo e atribuir a sua importância com base no número de vezes que ela aparece no documento. Mais importante, verifica a relevância da palavra chave em todo o Corpus. Ou seja, saber a partir de uma contagem, quais são as palavras ou termos mais relevantes dentro de um documento ou de uma coleção de documentos.

Os três scores podem ser calculados pelas seguintes fórmulas:

- __TF__  = número de vezes que o termo t aparece no documento sobre o número total de termos do documento
- __IDF__ = log do número total de documentos (N) sobre o número de documentos com o termo t (log * N/Nt)
- __TF-IDF__ = TF * IDF

Essa funções já estão disponíveis em vários pacotes da linguagem Python que iremos ver em seguida.


__Aplicações do TF-IDF__

- Análise de texto: pode-se obter informações sobre as palavras mais precisas para o seu conjunto de dados.
- Gerar resumo de texto em que você tenha uma abordagem estatística
- Em mecanismos de busca para descobrir a pontuação e a classificação da relevância de um documento para uma determinada consulta do usuário. 
- Classificação de documentos junto com o BOW
- Identificação de documentos similares

A seguir vamos ver alguns exemplos de implementação e uso do TF-IDF.

### TF-IDF com Textblob

Iremos implementar o TF-IDF utilizando a lib Textblob (TextBlob: Simplified Text Processing)

In [8]:
!pip install textblob

# Imports
from textblob import TextBlob
import math



In [9]:
# Implementação de Funções TF-IDF

#TF: Calculo da frequência relativa 
def tf(word, blob):
    return blob.words.count(word) / len(blob.words)

# Retorna o número de documento que contém a palavra
def n_containing(word, bloblist):
    return sum(1 for blob in bloblist if word in blob.words)

# Inverse Document Frequency
def idf(word, bloblist):
    #Adiciona 1 para previnir divição por zero
    return math.log(len(bloblist) / (1 + n_containing(word, bloblist)))

# Score TF-IDF
def tfidf(word, blob, bloblist):
    return tf(word, blob) * idf(word, bloblist)

In [10]:
# Texto
text1 = 'tf idf, forma abreviada de frequência de termo, frequência de documento inversa'
text2 = 'é uma estatística numérica que se destina a refletir o quão importante'
text3 = 'uma palavra é para um documento em uma coleção ou corpus'

blob = TextBlob(text1)
blob2 = TextBlob(text2)
blob3 = TextBlob(text3)

# Corpus
bloblist = [blob, blob2, blob3] 

In [11]:
def print_scores(word,blob,bloblist):
    # Scores para a palavra
    tf_score = tf(word, blob)
    idf_score = idf(word, bloblist)
    tfidf_score = tfidf(word, blob, bloblist)
    
    # Print
    print("Scores para a palavra:",word)
    print ("TF:" ,str(tf_score))
    print ("IDF:",str(idf_score))
    print ("TF-IDF:",str(tfidf_score))
    print ("\n")
    
print('Scores para o documento text1:')
print ("\n")
print_scores('abreviada',blob,bloblist)
print_scores('frequência',blob,bloblist)
print_scores('destina',blob,bloblist)

Scores para o documento text1:


Scores para a palavra: abreviada
TF: 0.08333333333333333
IDF: 0.4054651081081644
TF-IDF: 0.033788759009013694


Scores para a palavra: frequência
TF: 0.16666666666666666
IDF: 0.4054651081081644
TF-IDF: 0.06757751801802739


Scores para a palavra: destina
TF: 0.0
IDF: 0.4054651081081644
TF-IDF: 0.0




Agora vamos ver um exemplo com texto onde usam a palavra "Python" em 3 contextos. Queremos saber quais palavras são mais significativas para cada texto em seus respectivos contextos. 

In [12]:
document1 = TextBlob("""Python is a 2000 made-for-TV horror movie directed by Richard
Clabaugh. The film features several cult favorite actors, including William
Zabka of The Karate Kid fame, Wil Wheaton, Casper Van Dien, Jenny McCarthy,
Keith Coogan, Robert Englund (best known for his role as Freddy Krueger in the
A Nightmare on Elm Street series of films), Dana Barron, David Bowe, and Sean
Whalen. The film concerns a genetically engineered snake, a python, that
escapes and unleashes itself on a small town. It includes the classic final
girl scenario evident in films like Friday the 13th. It was filmed in Los Angeles,
 California and Malibu, California. Python was followed by two sequels: Python
 II (2002) and Boa vs. Python (2004), both also made-for-TV films.""")

document2 = TextBlob("""Python, from the Greek word (πύθων/πύθωνας), is a genus of
nonvenomous pythons found in Africa and Asia. Currently, 7 species are
recognised. A member of this genus, P. reticulatus, is among the longest
snakes known.""")

document3 = TextBlob("""The Colt Python is a .357 Magnum caliber revolver formerly
manufactured by Colt's Manufacturing Company of Hartford, Connecticut.
It is sometimes referred to as a "Combat Magnum".[1] It was first introduced
in 1955, the same year as Smith &amp; Wesson's M29 .44 Magnum. The now discontinued
Colt Python targeted the premium revolver market segment. Some firearm
collectors and writers such as Jeff Cooper, Ian V. Hogg, Chuck Hawks, Leroy
Thompson, Renee Smeets and Martin Dougherty have described the Python as the
finest production revolver ever made.""")

bloblist = [document1, document2, document3]
for i, blob in enumerate(bloblist):
    print("Top words in document {}".format(i + 1))
    scores = {word: tfidf(word, blob, bloblist) for word in blob.words}
    sorted_words = sorted(scores.items(), key=lambda x: x[1], reverse=True)
    for word, score in sorted_words[:5]:
        print("\tWord: {}, TF-IDF: {}".format(word, round(score, 5)))

Top words in document 1
	Word: python, TF-IDF: 0.01662
	Word: films, TF-IDF: 0.00997
	Word: made-for-TV, TF-IDF: 0.00665
	Word: film, TF-IDF: 0.00665
	Word: on, TF-IDF: 0.00665
Top words in document 2
	Word: genus, TF-IDF: 0.02317
	Word: from, TF-IDF: 0.01158
	Word: Greek, TF-IDF: 0.01158
	Word: word, TF-IDF: 0.01158
	Word: πύθων/πύθωνας, TF-IDF: 0.01158
Top words in document 3
	Word: Colt, TF-IDF: 0.01367
	Word: Magnum, TF-IDF: 0.01367
	Word: revolver, TF-IDF: 0.01367
	Word: 's, TF-IDF: 0.00911
	Word: 357, TF-IDF: 0.00456


Existem formas de melhorar o resultado do TF_IDF, uma delas é ignorar as stopwords.

### TF-IDF com scikit-learn

Agora vamos utilizar o TfidfVectorizer do _scikit-learn_ para obter o TF-IDF

In [13]:
# Imports
from sklearn.feature_extraction.text import TfidfVectorizer

In [14]:
# Exemplo 1
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print('Vocabulário:',vectorizer.get_feature_names())
print('Tamanho Vocabulário:', len(vectorizer.get_feature_names()))
print('TF-IDF')
print(X[0])

Vocabulário: ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
Tamanho Vocabulário: 9
TF-IDF
  (0, 8)	0.38408524091481483
  (0, 3)	0.38408524091481483
  (0, 6)	0.38408524091481483
  (0, 2)	0.5802858236844359
  (0, 1)	0.46979138557992045


In [15]:
# Exemplo 2
sent1 = "The car is driven on the road."
sent2 = "The truck is driven on the highway"

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform([sent1,sent2])
print("Vocabulário:",vectorizer.get_feature_names())
print("TF-IDF:",X)
print("TF-IDF BOW:",X.toarray())

Vocabulário: ['car', 'driven', 'highway', 'is', 'on', 'road', 'the', 'truck']
TF-IDF:   (0, 6)	0.6043795515372431
  (0, 0)	0.42471718586982765
  (0, 3)	0.30218977576862155
  (0, 1)	0.30218977576862155
  (0, 4)	0.30218977576862155
  (0, 5)	0.42471718586982765
  (1, 6)	0.6043795515372431
  (1, 3)	0.30218977576862155
  (1, 1)	0.30218977576862155
  (1, 4)	0.30218977576862155
  (1, 7)	0.42471718586982765
  (1, 2)	0.42471718586982765
TF-IDF BOW: [[0.42471719 0.30218978 0.         0.30218978 0.30218978 0.42471719
  0.60437955 0.        ]
 [0.         0.30218978 0.42471719 0.30218978 0.30218978 0.
  0.60437955 0.42471719]]


In [16]:
# Exemplo 3
# Criando um corpus
text1 = 'tf idf, é uma forma abreviada de frequência de termo, frequência de documento inversa'
text2 = 'é uma estatística numérica que se destina a refletir o quão importante'
text3 = 'uma palavra é para um documento em uma coleção ou corpus'
corpus = [text1,text2,text3]

# Aplicando TF-IDF
portuguese_stops = set(stopwords.words('portuguese'))
vectorizer = TfidfVectorizer(ngram_range=(2,2),stop_words=portuguese_stops,strip_accents='unicode',max_features=15)
tfidf_result = vectorizer.fit_transform(corpus)

# Imprimindo informações
print("Total de Features:",len(vectorizer.get_feature_names()))
print(vectorizer.get_feature_names())
print(tfidf_result.shape)

print("\n")

# Imprimindo o corpus
for i,text in enumerate(corpus):
    print(i,":",text)
    
# Imprimindo os valores TF-IDF para cada token (TOKEN x TDIF)
for doc in tfidf_result:
    print('------------')
    scores = zip(vectorizer.get_feature_names(),
                 np.asarray(doc.sum(axis=0)).ravel())
    sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
    for item in sorted_scores:
        if item[1] > 0.0:
            print ("{0:30} Score: {1}".format(item[0], item[1]))

Total de Features: 15
['abreviada frequencia', 'colecao corpus', 'destina refletir', 'documento colecao', 'documento inversa', 'estatistica numerica', 'forma abreviada', 'frequencia documento', 'frequencia termo', 'idf forma', 'numerica destina', 'palavra documento', 'quao importante', 'refletir quao', 'termo frequencia']
(3, 15)


0 : tf idf, é uma forma abreviada de frequência de termo, frequência de documento inversa
1 : é uma estatística numérica que se destina a refletir o quão importante
2 : uma palavra é para um documento em uma coleção ou corpus
------------
abreviada frequencia           Score: 0.37796447300922725
documento inversa              Score: 0.37796447300922725
forma abreviada                Score: 0.37796447300922725
frequencia documento           Score: 0.37796447300922725
frequencia termo               Score: 0.37796447300922725
idf forma                      Score: 0.37796447300922725
termo frequencia               Score: 0.37796447300922725
------------
destina 

  'stop_words.' % sorted(inconsistent))


Agora vamos mostrar um exemplo utilizando um arquivo de texto

In [17]:
# Imports
import os
import nltk
import string
import numpy as np
from nltk.stem.porter import *
from collections import Counter
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

In [18]:
# Função para obter os tokens
def get_tokens():
   with open('data/shakes/shakes1.txt', 'r') as shakes:
    text = shakes.read()
    lowers = text.lower()
    
    table = str.maketrans({key: None for key in string.punctuation})
    no_punctuation = lowers.translate(table)    
    tokens = nltk.word_tokenize(no_punctuation)
    return tokens

# Obtém os tokens
tokens = get_tokens()
print("Tokens: ", tokens[:50], "...")
print("Número de Tokens: ", len(tokens))

Tokens:  ['this', 'young', 'gentlewoman', 'had', 'a', 'fathero', 'that', 'had', 'how', 'sad', 'a', 'passage', 'tiswhose', 'skill', 'was', 'almost', 'as', 'great', 'as', 'his', 'honesty', 'had', 'it', 'stretched', 'so', 'far', 'would', 'have', 'made', 'nature', 'immortal', 'and', 'death', 'should', 'have', 'play', 'for', 'lack', 'of', 'work', 'would', 'for', 'the', 'kings', 'sake', 'he', 'were', 'living', 'i', 'think'] ...
Número de Tokens:  1675


In [19]:
# Remove as Stop words
filtered = [w for w in tokens if not w in stopwords.words('english')]
print("Tokens sem stop words: ", filtered[:50], "...")
print("Número de Tokens: ", len(filtered))

Tokens sem stop words:  ['young', 'gentlewoman', 'fathero', 'sad', 'passage', 'tiswhose', 'skill', 'almost', 'great', 'honesty', 'stretched', 'far', 'would', 'made', 'nature', 'immortal', 'death', 'play', 'lack', 'work', 'would', 'kings', 'sake', 'living', 'think', 'would', 'death', 'kings', 'disease', 'excellent', 'indeed', 'madam', 'king', 'lately', 'spoke', 'admiringly', 'mourningly', 'skilful', 'enough', 'lived', 'still', 'knowledge', 'could', 'set', 'mortality', 'sole', 'child', 'lord', 'bequeathed', 'overlooking'] ...
Número de Tokens:  814


In [20]:
# Função para Stem
def stem_tokens(tokens, stemmer):
    stemmed = []
    for item in tokens:
        stemmed.append(stemmer.stem(item))
    return stemmed

# Aplica o Stem
stemmer = PorterStemmer()
stemmed = stem_tokens(filtered, stemmer)
print("Tokens sem stop words e com stemming: ", stemmed[:50])

Tokens sem stop words e com stemming:  ['young', 'gentlewoman', 'fathero', 'sad', 'passag', 'tiswhos', 'skill', 'almost', 'great', 'honesti', 'stretch', 'far', 'would', 'made', 'natur', 'immort', 'death', 'play', 'lack', 'work', 'would', 'king', 'sake', 'live', 'think', 'would', 'death', 'king', 'diseas', 'excel', 'inde', 'madam', 'king', 'late', 'spoke', 'admiringli', 'mourningli', 'skil', 'enough', 'live', 'still', 'knowledg', 'could', 'set', 'mortal', 'sole', 'child', 'lord', 'bequeath', 'overlook']


Fazendo agora para todos os arquivos para criar o corpus

In [21]:
# Variáveis de automatização
path = 'data/shakes'
token_dict = {}

In [22]:
# Criando funções
# Remove punctuation
def no_punctuation(text):
    lowers = text.lower()
    table = str.maketrans({key: None for key in string.punctuation})
    no_punctuation = lowers.translate(table)
    no_punctuation = no_punctuation.replace('\n', ' ')
    return no_punctuation

# Faz Tokenização e chama no_punctuation()
def stem_tokenize(text):
    tokens = nltk.word_tokenize(no_punctuation(text))
    tokens = [w for w in tokens if not w in stopwords.words('english')]
    stems = stem_tokens(tokens, stemmer)
    return stems

In [23]:
# Obtém todos os arquivos para criar o Corpus 
for subdir, dirs, files in os.walk(path):
    for file in files:
        file_path = subdir + os.path.sep + file
        shakes = open(file_path, 'r')
        token_dict[file] = shakes.read()
print("Quantidade de arquivos: ", len(token_dict))

Quantidade de arquivos:  4


In [24]:
# Imprimindo os índices do dicionário criado
print(token_dict.keys())

dict_keys(['shakes2.txt', 'shakes1.txt', 'shakes4.txt', 'shakes3.txt'])


In [25]:
# Imprime o texto do primeiro arquivo
print(token_dict['shakes2.txt'][:200])

As I remember, Adam, it was upon this fashion
bequeathed me by will but poor a thousand crowns,
and, as thou sayest, charged my brother, on his
blessing, to breed me well: and there begins my
sadness.


In [26]:
import operator

# Cria o objeto de vetorização para o TF-IDF Passando a função de tokenização criada para o pré-processamento
vectorizer = TfidfVectorizer(tokenizer=stem_tokenize,max_features=200)

# Gera os scores (TF-IDF) 
tfidf_result = vectorizer.fit_transform(token_dict.values())

# Features do dicionário
feature_names = vectorizer.get_feature_names()
print(feature_names)

# Imprimindo os valores TF-IDF para cada token
for doc in tfidf_result:
    print('------------')
    scores = zip(vectorizer.get_feature_names(),
                 np.asarray(doc.sum(axis=0)).ravel())
    sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
    for item in sorted_scores[:20]:
        if item[1] > 0.0:
            print ("{0:30} Score: {1}".format(item[0], item[1]))

['adam', 'age', 'almost', 'along', 'away', 'bear', 'begin', 'bequeath', 'bertram', 'besid', 'best', 'better', 'blood', 'bodi', 'bond', 'break', 'breed', 'bright', 'brother', 'carri', 'chang', 'charl', 'come', 'comfort', 'commend', 'compani', 'confess', 'court', 'crown', 'daughter', 'dearer', 'death', 'desir', 'devic', 'die', 'doth', 'duke', 'educ', 'end', 'enemi', 'entreat', 'enviou', 'even', 'everi', 'excel', 'eye', 'fair', 'fare', 'fashion', 'father', 'favour', 'feed', 'find', 'foil', 'forth', 'fortun', 'fourscor', 'free', 'friend', 'full', 'gainst', 'gentl', 'gentlewoman', 'give', 'go', 'gone', 'good', 'grace', 'great', 'ground', 'hath', 'he', 'head', 'heart', 'heaven', 'hereaft', 'hind', 'hire', 'home', 'honesti', 'hope', 'ill', 'inde', 'jaqu', 'keep', 'kill', 'kindli', 'king', 'know', 'knowledg', 'lack', 'ladi', 'late', 'leav', 'let', 'lie', 'life', 'light', 'like', 'live', 'look', 'lord', 'love', 'lusti', 'made', 'make', 'malic', 'man', 'manner', 'master', 'may', 'mean', 'mine', 

# Aplicação Exemplo - Sumarizador de texto

Agora veremos um exemplo de aplicação que utilizam os conceitos que foram vistos até o momento:

[Exemplo - Sumarizador de texto](02.1-PLN_basico_exemplo_sumarizador.ipynb)

# Referências

__TextBlob: Simplified Text Processing__
   - TextBlob é uma bi biblioteca python para processamento de dados textuais. Fornece uma API para tarefas comuns de NLP.
   (https://textblob.readthedocs.io/en/dev/)

    

# Fim