# O motivo de codificar variáveis textuais

## Textos são um tipo de dado não organizado, pois dependendo da ordem de suas palavras, obtemos novos significados as frases do texto, assim, não possuem uma ordem fixa para as palavras aparecerem, tornando difícil para o computador entendê-los e analisá-los.

## Por isso é preciso fazer uma feature extraction, transformamos o texto em uma informação numérica, assim, podemos alimentar um modelo utilizando Bag of Words ou Tf-Idf.

# Bag of Words

## Bag of Words (saco de palavras) é uma técnica para verificar se palavras aparecem e a frequência com que aparecem em um texto, sem se importar com a ordem e a estrutura do texto. Então, se uma palavra aparece muito num texto, ela se torna importante para a máquina e utilizando Bag of Words, podemos determinar as palavras significativas de um texto com base no número de vezes que ela é usada.

# Tf–idf

## Tf–Idf simplificação de term frequency–inverse document Frequency (frequência do termo–inverso da frequência) faz medições estatísticas para identificar a importância de uma palavra em um texto por meio de uma pontuação feita pelas métricas tf e idf.
* ## Tf (Term Frequency): mede a frequência com que um termo ocorre no texto;
* ## Idf (Inverse Document Frequency): mede o quão importante um termo é no contexto de todos os documentos.


In [1]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [2]:
# bibliotecas
import re
import nltk
import math
import numpy as np
import pandas as pd
from nltk import word_tokenize

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/dougteixeira/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
# Bag of Words

# Selecionando seus dados
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]

# Colocando todas as letras em minúsculos
frases_min = [i.lower() for i in frases]

# juntar as frases
texto = " ".join(frases_min)
texto

'john likes likes to to watch watch movies mary likes likes movies movies too'

In [5]:
# Separar o texto em tokens

tokens = word_tokenize(texto)

vocab = []
for token in tokens:
    if token not in vocab:
        vocab.append(token)
vocab

['john', 'likes', 'to', 'watch', 'movies', 'mary', 'too']

In [6]:
def cria_vetor_documento(documento, vocab):
    # lista que representa o vetor
    vetor = []
    
    # loop para percorrer todas as palavras do vocabulário
    for palavra in vocab:
        
        # Se a palavra estiver no documento, adicionar 1 à lista; caso contrário, adicionar 0
        if palavra in documento:
            vetor.append(1)
        else:
            vetor.append(0)
    
    # Retorna uma lista final em um array do numpy
    return np.array(vetor)

In [7]:
texto1 = 'john likes watch movies'
cria_vetor_documento(texto1, vocab)

array([1, 1, 0, 1, 1, 0, 0])

In [8]:
texto2 = 'mary likes movies too'
cria_vetor_documento(texto2, vocab)

array([0, 1, 1, 0, 1, 1, 1])

In [9]:
texto3 = 'john likes to watch'
cria_vetor_documento(texto3, vocab)

array([1, 1, 1, 1, 0, 0, 0])

In [10]:
# TF-IDF
# A etapa de  selecionar dados e pré-processar do texto foram feitos no BoW
# e no fim de BoW geramos um vocabulário, uma lista com todos os termos do nosso texto
# que será utilizado aqui

# Ira contar a quantidade de vezes que uma palavra do vocabulario aparece no texto
def dicionario_de_contagem(vocabulario, documento):
  dic = dict.fromkeys(vocabulario, 0)
  for palavra in documento:
    dic[palavra] += 1
  
  return dic

In [11]:
# contagem do texto 1
cont_dic_1 = dicionario_de_contagem(vocab, texto1.split())
cont_dic_1

{'john': 1, 'likes': 1, 'to': 0, 'watch': 1, 'movies': 1, 'mary': 0, 'too': 0}

In [12]:
# contagem do texto 2
cont_dic_2 = dicionario_de_contagem(vocab, texto2.split())
cont_dic_2

{'john': 0, 'likes': 1, 'to': 0, 'watch': 0, 'movies': 1, 'mary': 1, 'too': 1}

In [13]:
# contagem do texto 3
cont_dic_3 = dicionario_de_contagem(vocab, texto3.split())
cont_dic_3

{'john': 1, 'likes': 1, 'to': 1, 'watch': 1, 'movies': 0, 'mary': 0, 'too': 0}

In [14]:
# TF é a divisão da quantidade de vezes que uma palavra aparece 
# em um texto pela quantidade de palavras desse documento
def calculaTF(cont_dic, texto):     
    
    tf_dic = {}
    
    num_palavras_doc = len(texto)     
    for palavra, contagem in cont_dic.items():         
        tf_dic[palavra] = contagem/float(num_palavras_doc)     
    
    return(tf_dic)


In [15]:
tf1 = calculaTF(cont_dic_1, texto1)
tf1

{'john': 0.043478260869565216,
 'likes': 0.043478260869565216,
 'to': 0.0,
 'watch': 0.043478260869565216,
 'movies': 0.043478260869565216,
 'mary': 0.0,
 'too': 0.0}

In [16]:
tf2 = calculaTF(cont_dic_2, texto2)
tf2

{'john': 0.0,
 'likes': 0.047619047619047616,
 'to': 0.0,
 'watch': 0.0,
 'movies': 0.047619047619047616,
 'mary': 0.047619047619047616,
 'too': 0.047619047619047616}

In [17]:
tf3 = calculaTF(cont_dic_3, texto3)
tf3

{'john': 0.05263157894736842,
 'likes': 0.05263157894736842,
 'to': 0.05263157894736842,
 'watch': 0.05263157894736842,
 'movies': 0.0,
 'mary': 0.0,
 'too': 0.0}

In [18]:
# IDF é peso da palavra, que será inversamente proporcional ao 
# número de documentos em que uma palavra aparece
def computaIDF(lista_de_cont_docs):
    idf_dic = {}
    N = len(lista_de_cont_docs)

    for palavra in lista_de_cont_docs[0]:
        num_docs_aparece = 0
        for doc in lista_de_cont_docs:
            if doc[palavra]>0:
                num_docs_aparece += 1
        
        idf_dic[palavra] = math.log10(N / (num_docs_aparece))
    return (idf_dic)

In [19]:
idf = computaIDF([cont_dic_1, cont_dic_2, cont_dic_3])
idf

{'john': 0.17609125905568124,
 'likes': 0.0,
 'to': 0.47712125471966244,
 'watch': 0.17609125905568124,
 'movies': 0.17609125905568124,
 'mary': 0.47712125471966244,
 'too': 0.47712125471966244}

In [20]:
# Juntando TF e IDF
# basta então multiplicar essas duas medidas.
def computaTFIDF(tf, idf):
    tfidf = {}

    for palavra in tf:
        tf_calc = tf[palavra]
        idf_calc = idf[palavra]
        tfidf[palavra] = tf_calc*idf_calc
        
    return(tfidf)

In [21]:
tfidf1 = computaTFIDF(tf1, idf)
tfidf1

{'john': 0.007656141698073097,
 'likes': 0.0,
 'to': 0.0,
 'watch': 0.007656141698073097,
 'movies': 0.007656141698073097,
 'mary': 0.0,
 'too': 0.0}

In [22]:
tfidf2 = computaTFIDF(tf2, idf)
tfidf2

{'john': 0.0,
 'likes': 0.0,
 'to': 0.0,
 'watch': 0.0,
 'movies': 0.008385298050270535,
 'mary': 0.022720059748555354,
 'too': 0.022720059748555354}

In [23]:
tfidf3 = computaTFIDF(tf3, idf)
tfidf3

{'john': 0.009267961002930591,
 'likes': 0.0,
 'to': 0.02511164498524539,
 'watch': 0.009267961002930591,
 'movies': 0.0,
 'mary': 0.0,
 'too': 0.0}

In [26]:
# DataFrame para visualizar as pontuações resultantes
# texto1 = 'john likes watch movies'
# texto2 = 'mary likes movies too'
# texto3 = 'john likes to watch'
tfidf_df = pd.DataFrame([tfidf1, tfidf2, tfidf3])
tfidf_df["Textos"] = ['texto 1', 'texto 2', 'texto 3']
tfidf_df.reset_index(inplace=True)
tfidf_df.set_index('index', inplace=True)
tfidf_df.set_index('Textos', inplace=True)
tfidf_df

Unnamed: 0_level_0,john,likes,to,watch,movies,mary,too
Textos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
texto 1,0.007656,0.0,0.0,0.007656,0.007656,0.0,0.0
texto 2,0.0,0.0,0.0,0.0,0.008385,0.02272,0.02272
texto 3,0.009268,0.0,0.025112,0.009268,0.0,0.0,0.0


## Quanto maior o valor do peso, mais raro é a palavra. Quanto menor, mais comum é a palavra.
## Palavras que não aparecem no texto e palavras aparecem em todas os textos ficam com pontuação 0, porque se aparece em todas os textos, teremos no df(t)=N, um idf de log(N/N)=log1=0.