# Codificação de Variáveis Textuais

## Motivação

A codificação de variáveis textuais consiste na transformação de um conjunto de elementos textuais em um conjunto de dados organizado sob um determinado aspecto, sendo, portanto, um importante instrumento para o processamento de linguagem natural e para a recuperação de informações.
Um exemplo de aplicação prática da codificação de variáveis textuais é a filtragem de e-mais de spam, que pode ser realizada a partir da identificação de padrões de dados relacionados a palavras em e-mails dessa natureza.

Há dois principais tipos de codificação:

- ### Bag-of-Words

Nesse modelo, o texto é representado como uma bolsa (Bag) de suas palavras (Words), desconsiderando aspectos gramaticais e a ordem em que elas são apresentadas, mas mantendo a multiplicidade (número de observações). Nesse sentido, essa técnica é altamente eficaz para o treinamento de modelos classificadores, uma vez que a informação sobre a frequência de cada palavra é obtida facilmente. 

Na prática, esse modelo é usado, principalmente, como ferramenta de geração de atributos, uma vez que, após a quebra do texto em palavras, pode-se calcular vários parâmetros para caracterizá-lo.

- ### Tf-Idf

No modelo de codificação Termo Frequency-Inverse Document Frequency (Tf-Idf), é utilizada uma estatística numérica para estimar a importância de uma palavra para um texto que pertence a uma coleção, sendo esse modelo frequentemente utilizado como fator de ponderação em recuperação de informações e mineração de texto. Essa estatística baseia-se na relação entre a frequência da palavra no texto e o número de textos que contém a palavra, o que ajuda a compensar o fato de algumas palavras aparecerem com bastante frequência na grande maioria dos textos.

Na prática, esse modelo é usado, principalmente, por mecanismos de pesquisa como uma ferramenta para pontuação e classificação da relevância de um documento para uma determinada consulta.

---

---

## Prática

### Bag-of-Words

In [55]:
from keras.preprocessing.text import Tokenizer
from typing import List
import numpy as np

In [61]:
def bagOfWords(sentences: List[str]) -> List:
    
    bow = {}
    
    for sentence in sentences:
        sentence = [sentence.lower()]
    
        tokenizer = Tokenizer()
        tokenizer.fit_on_texts(sentence)
        sequences = tokenizer.texts_to_sequences(sentence)
        word_index = tokenizer.word_index 

        for key in word_index:
            try:
                bow[key] += sequences[0].count(word_index[key])
            except:
                bow[key] = sequences[0].count(word_index[key])

    return bow
    
    
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]
 
    
print("Bag-of-Words:")
print(bagOfWords(frases))



Bag-of-Words:
{'john': 1, 'likes': 4, 'to': 2, 'watch': 2, 'movies': 3, 'mary': 1, 'too': 1}


---

### Tf-Idf

In [62]:
def contains_word(word, sentence: List[str]) -> bool:
    word = word.lower()
    sentence = [sentence.lower()]
    
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(sentence)
    sequences = tokenizer.texts_to_sequences(sentence)
    word_index = tokenizer.word_index 

    for key in word_index:
        if key == word:
            return True
    
    return False
    

    

def tf_idf(document: List[str], documents: List[str]) -> List:
    
    bow_document = bagOfWords(document)
    bow_tfidf = {}
    
    for k, v in bow_document.items():
        count_word = 0
        tf = v/len(bow_document)
        
        for text in documents:
            if contains_word(k,text):
                count_word += 1
        
        idf = np.log(len(documents)/(1+count_word))
        
        bow_tfidf[k] = tf*idf       
    
    return bow_tfidf


print("Tf-Idf:")
print(tf_idf([frases[0]],frases))

Tf-Idf:
{'john': 0.626381484247684, 'likes': 0.16823611831060645}
