# Codificação de variáveis textuais

## 1. Explicação: Por que codificar variáveis textuais?

As variáveis textuais são formatos de dados de difícil aplicação em modelos estatísticos e de machine learning. Por isso, comumente são transformadas em informações numéricas tornando possível seu uso em modelos. Existe maneiras bastantes populares e simples de se fazer isso, a exemplo o *Bag of Words (BoW)* e o *TF-IDF*, detalhados a seguir.

###    1.1. *Bag of Words (BoW)*

É um formato de representação textual cujo objetivo é transformar um conjunto de palavras em uma matriz numérica de frequência. Embora muito utilizado para determinar as palavras significativas de um texto, o BoW têm como desvantagens a geração de uma matriz esparsa quando trabalhamos com um conjunto grande de dados e a perda do significado semântico da palavra. Conforme [koji et al. (2020)](https://medium.com/turing-talks/introdu%C3%A7%C3%A3o-a-bag-of-words-e-tf-idf-43a128151ce9), sua aplicação requer a realização de alguns passos, sendo:
1. Seleção do conjunto de dados;
2. Pré-processamento dos dados. Ex: padronização das letras em minúsculo e tokenização do texto transformando cada palavra da frase em uma string individual. 
3. Geração do vocábulário que independe da ordem ou estrutura da palavra no texto; 
4. Criação de vetores a partir do documento. O vetor é preenchido com números para representar o conjunto inicial de dados, podendo receber um valor booleano ou outro que preferir.

### 1.2. *Term Frequency Inverse Document Frequency (TF-IDF)*

Trata-se de uma medida estatística que mede a relevância da palavra no texto, analisando a frequência com que aparece em um documento quando comparada a sua frequência em um conjunto maior. Logo, se uma palavra está presente em todos os conjuntos analisados não podemos atribuir a ela grande relevância, assim como também se ela ocorrer poucas vezes [(SANTOS, 2017)](https://www.computersciencemaster.com.br/term-frequency-e-term-frequency-inverse-document-frequency/). Para tanto, o TF-IDF utiliza uma razão inversa para calcular a frequência destes termos, dado por:

TF-IDF = TF x IDF

Em que:
- TF(t) = (Número de vezes que t aparece no documento) / (Número total de termos no documento).
- IDF(t) = log_e(Número total de termos do documento/ Número de documentos que possuem o termo t).


A aplicação do TF-IDF requer o atendimento de algumas etapas, sendo:

1. Seleção e pré-processamento do conjunto de dados;
2. Geração do vocabulário;
3. Geração de um dicionário de frequência com pesos a partir do IDF;
4. Aplicação do IDF as frases;
5. Tranformação em um array.

## 2. Aplicação do *BoW* e *TF-IDF* 

### 2.1. Pré-processamento de dados

In [97]:
frases = [
          "John likes",
          "likes to",
          "to watch",
          "watch movies",
          "Mary likes",
          "likes movies",
          "movies too",
          ]

# Modifica o formato das letras dos elementos da lista para minúsculas
frases = list(map(lambda x: x.lower(), frases))
print (frases)

['john likes', 'likes to', 'to watch', 'watch movies', 'mary likes', 'likes movies', 'movies too']


### 2.2. Aplicação do *Bag of words*

#### Carregar biblioteca

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [103]:
# Cria o vetorizador de dados
vectorizer = CountVectorizer()

# Aplica vetorizador de dados e gera a frequência dos termos
vectorizer.fit(frases)

# Imprime o vocabulário
print ('Vocabulário:', vectorizer.vocabulary_, '\n')

# Aplicando transformador de matriz de frequência
matrix = vectorizer.transform(frases)

# Imprimindo a matriz binária
print (matrix.toarray())

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

[[1 1 0 0 0 0 0]
 [0 1 0 0 1 0 0]
 [0 0 0 0 1 0 1]
 [0 0 0 1 0 0 1]
 [0 1 1 0 0 0 0]
 [0 1 0 1 0 0 0]
 [0 0 0 1 0 1 0]]


### 2.3. Aplicação do *TF-IDF*


### Carregar biblioteca

In [100]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [101]:
# Instancia o objeto TF-IDF
vectorizer = TfidfVectorizer()

# Aplica vetorizador de dados
print (vectorizer.fit(frases), '\n')

# Imprime o vocabulário e sua frequência
print ('Vocabulário:', vectorizer.vocabulary_, '\n')

# Imprime o IDF - pontuação que cada palavra recebeu.
#Quanto mais frequente a palavra, menos relevante ela é para o IDF.
print ('IDF:', vectorizer.idf_, '\n')

# Aplicando transformador aos dados
matrix = vectorizer.transform(frases)

# Imprime a forma da matriz
print ('Shape:', matrix.shape, '\n')

# Transformando em um array
print (matrix.toarray())

TfidfVectorizer() 

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

IDF: [2.38629436 1.47000363 2.38629436 1.69314718 1.98082925 2.38629436
 1.98082925] 

Shape: (7, 7) 

[[0.85141699 0.52448938 0.         0.         0.         0.
  0.        ]
 [0.         0.59594003 0.         0.         0.80302894 0.
  0.        ]
 [0.         0.         0.         0.         0.70710678 0.
  0.70710678]
 [0.         0.         0.         0.64974959 0.         0.
  0.76014832]
 [0.         0.52448938 0.85141699 0.         0.         0.
  0.        ]
 [0.         0.65559486 0.         0.75511282 0.         0.
  0.        ]
 [0.         0.         0.         0.57866699 0.         0.81556393
  0.        ]]


In [70]:
# Aplicação em apenas uma frase para melhor visualização
matrix = vectorizer.transform([frases[0]])
print (matrix.toarray())

[[0.85141699 0.52448938 0.         0.         0.         0.
  0.        ]]
