# Codificação de dados textuais

## 1. Motivos para codificar variáveis textuais

A prática de codificar variáveis textuais advém da necessidade de tornar o seu conteúdo mais acessível para avaliações em algoritmos, tendo em vista a complexidade que é encontrada nos mais diferentes idiomas. Podemos utilizar dois tipos de codificação para essa tarefa: *Bag of Words* e *TF-IDF*.

### 1.1. *Bag of Words*

A codificação *Bag of Words* (em tradução livre: Saco de Palavras) consiste em codificar o texto a partir da quantidade de vezes em que cada palavra aparece no mesmo. 

Podemos tomar dois textos e associados respectivamente a dois conjuntos A e B tais que cada elemento deles é uma palavra do texto. Daí o conjunto *BoW1* será um dicionário associando a cada elemento distinto de A a quantidade de vezes que este ocorre no texto, ou seja, sua multiplicidade. Analogamente, fazemos para *BoW2*. 

Caso um terceiro texto texto seja a união dos dois textos, o conjunto *BoW3* será a união disjunta dos elementos de *BoW1* e *BoW2* somando-se a multiplicidade de cada elemento, daí temos:

\begin{align}
BoW3=BoW1\biguplus BoW2
\end{align}

Podemos dividir este processo em três etapas: Seleção de dados, Geração de vocabulário e Geração de vetores a partir do documento apresentado.

### 1.2. *Term Frequency Inverse Document Frequency*, i.e., *TF-IDF*

A codificação *Term Frequency Inverse Document Frequency* (em tradução livre: Frequência do Termo Inverso da Frequência em Documento) é um artifício estatístico que calcula a relevância de uma palavra no texto, analisando a frequência com a qual aparece em um documento em relação a frequência em uma família de documentos. Para calcular o TF-IDF primeiramente precisamos definir duas propriedades:

**Term Frequency:** Term Frequency (em tradução livre: Frequência do Termo) é a frequência relativa do termo *t* no documento *d*, sendo denotada por $\mathrm {tf} (t,d)$, definida como:

\begin{align}
\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}
\end{align}

onde $f_{t,d}$ é a quantidade de vezes que o termo *t* ocorre em *d*.

**Inverse Document Frequency:** Inverse Document Frequency (em tradução livre: Frequência Inversa do Documento) é a medida da quantia de informação que a palavra oferece, isto é, se é comum ou raro na coleção de documentos *D*. É denotada por $\mathrm {idf} (t,D)$, sendo a razão inversa logarítmica:

\begin{align}
\mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}
\end{align}

onde $N={|D|}$ é a quantidade de documentos na coleção *D* e $|\{d\in D:t\in d\}|$ é o número de documentos onde o termo *t* aparece, i.e, $\mathrm {tf} (t,d) \neq 0$.

Portanto, a codificação *TF-IDF* é dada por:

\begin{align}
\mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)
\end{align}

## 2. Aplicações

### 2.1. Pré-processamento dos dados

In [10]:
# Importação de bibliotecas
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [11]:
# Carrega a lista de frases
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]
# Converte os elementos em palavras com todas as letras minúsculas
frases = list(map(lambda x: x.lower(), frases))
print(frases)

['john likes', 'likes to', 'to watch', 'watch movies', 'mary likes', 'likes movies', 'movies too']


### 2.2. *Bag of Words*

In [14]:
# Aplicação de BoW
vector_bow = CountVectorizer()
result = vector_bow.fit_transform(frases)

# Mostra o Vocabulário
print(f'Vocabulário: {vector_bow.vocabulary_} \n')

# Mostra o Resultado em matriz
print(result.toarray())

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

[[1 1 0 0 0 0 0]
 [0 1 0 0 1 0 0]
 [0 0 0 0 1 0 1]
 [0 0 0 1 0 0 1]
 [0 1 1 0 0 0 0]
 [0 1 0 1 0 0 0]
 [0 0 0 1 0 1 0]]


### 2.3. *TF-IDF*

In [15]:
# Aplicação de TF-IDF
vector_tfidf = TfidfVectorizer()
result = vector_tfidf.fit_transform(frases)

# Mostra o vocabulário
print(f'Vocabulário: {vector_tfidf.vocabulary_} \n')

# Mostra o IDF (Quanto maior a frequência, menor a relevância)
print(f'IDF: {vector_tfidf.idf_} \n')

# Mostra a forma da matriz
print(f'Shape: {result.shape} \n')

# Mostra o Array
print(result.toarray())

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

IDF: [2.38629436 1.47000363 2.38629436 1.69314718 1.98082925 2.38629436
 1.98082925] 

Shape: (7, 7) 

[[0.85141699 0.52448938 0.         0.         0.         0.
  0.        ]
 [0.         0.59594003 0.         0.         0.80302894 0.
  0.        ]
 [0.         0.         0.         0.         0.70710678 0.
  0.70710678]
 [0.         0.         0.         0.64974959 0.         0.
  0.76014832]
 [0.         0.52448938 0.85141699 0.         0.         0.
  0.        ]
 [0.         0.65559486 0.         0.75511282 0.         0.
  0.        ]
 [0.         0.         0.         0.57866699 0.         0.81556393
  0.        ]]
