# Codificação de variáveis textuais


## Por que devemos codificar variáveis textuais?
A codificação de variáveis em ciência de dados é de grande importância, porém, nem tudo são números, existem variáveis categóricas que são baseadas em texto. E para isso existem formas de realizarmos esse processo como: a exemplo o Bag of Words (BoW) e o TF-IDF.

## Modelo Bag of Words (BoW)
O modelo bag-of-words é uma maneira de representar dados de texto ao modelar texto com algoritmos de aprendizado de máquina. É um método de extração de recursos com dados de texto. Assim, utilizando a técnica do bag-of-words (BoW), convertemos um texto em seu vetor equivalente de números. Para isso é necessário seguir um breve passo a passo.

Selecionar os dados: Selecionar e organizar os dados que serão usados, realizando a preparação para que a máquina o interprete bem.

Pré-processamento: É necessário realizar quando queremos aplicar um modelo de predição ou outros métodos estatísticos. Assim, Juntar os tokens que o texto possui e trasnformamos cada palavra em uma string específica e única.

Gerar vocabulário: Centraliza e memoriza informações independente da ordem e estrutura.

Formar vetores a partir do documento: Cada elemento desse vetor corresponderá a uma palavra do flexível, e para isso há diversas formas de conjunto de nosso vetor com números para representar uma palavra.


## Modelo Term Frequency Inverse Document Frequency (TF-IDF)
É uma estatística numérica expressa a importância de uma palavra para um documento em uma coleção ou conjunto de dados. Com isso, remete ao número de vezes que uma palavra aparece no texto. TF-IDF é o produto de duas estatísticas, frequência de termo e frequência de documento inversa. Sendo elas determinadas por: 
1.term frequency (tf) : pontuação da frequência das palavras no documento.
2.inverse document frequency (idf) : pontuação de quão raro o termo é em todo o texto.

## Conjunto de dados

In [169]:
## Carregamento do conjunto de dados
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",  
] 

In [170]:
## Exibição do conjunto de dados
print(frases)

['John likes', 'likes to', 'to watch', 'watch movies', 'Mary likes', 'likes movies', 'movies too']


In [174]:
# Padronização dos dados
Seq_frases = []
for i in frases:
    Seq_frases.append(i.lower())
print(Seq_frases)

['john likes', 'likes to', 'to watch', 'watch movies', 'mary likes', 'likes movies', 'movies too']


## Aplicação do modelo Bag of Words (BoW)


In [177]:
## Importação de bibliotecas
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import seaborn as sns
import numpy as np
import pandas as pd

In [206]:
## Vetorizador de dados 
CountVec = CountVectorizer()
vector_1.fit(frases)
bag_of_words = CountVec.fit_transform(frases)

In [200]:
bag_of_words

<7x7 sparse matrix of type '<class 'numpy.int64'>'
	with 14 stored elements in Compressed Sparse Row format>

In [207]:
## Tamanho da matriz
vectorizando.shape

(7, 7)

In [208]:
## Demonstração do array
vectorizando.toarray()

array([[1, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 1, 0]])

In [209]:
## Aplicação de vocabulário
dicionario = vector_1.vocabulary_

In [210]:
## Imprimindo dicionário com palavras
print( f"Dicionário:{dicionario}")

Dicionário:{'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}


In [212]:
## Exibição do DataFrame collums
dados = pd.DataFrame(bag_of_words.toarray(), columns=CountVec.get_feature_names_out())
dados

Unnamed: 0,john,likes,mary,movies,to,too,watch
0,1,1,0,0,0,0,0
1,0,1,0,0,1,0,0
2,0,0,0,0,1,0,1
3,0,0,0,1,0,0,1
4,0,1,1,0,0,0,0
5,0,1,0,1,0,0,0
6,0,0,0,1,0,1,0


## Aplicação do modelo Term Frequency Inverse Document Frequency (TF-IDF)

## Modo 1

In [176]:
## Vetorizando dados com TF-IDF
vectorizer = TfidfVectorizer()

## Transformação
X = vectorizer.fit_transform(frases)

## Demostrando dos dados
print(vectorizer.get_feature_names())
print(X.toarray())

['john', 'likes', 'mary', 'movies', 'to', 'too', 'watch']
[[0.85141699 0.52448938 0.         0.         0.         0.
  0.        ]
 [0.         0.59594003 0.         0.         0.80302894 0.
  0.        ]
 [0.         0.         0.         0.         0.70710678 0.
  0.70710678]
 [0.         0.         0.         0.64974959 0.         0.
  0.76014832]
 [0.         0.52448938 0.85141699 0.         0.         0.
  0.        ]
 [0.         0.65559486 0.         0.75511282 0.         0.
  0.        ]
 [0.         0.         0.         0.57866699 0.         0.81556393
  0.        ]]


## Modo 2 

In [213]:
## Definindo vetorizador
tf = TfidfVectorizer(lowercase=False, max_features=50)    

In [214]:
## Realizando transformação
dados = tf.fit_transform(frases)
print(type(dados))

<class 'scipy.sparse._csr.csr_matrix'>


In [197]:
## Exibição do DataFrame collums
pd.DataFrame(dados.todense(), columns=tf.get_feature_names_out())

Unnamed: 0,John,Mary,likes,movies,to,too,watch
0,0.851417,0.0,0.524489,0.0,0.0,0.0,0.0
1,0.0,0.0,0.59594,0.0,0.803029,0.0,0.0
2,0.0,0.0,0.0,0.0,0.707107,0.0,0.707107
3,0.0,0.0,0.0,0.64975,0.0,0.0,0.760148
4,0.0,0.851417,0.524489,0.0,0.0,0.0,0.0
5,0.0,0.0,0.655595,0.755113,0.0,0.0,0.0
6,0.0,0.0,0.0,0.578667,0.0,0.815564,0.0
