# Codificação de variáveis textuais

### 1 - Por que fazer a codificação de variáveis textuais ?

##### Variáveis textuais são formatos dificeis de ser aplicado em modelos de machine learning, pois trabalham com dados estruturados e fixos. Desse modo é necessário fazer a transformação desses dados em informações numéricas. A maneira mais comum de se fazer isso é atraves de representações como "bag-of-words" e "tf-idf".


### 1.1 - *Bag of Words (BoW)*

##### O modelo transforma a ocrrência das palavras contidas no texto em vetor: dá um valor numérico único para cada palavra do documento. Então cada documento pode ser codificado como um vetor com o comprimento do vocabulário das palavras do texto. É chamado de "bag of words" porque qualquer informação sobre a ordem ou estrutura não é relevante. Somente a multiplicidade delas importa.

### 1.2 *Term Frequency-Inverse Document Frequency (TF-IDF)*

##### Uma das desvantagens do BoW é que um texto maior terá uma média de valores de contagens maior do que textos menores, mesmo tratnado-se do mesmo assunto. Para suprir essas e outras falhas, usa-se o TF-IDF. Ele consiste em multiplicar 2 métricas:
- term frequency (tf) : pontuação da frequência das palavras no documento;
- inverse document frequency (idf) : pontuação de quão raro o termo é em todo o texto;

### 2 - Aplicação BoW

#### Conjunto de dados

In [20]:
frases = [
          "John likes",
          "likes to",
          "to watch",
          "watch movies",
          "Mary likes",
          "likes movies",
          "movies too",
          ]

# Modifica o formato das letras dos elementos da lista para minúsculas
frases = list(map(lambda x: x.lower(), frases))
print (frases)

['john likes', 'likes to', 'to watch', 'watch movies', 'mary likes', 'likes movies', 'movies too']


#### Carregando biblioteca

In [21]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer


In [22]:
# Cria o vetorizador de dados
vectorizer = CountVectorizer()

# Aplica vetorizador de dados e gera a frequência dos termos
vectorizer.fit(frases)

# Imprime o vocabulário
print ('Vocabulário:', vectorizer.vocabulary_, '\n')

# Aplicando transformador de matriz de frequência
matrix = vectorizer.transform(frases)

# Imprimindo a matriz binária
print (matrix.toarray())

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

[[1 1 0 0 0 0 0]
 [0 1 0 0 1 0 0]
 [0 0 0 0 1 0 1]
 [0 0 0 1 0 0 1]
 [0 1 1 0 0 0 0]
 [0 1 0 1 0 0 0]
 [0 0 0 1 0 1 0]]


### 3 - Aplicação TF-IDF

#### Carregando biblioteca

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer


In [24]:
# Instancia o objeto TF-IDF
vectorizer = TfidfVectorizer()

# Aplica vetorizador de dados
print (vectorizer.fit(frases), '\n')

# Imprime o vocabulário e sua frequência
print ('Vocabulário:', vectorizer.vocabulary_, '\n')

# Imprime o IDF - pontuação que cada palavra recebeu.
#Quanto mais frequente a palavra, menos relevante ela é para o IDF.
print ('IDF:', vectorizer.idf_, '\n')

# Aplicando transformador aos dados
matrix = vectorizer.transform(frases)

# Imprime a forma da matriz
print ('Shape:', matrix.shape, '\n')

# Transformando em um array
print (matrix.toarray())

TfidfVectorizer() 

Vocabulário: {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5} 

IDF: [2.38629436 1.47000363 2.38629436 1.69314718 1.98082925 2.38629436
 1.98082925] 

Shape: (7, 7) 

[[0.85141699 0.52448938 0.         0.         0.         0.
  0.        ]
 [0.         0.59594003 0.         0.         0.80302894 0.
  0.        ]
 [0.         0.         0.         0.         0.70710678 0.
  0.70710678]
 [0.         0.         0.         0.64974959 0.         0.
  0.76014832]
 [0.         0.52448938 0.85141699 0.         0.         0.
  0.        ]
 [0.         0.65559486 0.         0.75511282 0.         0.
  0.        ]
 [0.         0.         0.         0.57866699 0.         0.81556393
  0.        ]]
