## Codificação de dados textuais

Os modelos estatísticos ou de deep learning utilizam calculos matemáticos para fazer as correlações e gerar as previsões, porém algumas variáveis não são numéricas ou não estão organizadas de uma maneira fixa. Então para que o nosso algorítimo possa processar aquele dado, ele precisa ser numérico. Porém os textos, são um tipo de dado não estruturado, sendo difícil para o computador conseguir entendê-los e analisá-los. Por isso uma grande parte do processamento de linguagem natural ocorre convertendo o texto em uma informação numérica. Esse processo de conversão pode ser feito de duas maneiras, utilizando o método saco de palavras (*bag-of-words*) ou o método TF-IDF

### Saco de palavras (*bag-of-words*)

É um método de processamento de linguagem natural para modelagem de textos, onde não se leva em consideração a estrutura nem a ordem das palavras no texto, apenas a frequência com que elas aparecem e se elas aparecem. Um dos motivos para se utilizar o *bag-of-words* é porque os algoritimos para aprendizagem de máquina preferem entradas estruturadas, bem definidas e de comprimento fixo, algo que não ocorre em um texto. Então utilizando esse método podemos converter textos com comprimentos variáveis em textos com comprimentos fixos (seu vetor equivalente de números).

Para gerar um modelo de *bag-of-words* precisamos realizar três passos:
- Selecionar os dados
- Gerar o vocabulário
- Formar vetores a partir do documento

#### Selecionando os dados: pré-processamento
Na fase de pré-processamento devemos:
- Converter todas as letras em minúsculas
    Essa etapa é importante pois nossa maquina tende a interpretar palavras iguais como sendo diferentes caso tenham maiúsculas ou minúsculas, ex.: 'Manhã' e 'manhã'.
- Remover os caracteres especiais e palavras irrelecantes do texto, ex.: 'é', 'a', 'o'...
    Para a máquina, a pontuação de um texto não é relevante, então vamos guardar apenas as palavras.


#### Gerando vocabulário
Vocabulário, nada mais é que a coleção de todas as palavras que existem em um texto, então a ideia do código é:
- Fazer uma lista de todas as palavras do nosso vocabulário modelo.
- Fazer um loop para percorrer o texto inteiro
- Criar uma condicional para verificar se a palavra está na lista- o vocabulário conta apenas com ocorrências únicas
- adicionar a palavra, caso ela não esteja na lista

#### Formando vetores
Como o vocabulário tem um número fixo de palavras, podemos usar a representação de tamano fixo equivalente a esse número, ou seja, um vetor onde cada elemento corresponderá a uma palavra do vocabulário. Existem diversas maneiras de se fazer essa atribuição, mas a mais básica é atribuindo 1 caso a palavra apareça e 0 caso não apareça

Assim, o passo a passo para codificar é:
- Criar uma lista que representa o vetor
- Fazer um loop para percorrer todas as palavras do vocabulário
- Se a palavra estiver no documento, adicionar 1 à lista e 0 caso não tenha
- Transformar a lista final em um array e retornar.

### Limitações do *bag-of-words*
Embora *bag-of-words* seja bastante eficiente e fácil de implementar, ainda existem algumas desvantagens nesta técnica:

1. O modelo ignora as informações de localização da palavra. A informação de localização é uma informação muito importante no texto. Por exemplo, “está fechado hoje.” e “hoje está fecahdo?”, têm exatamente a mesma representação vetorial no modelo BoW.

2. *bag-of-words* não respeita a semântica das palavras. Por exemplo, as palavras 'dinâmica' e 'atividade' são frequentemente usadas no mesmo contexto. No entanto, os vetores correspondentes a essas palavras são bastante diferentes no modelo do saco de palavras. O problema se torna mais sério ao modelar frases. Ex: “Comprar carros usados” e “adiquirir antiguidades automobilísticas” são representados por vetores totalmente diferentes no modelo *bag-of-words*.

3. A variedade de vocabulário é um grande problema enfrentado pelo modelo *bag-of-words*. Por exemplo, se o modelo se deparar com uma nova palavra que ainda não viu, em vez disso, dizemos uma palavra rara, mas informativa, como biblioclepta (significa aquele que rouba livros). O modelo BoW provavelmente acabará ignorando essa palavra, pois essa palavra ainda não foi vista pelo modelo.

### Term Frequency Inverse Document Frequency (TF-IDF)

São medidas estatísticas para medir o quão importante uma palavra é em um documento. Utilizando ele podemos perceber a importância de uma palavra por meio da pontuação, para isso multiplica-se duas métricas diferentes:

- Term Frequency (a frequência do termo), que mede a frequência com que um termo ocorre num documento. Existem várias maneiras de calcular essa frequência, sendo a mais simples uma contagem bruta de ocorrências em que uma palavra aparece em um documento.

- Inverse Document Frequency (inverso da frequência nos documentos), que mede o quão importante um termo é no contexto de todos os documentos. Isso sugere quão comum ou rara é uma palavra em todo o conjunto de documentos. Quanto mais próximo de 0, mais comum é a palavra. Essa métrica pode ser calculada tomando o número total de documentos, dividindo-o pelo número de documentos que contêm uma palavra e calculando o logaritmo.

Ou seja, para o TF-IDF, quanto mais frequente uma palavra é em seu documento, mais importante ela tende a ser, porem isso vai depender da repetição dela ao longo de todos os documentos analisados.

#### Implementando

Para a implementação de TF-IDF precisamos seguir passos muito semelhantes ao que fizemos com *bag-of-words*:

- Selecionar os dados e pré-processar o texto
- Gerar um vocabulário
- Gerar um dicionário de frequência desses termos

As duas primeiras etapas se assemelham ao *bag-of-words*, então para criar o dicionário de frequência devemos fazer uma contagem da quantidade de ocorrências de cada palavra.

Para obter a pontuação TF-IDF, basta então multiplicar essas duas medidas. Assim, quanto maior a TF e a IDF, obteremos uma pontuação maior, ou seja, as palavras consideradas mais relevantes serão aquelas que aparecem muito em um documento, mas pouco em outros.

### Prática

#### 1. *Bag-of-Words*

-  Selecionando os dados e fazendo o pré-processamento

In [28]:
# instalar nltk
# !pip install -U nltk

Collecting nltk
  Downloading nltk-3.7-py3-none-any.whl (1.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting tqdm
  Downloading tqdm-4.64.1-py2.py3-none-any.whl (78 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.5/78.5 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
Collecting regex>=2021.8.3
  Downloading regex-2022.9.13-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (772 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.3/772.3 kB[0m [31m40.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tqdm, regex, nltk
Successfully installed nltk-3.7 regex-2022.9.13 tqdm-4.64.1


In [45]:
# importando módulos e bibliotecas
import re
from nltk import word_tokenize
import nltk
import numpy as np

In [33]:
# nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/rafaelxavier/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [14]:
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]

- Colocando todas as letras em minúsculo

In [15]:
frases = list(map(lambda item: item.lower(),frases))
frases

['john likes',
 'likes to',
 'to watch',
 'watch movies',
 'mary likes',
 'likes movies',
 'movies too']

- Removendo acentos e palavras irrelevantes: stopwords

In [97]:
# Criando uma lista com stopwords
stopwords = ['to', 'too']

- Formando vetores de palavras

In [98]:
tokens = " ".join(frases).split()
tokens

['john',
 'likes',
 'likes',
 'to',
 'to',
 'watch',
 'watch',
 'movies',
 'mary',
 'likes',
 'likes',
 'movies',
 'movies',
 'too']

In [99]:
# Retirando palavras repetidas
vocab = []
for token in tokens:
    if token not in vocab:
        vocab.append(token)

print(vocab,"\n",len(vocab))

['john', 'likes', 'to', 'watch', 'movies', 'mary', 'too'] 
 7


In [100]:
# filtrando stopwords
filtered_vocab = []
for item in vocab:
    if item not in stopwords:
        filtered_vocab.append(item)
print(filtered_vocab)

['john', 'likes', 'watch', 'movies', 'mary']


In [101]:
def vetorizando(token,filtro):
    vector = []
    for item in filtro:
        vector.append(token.count(item))

    return vector

In [102]:
vetorfinal = vetorizando(tokens,filtered_vocab)

In [103]:
vetorfinal

[1, 4, 2, 3, 1]

In [104]:
def vetorizando_binario(token,filtro):
    vector = []
    for item in filtro:
        if item in token:
            vector.append(1)
        else:
            vector.append(0)
            

    return vector

In [105]:
vetorbinario = vetorizando_binario(tokens,filtered_vocab)
print(f'bag-of-words: {filtered_vocab}')
print(f'Vetor binário: {vetorbinario}')
print(f'Vetor com a contagem de aparições: {vetorfinal}')

bag-of-words: ['john', 'likes', 'watch', 'movies', 'mary']
Vetor binário: [1, 1, 1, 1, 1]
Vetor com a contagem de aparições: [1, 4, 2, 3, 1]


### 2. TF-IDF

- Selecionando os dados

In [134]:
# importando bibliotecas
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [140]:
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]

In [144]:
# definindo tf-idf, ngram_range=(2,2) porque a variável frases está dividida em bi-gramas
tf_idf_vec_bi = TfidfVectorizer(use_idf=True,  
                        smooth_idf=True,  
                        ngram_range=(2,2),stop_words='english')

tf_idf_vec = TfidfVectorizer(use_idf=True,  
                        smooth_idf=True,  
                        ngram_range=(1,1),stop_words='english')

# calculando tf-idf do texto
tf_idf_data_bi = tf_idf_vec_bi.fit_transform(frases)
tf_idf_data = tf_idf_vec.fit_transform(frases)


In [145]:
print(tf_idf_data_bi)
print(tf_idf_vec_bi.get_feature_names_out())
print('\n')
print(tf_idf_data)
print(tf_idf_vec.get_feature_names_out())

  (0, 0)	1.0
  (3, 3)	1.0
  (4, 2)	1.0
  (5, 1)	1.0
['john likes' 'likes movies' 'mary likes' 'watch movies']


  (0, 1)	0.5244893845044374
  (0, 0)	0.8514169868766751
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 3)	0.649749587643745
  (3, 4)	0.7601483232611799
  (4, 2)	0.8514169868766751
  (4, 1)	0.5244893845044374
  (5, 3)	0.7551128241024088
  (5, 1)	0.6555948618438714
  (6, 3)	1.0
['john' 'likes' 'mary' 'movies' 'watch']


In [146]:
# criando um dataframe com os resultados da analise tf-idf
tf_idf_dataframe_bi=pd.DataFrame(tf_idf_data_bi.toarray(),columns=tf_idf_vec_bi.get_feature_names_out())
print(tf_idf_dataframe_bi)

   john likes  likes movies  mary likes  watch movies
0         1.0           0.0         0.0           0.0
1         0.0           0.0         0.0           0.0
2         0.0           0.0         0.0           0.0
3         0.0           0.0         0.0           1.0
4         0.0           0.0         1.0           0.0
5         0.0           1.0         0.0           0.0
6         0.0           0.0         0.0           0.0


In [147]:
# criando um dataframe com os resultados da analise tf-idf
tf_idf_dataframe=pd.DataFrame(tf_idf_data.toarray(),columns=tf_idf_vec.get_feature_names_out())
print(tf_idf_dataframe)

       john     likes      mary    movies     watch
0  0.851417  0.524489  0.000000  0.000000  0.000000
1  0.000000  1.000000  0.000000  0.000000  0.000000
2  0.000000  0.000000  0.000000  0.000000  1.000000
3  0.000000  0.000000  0.000000  0.649750  0.760148
4  0.000000  0.524489  0.851417  0.000000  0.000000
5  0.000000  0.655595  0.000000  0.755113  0.000000
6  0.000000  0.000000  0.000000  1.000000  0.000000
