<a href="https://colab.research.google.com/github/viniciusrpb/cic0269_natural_language_processing/blob/main/cap05_1_extracao_caracteristicas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capítulo 5 - Extração de Características de Textos

Nesta seção vamos estudar como obter representações estruturadas de textos que são conhecidas como *embeddings*.



In [43]:
import pandas as pd

# 5.1. O Modelo Bag-of-Words (BoW)

Suponha o seguinte corpus contendo "apenas" cinco sentenças (considerados aqui como documentos):

In [44]:
corpus = []
corpus.append('Batatinha quando nasce esparrama pelo chão igual batatinha')
corpus.append('A pior experiência da minha vida')
corpus.append('Quero meu dinheiro de volta pois é meu e é meu')
corpus.append('A experiência do dinheiro esparrama minha vida')
corpus.append('Acai é a melhor coisa da vida')

In [45]:
frase = " ".join(corpus)

In [46]:
frase = frase.lower()
corpus = [x.lower() for x in corpus]
frase

'batatinha quando nasce esparrama pelo chão igual batatinha a pior experiência da minha vida quero meu dinheiro de volta pois é meu e é meu a experiência do dinheiro esparrama minha vida acai é a melhor coisa da vida'

In [47]:
corpus

['batatinha quando nasce esparrama pelo chão igual batatinha',
 'a pior experiência da minha vida',
 'quero meu dinheiro de volta pois é meu e é meu',
 'a experiência do dinheiro esparrama minha vida',
 'acai é a melhor coisa da vida']

Vamos construir o vocabulário, em que cada índice:

In [48]:
tokens = frase.split()
vocab = sorted(set(tokens))

In [49]:
vocab

['a',
 'acai',
 'batatinha',
 'chão',
 'coisa',
 'da',
 'de',
 'dinheiro',
 'do',
 'e',
 'esparrama',
 'experiência',
 'igual',
 'melhor',
 'meu',
 'minha',
 'nasce',
 'pelo',
 'pior',
 'pois',
 'quando',
 'quero',
 'vida',
 'volta',
 'é']

### Bag-of-Words Binário (*One-hot encoding*)

O primeiro passo é construirmos o "saco de palavras" do corpus como um dicionário, em que cada documento é um índice, que armazena a presença de cada palavra do documento no vocabulário: 

In [50]:
bow_binario = {}

for i,doc in enumerate(corpus):
    bow_binario['sentenca {}'.format(i+1)] = dict()
    for word in doc.split():
        bow_binario['sentenca {}'.format(i+1)][word] = 1

In [51]:
bow_binario

{'sentenca 1': {'batatinha': 1,
  'chão': 1,
  'esparrama': 1,
  'igual': 1,
  'nasce': 1,
  'pelo': 1,
  'quando': 1},
 'sentenca 2': {'a': 1,
  'da': 1,
  'experiência': 1,
  'minha': 1,
  'pior': 1,
  'vida': 1},
 'sentenca 3': {'de': 1,
  'dinheiro': 1,
  'e': 1,
  'meu': 1,
  'pois': 1,
  'quero': 1,
  'volta': 1,
  'é': 1},
 'sentenca 4': {'a': 1,
  'dinheiro': 1,
  'do': 1,
  'esparrama': 1,
  'experiência': 1,
  'minha': 1,
  'vida': 1},
 'sentenca 5': {'a': 1,
  'acai': 1,
  'coisa': 1,
  'da': 1,
  'melhor': 1,
  'vida': 1,
  'é': 1}}

A partir do "saco de palavras" obtido, vamos construir a representação estruturada como uma matriz de incidência binária:

In [52]:
df = pd.DataFrame().from_records(bow_binario).fillna(0).T.astype(int)
df

Unnamed: 0,batatinha,quando,nasce,esparrama,pelo,chão,igual,a,pior,experiência,...,dinheiro,de,volta,pois,é,e,do,acai,melhor,coisa
sentenca 1,1,1,1,1,1,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
sentenca 2,0,0,0,0,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
sentenca 3,0,0,0,0,0,0,0,0,0,0,...,1,1,1,1,1,1,0,0,0,0
sentenca 4,0,0,0,1,0,0,0,1,0,1,...,1,0,0,0,0,0,1,0,0,0
sentenca 5,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,1,0,0,1,1,1


### Bag-of-Words de Contagem

O "saco de palavras" do corpus também é construído como se fosse um dicionário, em que cada índice armazena a frequência de cada palavra do associado documento em relação ao vocabulário: 

In [53]:
bow_contagem = {}

for i,doc in enumerate(corpus):
    bow_contagem['sentenca {}'.format(i+1)] = dict()
    for word in doc.split():
        if word in bow_contagem['sentenca {}'.format(i+1)]:
            bow_contagem['sentenca {}'.format(i+1)][word] += 1
        else:
            bow_contagem['sentenca {}'.format(i+1)][word] = 1

In [54]:
bow_contagem

{'sentenca 1': {'batatinha': 2,
  'chão': 1,
  'esparrama': 1,
  'igual': 1,
  'nasce': 1,
  'pelo': 1,
  'quando': 1},
 'sentenca 2': {'a': 1,
  'da': 1,
  'experiência': 1,
  'minha': 1,
  'pior': 1,
  'vida': 1},
 'sentenca 3': {'de': 1,
  'dinheiro': 1,
  'e': 1,
  'meu': 3,
  'pois': 1,
  'quero': 1,
  'volta': 1,
  'é': 2},
 'sentenca 4': {'a': 1,
  'dinheiro': 1,
  'do': 1,
  'esparrama': 1,
  'experiência': 1,
  'minha': 1,
  'vida': 1},
 'sentenca 5': {'a': 1,
  'acai': 1,
  'coisa': 1,
  'da': 1,
  'melhor': 1,
  'vida': 1,
  'é': 1}}

Bag-of-Words Ponderado

In [55]:
bow_ponderado = {}
N = {} # quantidade de termos em cada documento

for i,doc in enumerate(corpus):
    bow_ponderado['sentenca {}'.format(i+1)] = dict()
    N['sentenca {}'.format(i+1)] = len(doc.split())
    for word in doc.split():
        if word in bow_ponderado['sentenca {}'.format(i+1)]:
            bow_ponderado['sentenca {}'.format(i+1)][word] += 1
        else:
            bow_ponderado['sentenca {}'.format(i+1)][word] = 1

for doc in bow_ponderado:
    for word in bow_ponderado[doc]:
        bow_ponderado[doc][word] /= N[doc]

In [56]:
bow_ponderado

{'sentenca 1': {'batatinha': 0.25,
  'chão': 0.125,
  'esparrama': 0.125,
  'igual': 0.125,
  'nasce': 0.125,
  'pelo': 0.125,
  'quando': 0.125},
 'sentenca 2': {'a': 0.16666666666666666,
  'da': 0.16666666666666666,
  'experiência': 0.16666666666666666,
  'minha': 0.16666666666666666,
  'pior': 0.16666666666666666,
  'vida': 0.16666666666666666},
 'sentenca 3': {'de': 0.09090909090909091,
  'dinheiro': 0.09090909090909091,
  'e': 0.09090909090909091,
  'meu': 0.2727272727272727,
  'pois': 0.09090909090909091,
  'quero': 0.09090909090909091,
  'volta': 0.09090909090909091,
  'é': 0.18181818181818182},
 'sentenca 4': {'a': 0.14285714285714285,
  'dinheiro': 0.14285714285714285,
  'do': 0.14285714285714285,
  'esparrama': 0.14285714285714285,
  'experiência': 0.14285714285714285,
  'minha': 0.14285714285714285,
  'vida': 0.14285714285714285},
 'sentenca 5': {'a': 0.14285714285714285,
  'acai': 0.14285714285714285,
  'coisa': 0.14285714285714285,
  'da': 0.14285714285714285,
  'melhor': 

Term Frequency

In [57]:
import math
idf = {}
for word in vocab:
    idf[word] = 0
    #contabilizar em quantos documentos a palavra word aparece
    for doc in bow_contagem:
        if word in bow_contagem[doc]:
            idf[word] += 1

for word in idf:
    idf[word] = math.log(len(corpus)/idf[word])   

In [58]:
idf

{'a': 3,
 'acai': 1,
 'batatinha': 1,
 'chão': 1,
 'coisa': 1,
 'da': 2,
 'de': 1,
 'dinheiro': 2,
 'do': 1,
 'e': 1,
 'esparrama': 2,
 'experiência': 2,
 'igual': 1,
 'melhor': 1,
 'meu': 1,
 'minha': 2,
 'nasce': 1,
 'pelo': 1,
 'pior': 1,
 'pois': 1,
 'quando': 1,
 'quero': 1,
 'vida': 3,
 'volta': 1,
 'é': 2}

Term Frequency-Inverse Document Frequency

In [67]:
bow_tfidf = {}

for doc in bow_ponderado:
    bow_tfidf[doc] = dict()
    for word in bow_ponderado[doc]:
        bow_tfidf[doc][word] = bow_ponderado[doc][word]*idf[word]

In [None]:
bow_tfidf

In [74]:
df = pd.DataFrame().from_records(bow_tfidf).fillna(0).T
df

Unnamed: 0,batatinha,quando,nasce,esparrama,pelo,chão,igual,a,pior,experiência,...,dinheiro,de,volta,pois,é,e,do,acai,melhor,coisa
sentenca 1,0.25,0.125,0.125,0.25,0.125,0.125,0.125,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
sentenca 2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.166667,0.333333,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
sentenca 3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.181818,0.090909,0.090909,0.090909,0.363636,0.090909,0.0,0.0,0.0,0.0
sentenca 4,0.0,0.0,0.0,0.285714,0.0,0.0,0.0,0.428571,0.0,0.285714,...,0.285714,0.0,0.0,0.0,0.0,0.0,0.142857,0.0,0.0,0.0
sentenca 5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.428571,0.0,0.0,...,0.0,0.0,0.0,0.0,0.285714,0.0,0.0,0.142857,0.142857,0.142857
