<a href="https://colab.research.google.com/github/viniciusrpb/cic0087_naturallanguageprocessing/blob/main/cap02_representacoes_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Representações de texto

A escolha de uma representação para documentos de textos é importante e afeta os resultados das técnicas de aprendizado de máquina e de processamento de linguagem natural. No processo de transformar textos puros em representações numéricas, também conhecido como caracterização de textos, existem duas etapas principais a serem feitas. A primeira é chamada de *tokenização*, que se refere a dividir o texto em palavras ou grupos de palavras, e a segunda é conhecida como *numericalização*, que se trata de uma transformação de texto puro para uma representação numérica. Há diversas abordagens possíveis para caracterização de textos, e vamos ilustrar duas delas neste notebook.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('/content/drive/MyDrive/tutoriais_tac/olist.csv')

## Count Vectorizer

A primeira abordagem que veremos, o chamado *Count Vectorizer*, é uma técnica *bag-of-words* e se pauta em uma ideia simples. A documentação do Scikit-learn define como 'converter uma coleção de documentos de texto em uma matriz de contagem de tokens'.

Por exemplo, vamos considerar um corpus com as seguintes frases:

1. Tom Jobim é um artista da bossa nova.
2. Garota de Ipanema é uma música da bossa nova composta por Tom Jobim. A música é uma obra-prima.

O vocabulário é o conjunto de termos distintos que ocorre em cada frase do corpus. Cada frase é, então, representada por um vetor que associa cada token do vocabulário com sua quantidade na frase em questão. Temos o seguinte:

| Vocubulário  | Tom | Jobim | é | um | artista | da | Bossa | Nova | Garota | de | Ipanema | uma | música | composta | por | a | obra-prima |
|--------------|-----|-------|---|----|---------|----|-------|------|--------|----|---------|-----|--------|----------|-----|---|------------|
| Repr frase 1 | 1   | 1     | 1 | 1  | 1       | 1  | 1     | 1    | 0      | 0  | 0       | 0   | 0      | 0        | 0   | 0 | 0          |
| Repr frase 2 | 1   | 1     | 2 | 0  | 0       | 0  | 1     | 1    | 1      | 2  | 1       | 2   | 2      | 1        | 1   | 1 | 1          |

Vamos usar o módulo implementado pelo Scikit-learn. O link da documentação é https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
corpus = [
    'Tom Jobim é um artista da bossa nova.',
    'Garota de Ipanema é uma música da bossa nova composta por Tom Jobim. A música é uma obra-prima.'
]

A implementação já traz alguns pontos de pré-processamento embutidos por padrão.

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())

print(X.toarray())

['artista' 'bossa' 'composta' 'da' 'de' 'garota' 'ipanema' 'jobim'
 'música' 'nova' 'obra' 'por' 'prima' 'tom' 'um' 'uma']
[[1 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0]
 [0 1 1 1 1 1 1 1 2 1 1 1 1 1 0 2]]


In [None]:
df

Unnamed: 0,original_index,review_text,review_text_processed,review_text_tokenized,polarity,rating,kfold_polarity,kfold_rating
0,97262,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,"['perfeito', 'chegou', 'antes', 'do', 'prazo']",1.0,5,1,1
1,72931,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,"['foi', 'uma', 'otima', 'compra', 'chegou', 'a...",1.0,5,1,1
2,19659,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,"['recebi', 'muito', 'rapido', 'um', 'otimo', '...",1.0,5,1,1
3,43054,Recomendo,recomendo,['recomendo'],1.0,5,1,1
4,59202,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,"['so', 'veio', 'uma', 'capa', 'comprei', 'ai',...",0.0,1,1,1
...,...,...,...,...,...,...,...,...
41739,49725,SUCESSO :D,sucesso :d,['sucesso'],1.0,5,10,10
41740,76794,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,"['tudo', 'ok', 'produto', 'entregue', 'no', 'p...",1.0,5,10,10
41741,72847,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,"['ultimamente', 'estao', 'atrasando', 'muito',...",0.0,1,10,10
41742,50905,recomendo,recomendo,['recomendo'],1.0,5,10,10


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41744 entries, 0 to 41743
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   original_index         41744 non-null  int64  
 1   review_text            41744 non-null  object 
 2   review_text_processed  41743 non-null  object 
 3   review_text_tokenized  41744 non-null  object 
 4   polarity               38079 non-null  float64
 5   rating                 41744 non-null  int64  
 6   kfold_polarity         41744 non-null  int64  
 7   kfold_rating           41744 non-null  int64  
dtypes: float64(1), int64(4), object(3)
memory usage: 2.5+ MB


In [None]:
df.fillna(1.0, inplace=True)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41744 entries, 0 to 41743
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   original_index         41744 non-null  int64  
 1   review_text            41744 non-null  object 
 2   review_text_processed  41744 non-null  object 
 3   review_text_tokenized  41744 non-null  object 
 4   polarity               41744 non-null  float64
 5   rating                 41744 non-null  int64  
 6   kfold_polarity         41744 non-null  int64  
 7   kfold_rating           41744 non-null  int64  
dtypes: float64(1), int64(4), object(3)
memory usage: 2.5+ MB


In [None]:
X_train, X_test, y_train, y_test = train_test_split(df['review_text'], df['polarity'],
                                                    test_size=0.2, random_state=14, stratify=df['polarity'])

# X_test, X_val, y_test, y_val = train_test_split(X_test, y_test,
#                                                     test_size=0.5, random_state=14, stratify=y_test)

In [None]:
X_train_cv = vectorizer.fit_transform(X_train)
X_test_cv = vectorizer.transform(X_test)

In [None]:
X_train_cv

<33395x14482 sparse matrix of type '<class 'numpy.int64'>'
	with 333436 stored elements in Compressed Sparse Row format>

## TF-IDF

O procedimento descrito pela técnica Count Vectorizer é simples e bastante poderoso, mas tem uma limitação principal. [Manning et al. 2008](https://nlp.stanford.edu/IR-book/information-retrieval-book.html) descrevem que nele 'todos os termos são considerados igualmente importantes quando se trata de avaliar relevância'. Portanto, uma melhoria nesse sentido seria ponderar a computação de características dos dados textuais levando em consideração a frequência de cada palavra do exemplo considerado e no corpus como um todo. Isso permitiria que os algoritmos pudessem obter informações mais relevantes, mesmo quando lidando com dados textuais muito grandes. Isso é conhecido como *Term Frequency - Inverse Document Frequency*, ou TF-IDF, e também é uma técnica *bag-of-words*.

Para ilustrar essa questão do que significa *relevância*, consideremos as seguintes frases em um contexto de uma tarefa de análise de sentimentos:

1. Eu adorei o último jogo do Vasco. Foi muito melhor que no jogo anterior, com mudanças táticas importantes que impactaram no estilo de jogo do time. (Sentimento positivo)
2. Eu detestei o novo modo de jogo do Call of Duty. (Sentimento negativo)

Numa abordagem usando Count Vectorizer, temos o seguinte panorama:

In [None]:
corpus = [
    'Eu adorei o último jogo do Vasco. Foi muito melhor que no jogo anterior, com mudanças táticas importantes que impactaram no estilo de jogo do time.',
    'Eu detestei o novo modo de jogo do Call of Duty.'
]

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())

print(X.toarray())

['adorei' 'anterior' 'call' 'com' 'de' 'detestei' 'do' 'duty' 'estilo'
 'eu' 'foi' 'impactaram' 'importantes' 'jogo' 'melhor' 'modo' 'mudanças'
 'muito' 'no' 'novo' 'of' 'que' 'time' 'táticas' 'vasco' 'último']
[[1 1 0 1 1 0 2 0 1 1 1 1 1 3 1 0 1 1 2 0 0 2 1 1 1 1]
 [0 0 1 0 1 1 1 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0 0]]


Como todos os termos são igualmente importantes, os classificadores podem entender que o fator mais importante para que uma frase de exemplo possua sentimento positivo é ter mais ocorrências do termo 'jogo'. Usando TF-IDF podemos driblar essa questão ao atribuir um peso menor para termos que ocorrem muito no vocabulário como um todo. Formalmente, temos


TF$(p, e)$ = $1 + log\:f_{p, e}$ [1]

IDF$(p, C)$ = $log\: \left(1 + \frac{N}{n_{p}}\right)$ [2]

em que *Term Frequency*, TF, é o termo da equação [1], *Inverse Document Frequency*, IDF, é representado pela equação [2], e ainda $p$ é a palavra em questão, $e$ é o exemplo de texto analisado, $C$ é o corpus, $N$ é o número de documentos no corpus e $n_{p}$ é o número de ocorrências da palavra $p$ em todos os documentos. O resultado final é a multiplicação de TF com IDF, conforme a equação [3]:

TF-IDF$(p, e, C)$ = $TF(p, e) * IDF(p, C)$ [3]

Das frases de exemplo, vamos considerar o termo 'jogo', que foi o que mais apareceu no vocabulário.

TF$(jogo, frase 1)$ = $1 + log\:f_{jogo, frase 1}$
$= 1 + log \:3 = 1 + 0.47712 = 1.47712$

IDF$(jogo, corpus)$ = $log\: \left(1 + \frac{2}{4}\right)$ = $log\: \left(\frac{6}{4}\right)$ = $0.17609$

TF-IDF$(jogo, frase 1, corpus)$ = $1.47712 * 0.17609$ = $0.2601$

Código sklearn linha 1461 -> https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/feature_extraction/text.py

https://towardsdatascience.com/tf-idf-explained-and-python-sklearn-implementation-b020c5e83275

https://www.tablesgenerator.com/markdown_tables#

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())

print(X.toarray())

['adorei' 'anterior' 'call' 'com' 'de' 'detestei' 'do' 'duty' 'estilo'
 'eu' 'foi' 'impactaram' 'importantes' 'jogo' 'melhor' 'modo' 'mudanças'
 'muito' 'no' 'novo' 'of' 'que' 'time' 'táticas' 'vasco' 'último']
[[0.18382334 0.18382334 0.         0.18382334 0.13079182 0.
  0.26158365 0.         0.18382334 0.13079182 0.18382334 0.18382334
  0.18382334 0.39237547 0.18382334 0.         0.18382334 0.18382334
  0.36764669 0.         0.         0.36764669 0.18382334 0.18382334
  0.18382334 0.18382334]
 [0.         0.         0.35300279 0.         0.25116439 0.35300279
  0.25116439 0.35300279 0.         0.25116439 0.         0.
  0.         0.25116439 0.         0.35300279 0.         0.
  0.         0.35300279 0.35300279 0.         0.         0.
  0.         0.        ]]


In [None]:
vectorizer.get_feature_names_out()

array(['adorei', 'anterior', 'call', 'com', 'de', 'detestei', 'do',
       'duty', 'estilo', 'eu', 'foi', 'impactaram', 'importantes', 'jogo',
       'melhor', 'modo', 'mudanças', 'muito', 'no', 'novo', 'of', 'que',
       'time', 'táticas', 'vasco', 'último'], dtype=object)

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(X[1].T.todense(), index=vectorizer.get_feature_names(), columns=["TF-IDF"])
df = df.sort_values('TF-IDF', ascending=False)
print (df.head(25))

               TF-IDF
call         0.353003
detestei     0.353003
duty         0.353003
of           0.353003
novo         0.353003
modo         0.353003
jogo         0.251164
de           0.251164
do           0.251164
eu           0.251164
muito        0.000000
vasco        0.000000
táticas      0.000000
time         0.000000
que          0.000000
no           0.000000
adorei       0.000000
mudanças     0.000000
melhor       0.000000
anterior     0.000000
importantes  0.000000
impactaram   0.000000
foi          0.000000
estilo       0.000000
com          0.000000




In [None]:
X_train_cv = vectorizer.fit_transform(X_train)
X_test_cv = vectorizer.transform(X_test)

In [None]:
X_train_cv

<33395x14482 sparse matrix of type '<class 'numpy.float64'>'
	with 333436 stored elements in Compressed Sparse Row format>