<a href="https://colab.research.google.com/github/viniciusrpb/cic0087_naturallanguageprocessing/blob/main/cap01_preproc_textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pré-processamento de textos

Esse notebook se propõe a ser um tutorial breve sobre pré-processamento de textos. Será usada uma base de dados sobre análise de sentimento em português, que está disponível em https://www.kaggle.com/fredericods/ptbr-sentiment-analysis-datasets. Especificamente, vamos utilizar apenas o arquivo `olist.csv`.

### Porque é importante pré-processar textos?

- O texto original pode conter caracteres, palavras ou frases
irrelevantes para a análise;
- Um termo pode estar presente em um documento sob
diferentes formas.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df_original = pd.read_csv('/content/drive/MyDrive/tutoriais_tac/olist.csv')

In [None]:
df_original

Unnamed: 0,original_index,review_text,review_text_processed,review_text_tokenized,polarity,rating,kfold_polarity,kfold_rating
0,97262,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,"['perfeito', 'chegou', 'antes', 'do', 'prazo']",1.0,5,1,1
1,72931,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,"['foi', 'uma', 'otima', 'compra', 'chegou', 'a...",1.0,5,1,1
2,19659,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,"['recebi', 'muito', 'rapido', 'um', 'otimo', '...",1.0,5,1,1
3,43054,Recomendo,recomendo,['recomendo'],1.0,5,1,1
4,59202,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,"['so', 'veio', 'uma', 'capa', 'comprei', 'ai',...",0.0,1,1,1
...,...,...,...,...,...,...,...,...
41739,49725,SUCESSO :D,sucesso :d,['sucesso'],1.0,5,10,10
41740,76794,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,"['tudo', 'ok', 'produto', 'entregue', 'no', 'p...",1.0,5,10,10
41741,72847,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,"['ultimamente', 'estao', 'atrasando', 'muito',...",0.0,1,10,10
41742,50905,recomendo,recomendo,['recomendo'],1.0,5,10,10


In [None]:
df_original.iloc[1]['review_text']

'Foi uma ótima compra! Chegou antes mesmo do prazo e o produto é igual o que estava no anúncio. Correspondeu as expectativas!'

In [None]:
df = df_original[['review_text', 'review_text_processed', 'polarity']]
df

Unnamed: 0,review_text,review_text_processed,polarity
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0
3,Recomendo,recomendo,1.0
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0
...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0
41742,recomendo,recomendo,1.0


In [None]:
df.iloc[1]['review_text_processed']

'foi uma otima compra! chegou antes mesmo do prazo e o produto e igual o que estava no anuncio. correspondeu as expectativas!'

In [None]:
exemplo = 'EXCELENTE!! Valeu demais passar um tempo pesquisando preços, pois encontrei esse ótimo carregador de celular, nota 10.'

### Jargões

- **Token:** termo de uma frase, uma ocorrência particular de uma palavra especı́fica em um texto
- **Corpus:** uma coleção de documentos/frases
- **Corpora:** coletivo de corpus
- **Vocabulário:** todas as palavras em uma coleção de documentos de texto.

### Normalizar capitalização

In [None]:
exemplo = exemplo.lower()
exemplo

'excelente!! valeu demais passar um tempo pesquisando preços, pois encontrei esse ótimo carregador de celular, nota 10.'

In [None]:
df['review_text']

0                   Perfeito....chegou antes do prazo.....
1        Foi uma ótima compra! Chegou antes mesmo do pr...
2           Recebi muito rapido e um otimo custo beneficio
3                                                Recomendo
4        Só veio uma capa comprei 3 aí paguei. Mais de ...
                               ...                        
41739                                           SUCESSO :D
41740         Tudo OK. Produto entregue no prazo correto. 
41741        Ultimamente estão atrasando muito as entregas
41742                                            recomendo
41743    A mascara veio com um pequeno defeito na estam...
Name: review_text, Length: 41744, dtype: object

In [None]:
df['review_preproc'] = df['review_text'].apply(lambda x: x.lower())
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito....chegou antes do prazo.....
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma ótima compra! chegou antes mesmo do pr...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,só veio uma capa comprei 3 aí paguei. mais de ...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso :d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok. produto entregue no prazo correto.
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estão atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo


### Retirar pontuação



**Opção 1:** Analisar caractere a caractere

In [None]:
for u in exemplo:
    print(u)

In [None]:
exemplo_sem_punct = "".join(u for u in exemplo if u not in ("?", ".", ";", ":", "!", ","))
exemplo_sem_punct

'excelente valeu demais passar um tempo pesquisando preços pois encontrei esse ótimo carregador de celular nota 10'

**Opção 2:** Usar o RegexTokenizer da lib NLTK

In [None]:
from nltk.tokenize import RegexpTokenizer

# com '\w+' selecionamos apenas tokens de palavras ou dígitos
tokenizer = RegexpTokenizer(r'\w+')

In [None]:
tokenizer.tokenize(exemplo)

['excelente',
 'valeu',
 'demais',
 'passar',
 'um',
 'tempo',
 'pesquisando',
 'preços',
 'pois',
 'encontrei',
 'esse',
 'ótimo',
 'carregador',
 'de',
 'celular',
 'nota',
 '10']

In [None]:
exemplo = ' '.join(tokenizer.tokenize(exemplo))
exemplo

'excelente valeu demais passar um tempo pesquisando preços pois encontrei esse ótimo carregador de celular nota 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(tokenizer.tokenize(x)))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes do prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma ótima compra chegou antes mesmo do pra...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,só veio uma capa comprei 3 aí paguei mais de 1...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue no prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estão atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo


### Retirar acentos

Processar caracteres em ascii é uma boa prática, por isso retiramos acentos.

**Opção 1:** Criar um mapeamento de caracteres acentuados para caracteres sem acento

In [None]:
repl = str.maketrans(
    "áéúíó",
    "aeuio"
)
palavra = 'ótimo'
palavra.translate(repl)

'otimo'

**Opção 2:** Usar lib unidecode, https://github.com/avian2/unidecode.

In [None]:
!pip install unidecode
import unidecode

Collecting unidecode
  Downloading Unidecode-1.3.2-py3-none-any.whl (235 kB)
[?25l[K     |█▍                              | 10 kB 24.3 MB/s eta 0:00:01[K     |██▉                             | 20 kB 30.5 MB/s eta 0:00:01[K     |████▏                           | 30 kB 35.0 MB/s eta 0:00:01[K     |█████▋                          | 40 kB 20.6 MB/s eta 0:00:01[K     |███████                         | 51 kB 10.7 MB/s eta 0:00:01[K     |████████▍                       | 61 kB 10.8 MB/s eta 0:00:01[K     |█████████▊                      | 71 kB 8.4 MB/s eta 0:00:01[K     |███████████▏                    | 81 kB 9.4 MB/s eta 0:00:01[K     |████████████▌                   | 92 kB 7.7 MB/s eta 0:00:01[K     |██████████████                  | 102 kB 8.4 MB/s eta 0:00:01[K     |███████████████▎                | 112 kB 8.4 MB/s eta 0:00:01[K     |████████████████▊               | 122 kB 8.4 MB/s eta 0:00:01[K     |██████████████████              | 133 kB 8.4 MB/s eta 0:00

In [None]:
exemplo.split()

['excelente',
 'valeu',
 'demais',
 'passar',
 'um',
 'tempo',
 'pesquisando',
 'preços',
 'pois',
 'encontrei',
 'esse',
 'ótimo',
 'carregador',
 'de',
 'celular',
 'nota',
 '10']

In [None]:
exemplo = ' '.join([unidecode.unidecode(termo) for termo in exemplo.split()])
exemplo

'excelente valeu demais passar um tempo pesquisando precos pois encontrei esse otimo carregador de celular nota 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([unidecode.unidecode(termo) for termo in x.split()]))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes do prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma otima compra chegou antes mesmo do pra...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so veio uma capa comprei 3 ai paguei mais de 1...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue no prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estao atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo


### Retirar stopwords

Dentro de um vocabulário, podem existir termos que se repetem muito e agregam pouca informação. Isso costuma acontecer com preposições e artigos, por exemplo.

As palavras que ocorrem nesse sentido são separadas em uma lista, e então removidas.

Referência complementar: https://www.nltk.org/howto/portuguese_en.html

**Opção 1:** Podemos manualmente setar termos para retirada em uma lista

In [None]:
stopwords = ['de', 'para', 'uma', 'o', 'e']

**Opção 2:** Podemos usar a lista de stopwords compilada pela lib NLTK

In [None]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
stopwords

In [None]:
exemplo = ' '.join([termo for termo in exemplo.split() if termo not in stopwords])
exemplo

'excelente valeu demais passar tempo pesquisando precos pois encontrei otimo carregador celular nota 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([termo for termo in x.split() if termo not in stopwords]))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,otima compra chegou antes prazo produto igual ...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi rapido otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so veio capa comprei 3 ai paguei 100 reais capa
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estao atrasando entregas
41742,recomendo,recomendo,1.0,recomendo


### Stemmização

O objetivo do processo de stemmização é remover a terminação ou os últimos caracteres de uma palavra, de forma a deixar apenas o radical da mesma. Podem ser removidos, por exemplo, sufixos e vogais temáticas verbais.

Exemplo: 
- Termos: Correr, correndo, correrei, ...
- Termo derivado da transformação após aplicação do stemmer: corr ou corre, a depender da implementação do algoritmo.

Referência complementar: https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

In [None]:
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [None]:
exemplo = ' '.join([stemmer.stem(termo) for termo in exemplo.split()])
exemplo

'excel val demal pass temp pesquis prec poi encontr otim carreg celul not 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(stemmer.stem(termo) for termo in x.split()))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeit cheg ant praz
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,otim compr cheg ant praz produt igual anunci c...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,receb rap otim cust benefici
3,Recomendo,recomendo,1.0,recom
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so vei cap compr 3 ai pag 100 real cap
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucess d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tud ok produt entreg praz corret
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultim esta atras entreg
41742,recomendo,recomendo,1.0,recom


### Preciso sempre usar todas essas técnicas?

Não! O importante é analisar o tipo de dado que se está lidando e verificar a melhor forma de passá-lo para os algoritmos da tarefa de NLP em voga. Um exemplo é esse dado abaixo, sobre atos de pessoal do Diário Oficial do DF.

In [None]:
!git clone -l -s git://github.com/mstauffer/tcdf_text_classification.git

Cloning into 'tcdf_text_classification'...
remote: Enumerating objects: 34, done.[K
remote: Counting objects: 100% (34/34), done.[K
remote: Compressing objects: 100% (25/25), done.[K
remote: Total 34 (delta 12), reused 27 (delta 7), pack-reused 0[K
Receiving objects: 100% (34/34), 700.04 KiB | 2.66 MiB/s, done.
Resolving deltas: 100% (12/12), done.


In [None]:
df_atos_pessoal = pd.read_csv('/content/tcdf_text_classification/dodf_atos.csv')
df_atos_pessoal

Unnamed: 0,id_dodf,tipo_rel,id_rel,anotador_rel,tipo_ent,id_ent,anotador_ent,offset,length,texto
0,80_194.30.9.8,Ato_Reversao,R1,carlos_gabriel,nome,3537,carlos_gabriel,197948,23,YURI MACHADO DE MENEZES
1,80_194.30.9.8,Ato_Reversao,R1,carlos_gabriel,matricula,3538,carlos_gabriel,197983,8,61.836-5
2,80_194.30.9.8,Ato_Reversao,R1,carlos_gabriel,vigencia,3539,carlos_gabriel,198021,22,12 de setembro de 2008
3,80_194.30.9.8,Ato_Reversao,R1,carlos_gabriel,Ato_Reversao,3540,carlos_gabriel,197866,178,REVERTER o REGIME DE TEMPO INTEGRAL E DEDICACA...
4,87_118.20.6.8,Ato_Nomeacao_Comissionado,R1,lygia_paloma,nome,1583,lygia_paloma,212316,28,JOAO PAULO PATROCINA MARQUES
...,...,...,...,...,...,...,...,...,...,...
20750,13_212.10.10.2013,Ato_Substituicao,R40,khalil_carsten,matricula_substituido,8685,vinicius_borges,644324,9,174.833-5
20751,13_212.10.10.2013,Ato_Substituicao,R40,khalil_carsten,data_inicial,8686,vinicius_borges,644348,2,09
20752,13_212.10.10.2013,Ato_Substituicao,R40,khalil_carsten,data_final,8687,vinicius_borges,644353,10,11/10/2013
20753,13_212.10.10.2013,Ato_Substituicao,R40,khalil_carsten,motivo,8688,vinicius_borges,644380,32,ferias regulamentares da titular


Aqui entidades numéricas, capitalização e pontuação podem ser importantes. Por isso, pensando em uma tarefa de classificação, faz sentido não adotar alguns dos passos de pré-processamento que normalmente são feitos.

## Word2Vec

A próxima técnica foi um marco na área de NLP. Até então tínhamos representações de texto em matrizes esparsas, isto é, dado um vocubulário com $n$ termos, tínhamos uma matriz com $n$ colunas para representar a contagem (Count Vectorizer) ou contagem ponderada (TF-IDF) de cada termo em cada frase do corpus.

Do ponto de vista matemático, podemos enxergar essas matrizes de palavras como um espaço vetorial, onde cada palavra será um eixo desse espaço. O que caracteriza essas técnicas como bag-of-words é a ideia de que a ordem entre as palavras e/ou seus relacionamentos não importam para a representação vetorial. É literalmente o que o nome sugere: temos um corpus contido por diferentes palavras e colocamos todas elas em um saco.

---
retirar

Se quisermos obter uma representação para uma frase nesse mesmo espaço, basta olhar para o vetor que contém a média de todos os pontos (todas as palavras) contidos pela frase.

---

Em 2013, Mikolov et. al. criaram uma rede neural que também se pauta nessa ideia de representar palavras em um espaço vetorial. A diferença - genial, diga-se de passagem - foi criar esse espaço de modo a estabelecer relacionamentos semânticos entre os termos. Isso é feito ao analisar o contexto de cada palavra, isto é, que tipos de termos que tendem a ocorrer próximo a determinada palavra. Dessa forma, é possível enxergar as dimensões do espaço vetorial como 'definições de relacionamento' entre as palavras.

A rede é do tipo *self-supervised*, na medida em que as frases de entrada são não-rotuladas, mas que os 'rótulos' necessários já estão contidos com a ideia de contexto de palavras ao redor. 

O paper original descrive dois métodos para embeddings. CBOW e Skip-Gram. O método CBOW, ou *Continuous Bag-of-Words*, estabelece o objetivo da tarefa da rede em prever uma palavra dadas outras aos seu derredor, enquanto que o método Skip-Gram tenta predizer as palavras ao redor dado um termo específico.

Imagem do paper: https://arxiv.org/pdf/1301.3781.pdf
