<a href="https://colab.research.google.com/github/fabriciosantana/nlp/blob/main/AKCIT_NLP_M6_Colab_Unidade_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivos de Aprendizagem

*  Esse notebook é um tutorial breve sobre pré-processamento de textos. Será usado um corpus (banco de dados) sobre análise de sentimento em Português, que está disponível em https://www.kaggle.com/fredericods/ptbr-sentiment-analysis-datasets. Especificamente, vamos utilizar apenas o arquivo olist.csv. Baixe o arquivo olist.csv e memorize o caminho.

A Olist é uma loja de departamentos brasileiros e esta lançou um desafio na plataforma Kaggle e disponibilizou o banco de dados Brazilian E-Commerce Public Dataset, com aproximadamente 100.000 pedidos realizados de 2016 a 2018 em vários marketplaces no Brasil.

* Execute este notebook pausadamente buscando compreender a entrada e saída de cada comando.


# 1.1 Porque é importante pré-processar textos?
O texto original pode conter caracteres, palavras ou frases irrelevantes para a análise;
Um termo pode estar presente em um documento sob diferentes formas.






---



*A seguir importaremos algumas bibliotecas necessárias para execução deste exemplo.*

In [None]:
import pandas as pd
import numpy as np

*No nosso caso, nossos conjuntos de dados estão armazenados no próprio drive/ núvem google drive. Por isso estamos apontaando para este lugar na linha abaixo. Se o seu arquivo estiver na sua máquina ou outro lugar você precisa explicitar o caminho para a leitura correta.*

In [None]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [None]:
df_original = pd.read_csv('/content/drive/MyDrive/nlp_m6/olist.csv') #caminho da pasta no drive onde está o olist.csv

Na linha abaixo, estamos chamando a variável df_original, uma estrutura Dataframe a qual recebeu o arquivo olist.csv. Um arquivo que possui 41.744 linhas e 8 colunas. Observe que temos 8 colunas, mas neste momento observe principalemente a coluna **review_text** e **polarity** que são comentários sobre os produtos e a polaridade (respectivamente). Observe que se a polaridade é 1.0 o comentário é positivo e se a polaridade é 0.0 o comentário é negativo.

In [None]:
df_original

Unnamed: 0,original_index,review_text,review_text_processed,review_text_tokenized,polarity,rating,kfold_polarity,kfold_rating
0,97262,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,"['perfeito', 'chegou', 'antes', 'do', 'prazo']",1.0,5,1,1
1,72931,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,"['foi', 'uma', 'otima', 'compra', 'chegou', 'a...",1.0,5,1,1
2,19659,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,"['recebi', 'muito', 'rapido', 'um', 'otimo', '...",1.0,5,1,1
3,43054,Recomendo,recomendo,['recomendo'],1.0,5,1,1
4,59202,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,"['so', 'veio', 'uma', 'capa', 'comprei', 'ai',...",0.0,1,1,1
...,...,...,...,...,...,...,...,...
41739,49725,SUCESSO :D,sucesso :d,['sucesso'],1.0,5,10,10
41740,76794,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,"['tudo', 'ok', 'produto', 'entregue', 'no', 'p...",1.0,5,10,10
41741,72847,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,"['ultimamente', 'estao', 'atrasando', 'muito',...",0.0,1,10,10
41742,50905,recomendo,recomendo,['recomendo'],1.0,5,10,10


*Observe o comendo necessário para acessar a coluna review_text, linha 1 da tabela df_original*




In [None]:
df_original.iloc[1]['review_text']

'Foi uma ótima compra! Chegou antes mesmo do prazo e o produto é igual o que estava no anúncio. Correspondeu as expectativas!'

*Podemos não estar interessados em outras colunas do conjunto de dados. No comando a seguir definimos quais as colunas queremos manter.*

In [None]:
df = df_original[['review_text', 'review_text_processed', 'polarity']]
df

Unnamed: 0,review_text,review_text_processed,polarity
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0
3,Recomendo,recomendo,1.0
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0
...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0
41742,recomendo,recomendo,1.0


In [None]:
df.iloc[1]['review_text_processed']

'foi uma otima compra! chegou antes mesmo do prazo e o produto e igual o que estava no anuncio. correspondeu as expectativas!'

In [None]:
exemplo = 'EXCELENTE!! Valeu demais passar um tempo pesquisando preços, pois encontrei esse ótimo carregador de celular, nota 10.'


# 1.2 Relembrando alguns conceitos
* Token: termo de uma sentença, uma ocorrência particular de uma palavra especı́fica em um texto
* Corpus: uma coleção de documentos/sentenças/frases
* Corpora: coletivo de corpus
* Corpus: Conjunto de textos
* Vocabulário: todas as palavras únicas em uma coleção de documentos de texto.

# Normalizar capitalização

*No exemplo a seguir vamos normalizar o texto, colocando todos os caracteres em minúsculo.*

In [None]:
print ("Antes de normalizar: \n")
print(exemplo)
exemplo = exemplo.lower()
print ("\n\n")
print ("Depois de de normalizar: \n")
print(exemplo)

Antes de normalizar: 

EXCELENTE!! Valeu demais passar um tempo pesquisando preços, pois encontrei esse ótimo carregador de celular, nota 10.



Depois de de normalizar: 

excelente!! valeu demais passar um tempo pesquisando preços, pois encontrei esse ótimo carregador de celular, nota 10.


## *Observe a coluna review_text do dataframe df. Vamos normalizá-la? *

In [None]:
df['review_text']

Unnamed: 0,review_text
0,Perfeito....chegou antes do prazo.....
1,Foi uma ótima compra! Chegou antes mesmo do pr...
2,Recebi muito rapido e um otimo custo beneficio
3,Recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...
...,...
41739,SUCESSO :D
41740,Tudo OK. Produto entregue no prazo correto.
41741,Ultimamente estão atrasando muito as entregas
41742,recomendo


## *Vamos normalizar a coluna toda? A função apply recebe uma outra função e a aplica a cada elemento de uma coluna ou linha de um DataFrame. Neste caso, vamos aplicar a função lower a cada item x de df['review_text'].*



In [None]:
df['review_preproc'] = df['review_text'].apply(lambda x: x.lower())
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['review_preproc'] = df['review_text'].apply(lambda x: x.lower())


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito....chegou antes do prazo.....
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma ótima compra! chegou antes mesmo do pr...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,só veio uma capa comprei 3 aí paguei. mais de ...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso :d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok. produto entregue no prazo correto.
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estão atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo


# 1.3 Retirar Pontuação:

*Um pré-processamento necessário em algumas aplicações é o de remover pontuações.*

* Opção 1 para remoção de caracteres: Analisar caractere a caractere e mandar na string sem pontuação somente os caracteres desejáveis.

In [None]:
exemplo_sem_punct = "".join(u for u in exemplo if u not in ("?", ".", ";", ":", "!", ","))
exemplo_sem_punct

'excelente valeu demais passar um tempo pesquisando preços pois encontrei esse ótimo carregador de celular nota 10'

* Opção 2: Usar o RegexTokenizer da lib NLTK [https://www.nltk.org/](https://https://www.nltk.org/)


In [None]:
from nltk.tokenize import RegexpTokenizer

# com '\w+' selecionamos apenas tokens de palavras ou dígitos
tokenizer = RegexpTokenizer(r'\w+')


In [None]:
exemplo = ' '.join(tokenizer.tokenize(exemplo))
exemplo

'excelente valeu demais passar um tempo pesquisando preços pois encontrei esse ótimo carregador de celular nota 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(tokenizer.tokenize(x)))
df


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(tokenizer.tokenize(x)))


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes do prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma ótima compra chegou antes mesmo do pra...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,só veio uma capa comprei 3 aí paguei mais de 1...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue no prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estão atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo


# 1.4 Retirar acentos
* Processar caracteres em ascii é uma boa prática, por isso retiramos acentos.

* Opção 1: Criar um mapeamento de caracteres acentuados para caracteres sem acento

In [None]:
repl = str.maketrans(
    "áéúíó",
    "aeuio"
)
palavra = 'ótimo'
palavra.translate(repl)

'otimo'

* Opção 2: Usar lib unidecode, https://github.com/avian2/unidecode.

In [None]:
!pip install unidecode
import unidecode

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


In [None]:
exemplo.split()

['excelente',
 'valeu',
 'demais',
 'passar',
 'um',
 'tempo',
 'pesquisando',
 'preços',
 'pois',
 'encontrei',
 'esse',
 'ótimo',
 'carregador',
 'de',
 'celular',
 'nota',
 '10']

In [None]:
exemplo = ' '.join([unidecode.unidecode(termo) for termo in exemplo.split()])
exemplo


'excelente valeu demais passar um tempo pesquisando precos pois encontrei esse otimo carregador de celular nota 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([unidecode.unidecode(termo) for termo in x.split()]))
df



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([unidecode.unidecode(termo) for termo in x.split()]))


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes do prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma otima compra chegou antes mesmo do pra...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi muito rapido e um otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so veio uma capa comprei 3 ai paguei mais de 1...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue no prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estao atrasando muito as entregas
41742,recomendo,recomendo,1.0,recomendo



# 1.5 Retirar *stopwords*
* Dentro de um vocabulário, podem existir termos que se repetem muito e agregam pouca informação. Isso costuma acontecer com preposições e artigos, por exemplo. As palavras que ocorrem nesse sentido são separadas em uma lista, e então removidas. *Referência complementar: https://www.nltk.org/howto/portuguese_en.html*

* Opção 1: Podemos manualmente setar termos para retirada em uma lista


In [None]:
stopwords = ['de', 'para', 'uma', 'o', 'e'] # aqui listamos as palavras que mais se repetem, de acordo com o domínio de aplicação

* Opção 2: Podemos usar a lista de stopwords compilada pela lib NLTK

In [None]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese') # este é um conjunto de palavras elencado por especialistas, os quais via estudo, identificaram que se repetem com frequencia.


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


*Veja quais são estas palavras:*

In [None]:
stopwords

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

# *Vamos remover as stopwords do nosso exemplo?*:

In [None]:
exemplo = ' '.join([termo for termo in exemplo.split() if termo not in stopwords])
exemplo

'excelente valeu demais passar tempo pesquisando precos pois encontrei otimo carregador celular nota 10'

#*Vamos aplicar a remoção de stopwords em toda a coluna 'review_preproc'?*

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([termo for termo in x.split() if termo not in stopwords]))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join([termo for termo in x.split() if termo not in stopwords]))


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeito chegou antes prazo
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,otima compra chegou antes prazo produto igual ...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,recebi rapido otimo custo beneficio
3,Recomendo,recomendo,1.0,recomendo
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so veio capa comprei 3 ai paguei 100 reais capa
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucesso d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tudo ok produto entregue prazo correto
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultimamente estao atrasando entregas
41742,recomendo,recomendo,1.0,recomendo


# 1.6 Stemmização

* O objetivo do processo de stemmização é remover a terminação ou os últimos caracteres de uma palavra, de forma a deixar apenas o radical da mesma. Podem ser removidos, por exemplo, sufixos e vogais temáticas verbais.

* Exemplo:

1.   Termos: Correr, correndo, correrei, ...
Termo derivado da transformação após aplicação do stemmer: corr ou corre, a depender da implementação do algoritmo.
Referência complementar: [https://www.datacamp.com/community/tutorials/stemming-lemmatization-python](https://www.datacamp.com/community/tutorials/stemming-lemmatization-python)


O algoritmo de stemmização 'rslp' usado via nltk foi proposto no artigo  "A Stemming Algorithm for the Portuguese Language" by Viviane Moreira Orengo and Christian Huyck.




In [None]:
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


In [None]:
exemplo = ' '.join([stemmer.stem(termo) for termo in exemplo.split()])
exemplo


'excel val demal pass temp pesquis prec poi encontr otim carreg celul not 10'

In [None]:
df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(stemmer.stem(termo) for termo in x.split()))
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['review_preproc'] = df['review_preproc'].apply(lambda x: ' '.join(stemmer.stem(termo) for termo in x.split()))


Unnamed: 0,review_text,review_text_processed,polarity,review_preproc
0,Perfeito....chegou antes do prazo.....,perfeito....chegou antes do prazo.....,1.0,perfeit cheg ant do praz
1,Foi uma ótima compra! Chegou antes mesmo do pr...,foi uma otima compra! chegou antes mesmo do pr...,1.0,foi uma otim compr cheg ant mesm do praz e o p...
2,Recebi muito rapido e um otimo custo beneficio,recebi muito rapido e um otimo custo beneficio,1.0,receb muit rap e um otim cust benefici
3,Recomendo,recomendo,1.0,recom
4,Só veio uma capa comprei 3 aí paguei. Mais de ...,so veio uma capa comprei 3 ai paguei. mais de ...,0.0,so vei uma cap compr 3 ai pag mais de 100 real...
...,...,...,...,...
41739,SUCESSO :D,sucesso :d,1.0,sucess d
41740,Tudo OK. Produto entregue no prazo correto.,tudo ok. produto entregue no prazo correto.,1.0,tud ok produt entreg no praz corret
41741,Ultimamente estão atrasando muito as entregas,ultimamente estao atrasando muito as entregas,0.0,ultim esta atras muit as entreg
41742,recomendo,recomendo,1.0,recom


# 1.7 Preciso sempre usar todas essas técnicas?:

Não. O importante é analisar o tipo de texto que se está lidando, o objetivo da tarefa e o algoritmo que será usado após isso. A análise cuidadosa do domínio e problema ajudam a alcançar o objetivo pretendido.

#  1.8 Desafios

1. **Implementação de *Stopwords* Personalizadas:**
   - Pergunta: Como você pode adicionar sua própria lista de *stopwords* ao processo de pré-processamento?
    Sugestão: analise os textos do corpus Olist e identifique palavras específicas de domínio que se repetem com muita frequência.
   - Tarefa: Implemente um exemplo que remova *stopwords* personalizadas de um texto.

2. **Stemming *texto em itálico* vs Lematização:**
   - Pergunta: Qual é a diferença entre *stemming* e lematização?
   - Tarefa: Implemente um exemplo de *stemming* usando NLTK e compare os resultados com a lematização do spaCy (https://www.educative.io/answers/how-to-remove-stop-words-using-spacy-in-python).

