# Classificação com base em Regex

Como baseline, vamos buscar classificar as reviews em classes. Para isso, vamos primeiro identificar qual o tópico do qual a review trata (pode ser mais de um) a partir da identificação de palavaras (regex). 

Dessa forma, primeiramente foram definidas os seguintes tópicos que uma review pode falar, e as respectivas palavras que identificam esse tópico:

- Entrega do produto no sentido temporal 

    ['prazo', 'entrega', 'atraso', 'rápido', 'antes', 'estipulado', 'data', 'frete',
         'tempo', 'ainda', 'chegou', 'demorado', 'rapidez']

- Estado do produto ao chegar

    embalagem = ['danificado', 'embalado', 'lacre', 'rompido', 'estragado', 'quebrado', 'pacote', 'amassado',
            'caixa', 'vedada', 'intacto']

- Atendimento da loja

    atendimento = ['responder', 'responderam', 'contato', 'retornar', 'explicação', 'reclamação', 'loja', 
               'vendedor', 'americanas', 'atendimento']

- qualidade do produto

    produto = ['qualidade', 'ótimo', 'perfeito', 'bonito', 'interessante', 'amei', 'pessimo', 'fraco',
           'som', 'design', 'benefício', 'funciona', 'excelente', 'regular', 'caro', 'barato', 'preço']

A lista atualizada de palavras que categorizam cada tópico pode ser encontrada na pasta resources. A partir da topificação das reviews podemos definir a classe como sendo a combinação dos tópicos identificados

In [1]:
import os

os.chdir('../../../')
os.getcwd()

'/Users/brunogutierrez/workspace/tese'

Objetivo: comparar classificação com e sem stemmização

In [12]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from src.Dataloaders.b2w_dataset import B2W
from src.text_preprocessing import TextPreprocessing
from src.text_representation import *
from src.regex_review_classification import *

In [13]:
%%time
b2w = B2W()
b2w.pre_process()
df = b2w.df.sample(frac=0.2)

2023 linhas deletadas por terem menos de 3 palavras
2179 linhas deletadas por terem reviews iguais
CPU times: user 3.25 s, sys: 513 ms, total: 3.76 s
Wall time: 4.77 s


## Pré Processamento do texto

In [14]:
text_preprocessor = TextPreprocessing(df.copy(), 'full_review')
text_preprocessor_no_stemming = TextPreprocessing(df.copy(), 'full_review')

In [15]:
%%time
df_stem = text_preprocessor.pre_process()
df = text_preprocessor_no_stemming.pre_process(stemming=False)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/brunogutierrez/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


<WordListCorpusReader in '/Users/brunogutierrez/nltk_data/corpora/stopwords'>
<WordListCorpusReader in '/Users/brunogutierrez/nltk_data/corpora/stopwords'>
CPU times: user 18.1 s, sys: 180 ms, total: 18.3 s
Wall time: 19.9 s


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/brunogutierrez/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [16]:
 df_stem['clean_text'].sample(3)

71369     gost super expect bom design bonit facil manus...
102753    pen nao pod aspir liqu fal especificaca compr ...
96076     parec lix outr avaliaca ja vi entulh obra melh...
Name: clean_text, dtype: object

In [17]:
 df['clean_text'].sample(3)

56161    ruim nao gostei achei fininha qualidade nao re...
27607    cooktop tudo bom funciona maravilhosamente ent...
88970    smartphone lindo funcional celular alem lindo ...
Name: clean_text, dtype: object

### Classificação com base em regex

Podemos fazer a classificação de cada review a partir da identificação das palavras que denotam cada classe. Podemos fazer usando stemming ou não.

In [18]:
df = regex_classification(df.copy(), stemming=False)
df['review_class'].value_counts()

produto                                7616
Nao identificado                       5800
produto-prazo                          5031
prazo                                  3915
atendimento-prazo                       696
atendimento-produto-prazo               678
atendimento                             431
atendimento-produto                     368
produto-prazo-embalagem                 293
prazo-embalagem                         230
produto-embalagem                       191
embalagem                               186
atendimento-produto-prazo-embalagem      60
atendimento-prazo-embalagem              45
atendimento-embalagem                    44
atendimento-produto-embalagem            36
Name: review_class, dtype: int64

In [21]:
df_stem['clean_text'].sample()

40094    excelent comput apos temp uso perceb otim comp...
Name: clean_text, dtype: object

In [19]:
df_stem = regex_classification(df_stem.copy())
df_stem['review_class'].value_counts()

produto                                7636
produto-prazo                          5621
Nao identificado                       3778
prazo                                  2797
atendimento-produto-prazo              1498
atendimento-produto                    1288
atendimento                             621
atendimento-prazo                       560
produto-prazo-embalagem                 532
produto-embalagem                       410
embalagem                               288
prazo-embalagem                         235
atendimento-produto-prazo-embalagem     157
atendimento-produto-embalagem            91
atendimento-embalagem                    55
atendimento-prazo-embalagem              53
Name: review_class, dtype: int64

In [None]:
df_s['full_review'].sample(3).values

array(['otimas e resistentes. ............................................................................................................................',
       'produto muito fragil. produto muito fragil, não atende minhas necessidades',
       'Livro didático. '], dtype=object)

In [None]:
snowball = SnowballStemmer(language='portuguese')

prazo_stem = [snowball.stem(y) for y in prazo]
embalagem_stem = [snowball.stem(y) for y in embalagem]
atendimento_stem = [snowball.stem(y) for y in atendimento]
produto_stem = [snowball.stem(y) for y in produto]

In [13]:
# obs: parece nao funcionar tão bem - rápido e rapidez
prazo_stem

['praz',
 'entreg',
 'atras',
 'rap',
 'antes',
 'estipul',
 'dat',
 'fret',
 'temp',
 'aind',
 'cheg',
 'demor',
 'rapidez']

In [18]:
df[['prazo_dimension', 'embalagem_dimension', 
    'atendimento_dimension', 'produto_dimension']].sum()

prazo_dimension          11508
embalagem_dimension       1830
atendimento_dimension     1557
produto_dimension        16024
dtype: int64

In [19]:
df[['clean_text', 'prazo_dimension', 'embalagem_dimension', 
    'atendimento_dimension', 'produto_dimension']].sample()

Unnamed: 0,clean_text,prazo_dimension,embalagem_dimension,atendimento_dimension,produto_dimension
128291,qualidad boa gost produt surpreend qualidad,False,False,False,True


In [64]:
# criar classes duplas
df['dimensao'] = ''

dimensoes = ['prazo', 'embalagem', 'atendimento', 'produto']
for dim in dimensoes:
    
    df['dimensao'] = np.where(df[dim+'_dimension'], 
                              df['dimensao']+ dim, 
                              df['dimensao'] )

df['dimensao'] = df['dimensao'].replace({'': 'Nao identificado'}) 
df['dimensao']

111330         Nao identificado
122363                  produto
103650         Nao identificado
17815          Nao identificado
32892          Nao identificado
                  ...          
74039                   produto
37263                   produto
21628              prazoproduto
99943     prazoembalagemproduto
89774          Nao identificado
Name: dimensao, Length: 26460, dtype: object