In [1]:
import pandas as pd

pd.set_option('display.max_colwidth', None)
pd.set_option('display.colheader_justify', 'left')

### 1. COLETA DE DADOS

- Escolher uma empresa real que utilize um e-commerce ao qual seja
poss√≠vel coletar informa√ß√µes das avalia√ß√µes reais realizadas por seus
clientes.

- Criar a base de dados contendo no m√≠nimo 20 avalia√ß√µes (positivas,
negativas e neutras). Esses dados podem estar armazenados em um
array de strings. Observa√ß√£o: essa etapa j√° foi realizada na atividade
`ESTUDO DE CASO: AN√ÅLISE DE SENTIMENTO DE AVALIA√á√ïES DE
PRODUTOS`.

In [2]:
# Caminho para o arquivo CSV contendo as avalia√ß√µes
data_src = 'db/dataset.csv'

# Leitura do arquivo CSV usando Pandas
data = pd.read_csv(data_src)

# Conta o n√∫mero total de linhas (avalia√ß√µes)
total_linhas = data.shape[0]

# Exibe todas as avalia√ß√µes coletadas
data.head(total_linhas)


Unnamed: 0,Avalia√ß√£o,Classe
0,"√â amplamente elogiado por sua rapidez, √≥tima c√¢mera e bateria dur√°vel, al√©m de n√£o travar durante o uso. O aparelho tamb√©m √© apreciado por suas fun√ß√µes adicionais como NFC e Smart View, e pelo excelente custo-benef√≠cio.",Positivo
1,"Gostei bastante, a tela tem um √≥timo tamanho... achei bem satisfat√≥rio para o pre√ßo do celular, n√£o tenho com o que reclamar por enquanto, estou bem satisfeito!",Positivo
2,"Celular muito bonito, veio tudo certinho!! s√≥ n√£o gostei pq n√£ embalaram o cell em um saco bolha, e a caixa veio sem nenhuma prote√ß√£o! mas o telefone n√£o tem nenhum arranh√£o. Tirando isso, tudo certo.",Neutro
3,Dei de presente pra minha esposa... Por enquanto tudo certo.,Neutro
4,"Por enquanto estou achando muito bom, fotos boas, respostas r√°pidas da biometria, al√©m disso tem o smart view... fora isso ele √© muito bom. Obs o carregador √© fraco demorar para carregar o telefone um pouco.",Positivo
5,"Produto muito bom bateria dura bastante s√≥ n√£o gostei do tamanho, estou acostumado com celular maior,mas pra quem gosta recomendo podem comprar sem medo.",Positivo
6,"O produto tem um design lindo, por√©m tem pouca durabilidade em rela√ß√£o √† bateria... S√≥ n√£o fa√ßo a devolu√ß√£o devido a necessidade que eu tenho em rela√ß√£o ao aparelho.",Neutro
7,"Eu n√£o tive muito sorte com essa compra, esse celular est√° com um m√™s de uso e t√° travando... ele n√£o obedece.",Negativo
8,"A qualidade das c√¢meras deixa muito a desejar, mas para um b√°sico, d√° pro gasto... precisa adquirir um separadamente.",Neutro
9,"Celular mediano, esperava mais por ser samsung... travando o app usado no momento fazendo com que voc√™ desigualdade tela para reiniciar o app.",Negativo


### 2. LIMPEZA DE TEXTO

- Deve ser realizada a remo√ß√£o de caracteres especiais, n√∫meros ou
s√≠mbolos indesejados. √â uma etapa opcional, portanto, se a base de
dados n√£o possuir essas informa√ß√µes, basta pular essa etapa.

#### Explica√ß√£o:

- **Remover emojis e caracteres especiais**: A fun√ß√£o `re.sub()` usa uma express√£o regular para remover tudo o que n√£o √© letra, n√∫mero, espa√ßo ou v√≠rgula.

- **Remover aspas duplas**: A fun√ß√£o `replace()` remove as aspas duplas do texto, o que pode prevenir erros de formata√ß√£o em CSV.

- **Aplica√ß√£o da fun√ß√£o**: A fun√ß√£o `clean_text()` √© aplicada a todas as c√©lulas contendo texto no DataFrame data, e os dados limpos s√£o salvos em um novo arquivo CSV chamado `dataset_cleaned.csv`.

In [3]:
import re

def clean_text(text):
    # Remover qualquer coisa que n√£o seja uma letra, n√∫mero, espa√ßo ou v√≠rgula
    text = re.sub(r'[^\w\s,]', '', text)

    # Remover aspas duplas
    text = text.replace('"', '')

    return text

data = data.apply(lambda x: clean_text(x) if isinstance(x, str) else x)

data.to_csv('db/dataset_cleaned.csv', index=False)

data.head(total_linhas)

Unnamed: 0,Avalia√ß√£o,Classe
0,"√â amplamente elogiado por sua rapidez, √≥tima c√¢mera e bateria dur√°vel, al√©m de n√£o travar durante o uso. O aparelho tamb√©m √© apreciado por suas fun√ß√µes adicionais como NFC e Smart View, e pelo excelente custo-benef√≠cio.",Positivo
1,"Gostei bastante, a tela tem um √≥timo tamanho... achei bem satisfat√≥rio para o pre√ßo do celular, n√£o tenho com o que reclamar por enquanto, estou bem satisfeito!",Positivo
2,"Celular muito bonito, veio tudo certinho!! s√≥ n√£o gostei pq n√£ embalaram o cell em um saco bolha, e a caixa veio sem nenhuma prote√ß√£o! mas o telefone n√£o tem nenhum arranh√£o. Tirando isso, tudo certo.",Neutro
3,Dei de presente pra minha esposa... Por enquanto tudo certo.,Neutro
4,"Por enquanto estou achando muito bom, fotos boas, respostas r√°pidas da biometria, al√©m disso tem o smart view... fora isso ele √© muito bom. Obs o carregador √© fraco demorar para carregar o telefone um pouco.",Positivo
5,"Produto muito bom bateria dura bastante s√≥ n√£o gostei do tamanho, estou acostumado com celular maior,mas pra quem gosta recomendo podem comprar sem medo.",Positivo
6,"O produto tem um design lindo, por√©m tem pouca durabilidade em rela√ß√£o √† bateria... S√≥ n√£o fa√ßo a devolu√ß√£o devido a necessidade que eu tenho em rela√ß√£o ao aparelho.",Neutro
7,"Eu n√£o tive muito sorte com essa compra, esse celular est√° com um m√™s de uso e t√° travando... ele n√£o obedece.",Negativo
8,"A qualidade das c√¢meras deixa muito a desejar, mas para um b√°sico, d√° pro gasto... precisa adquirir um separadamente.",Neutro
9,"Celular mediano, esperava mais por ser samsung... travando o app usado no momento fazendo com que voc√™ desigualdade tela para reiniciar o app.",Negativo


### 3. TOKENIZA√á√ÉO

- Dividir cada texto (avalia√ß√£o) em palavras (tokens) ou frases (senten√ßas).
Isso √© essencial para as an√°lises subsequentes.


O c√≥digo usa a biblioteca `NLTK` para realizar a tokeniza√ß√£o das avalia√ß√µes de produtos. Ele extrai as avalia√ß√µes de um **DataFrame**, converte-as para uma lista de strings e depois divide cada string em tokens (palavras). Esse processo √© fundamental para a an√°lise de sentimentos, pois permite que o modelo de **PLN** identifique padr√µes lingu√≠sticos nas avalia√ß√µes.

In [4]:
import nltk

# Lista com as avalia√ß√µes
texts = data.iloc[:, 0].tolist()
print(f'Avalia√ß√µes: \n{texts}\n\n')

tokenized = [nltk.word_tokenize(text) for text in texts]

print(f'Avalia√ß√µes tokenizadas: \n{tokenized}')




Avalia√ß√µes: 
['√â amplamente elogiado por sua rapidez, √≥tima c√¢mera e bateria dur√°vel, al√©m de n√£o travar durante o uso. O aparelho tamb√©m √© apreciado por suas fun√ß√µes adicionais como NFC e Smart View, e pelo excelente custo-benef√≠cio.', 'Gostei bastante, a tela tem um √≥timo tamanho... achei bem satisfat√≥rio para o pre√ßo do celular, n√£o tenho com o que reclamar por enquanto, estou bem satisfeito!', 'Celular muito bonito, veio tudo certinho!! s√≥ n√£o gostei pq n√£ embalaram o cell em um saco bolha, e a caixa veio sem nenhuma prote√ß√£o! mas o telefone n√£o tem nenhum arranh√£o. Tirando isso, tudo certo.', 'Dei de presente pra minha esposa... Por enquanto tudo certo.', 'Por enquanto estou achando muito bom, fotos boas, respostas r√°pidas da biometria, al√©m disso tem o smart view... fora isso ele √© muito bom. Obs o carregador √© fraco demorar para carregar o telefone um pouco.', 'Produto muito bom bateria dura bastante s√≥ n√£o gostei do tamanho, estou acostumado com ce

### 4. NORMALIZA√á√ÉO
- `LOWERCASING`: Converter todo o texto para min√∫sculas para evitar
duplica√ß√£o de palavras por causa de capitaliza√ß√£o.

- `RADICALIZA√á√ÉO`: Remover os sufixos de palavras para chegar a raiz,
embora isso possa ser menos preciso que a lematiza√ß√£o dependendo do
contexto.

In [5]:
# Lowercasing
words = [[word.lower() for word in review] for review in tokenized]
print(f'Palavras convertidas para letras minusculas: \n{words}\n\n')

# Radicaliza√ß√£o
snowballStemmer = nltk.SnowballStemmer('portuguese')

radicalized = [[snowballStemmer.stem(word) for word in review] for review in words]
print(f'Remo√ß√£o dos sufixos para chegar a raiz (Radicaliza√ß√£o): \n{radicalized}\n\n')


Palavras convertidas para letras minusculas: 
[['√©', 'amplamente', 'elogiado', 'por', 'sua', 'rapidez', ',', '√≥tima', 'c√¢mera', 'e', 'bateria', 'dur√°vel', ',', 'al√©m', 'de', 'n√£o', 'travar', 'durante', 'o', 'uso', '.', 'o', 'aparelho', 'tamb√©m', '√©', 'apreciado', 'por', 'suas', 'fun√ß√µes', 'adicionais', 'como', 'nfc', 'e', 'smart', 'view', ',', 'e', 'pelo', 'excelente', 'custo-benef√≠cio', '.'], ['gostei', 'bastante', ',', 'a', 'tela', 'tem', 'um', '√≥timo', 'tamanho', '...', 'achei', 'bem', 'satisfat√≥rio', 'para', 'o', 'pre√ßo', 'do', 'celular', ',', 'n√£o', 'tenho', 'com', 'o', 'que', 'reclamar', 'por', 'enquanto', ',', 'estou', 'bem', 'satisfeito', '!'], ['celular', 'muito', 'bonito', ',', 'veio', 'tudo', 'certinho', '!', '!', 's√≥', 'n√£o', 'gostei', 'pq', 'n√£', 'embalaram', 'o', 'cell', 'em', 'um', 'saco', 'bolha', ',', 'e', 'a', 'caixa', 'veio', 'sem', 'nenhuma', 'prote√ß√£o', '!', 'mas', 'o', 'telefone', 'n√£o', 'tem', 'nenhum', 'arranh√£o', '.', 'tirando', 'isso', ',

### 5. REMO√á√ÉO DE STOPWORDS

- `Stop words` s√£o palavras comuns (artigos, pronomes, adv√©rbios,
preposi√ß√µes, entre outras) que muitas vezes s√£o removidas, pois podem
n√£o contribuir para a an√°lise que est√° sendo realizada.

In [6]:
stopwords = nltk.corpus.stopwords.words('portuguese')

responses = [[word for word in review if word not in stopwords] for review in words]
print(f'Avalia√ß√µes sem stopwords: \n{responses}\n\n')

# Radicaliza√ß√£o sem as stopwords
responses_radicalized = [[snowballStemmer.stem(word) for word in review] for review in responses]
print(f'Avalia√ß√µes sem stopwords e radicalizada: \n{responses_radicalized}\n\n')

Avalia√ß√µes sem stopwords: 
[['amplamente', 'elogiado', 'rapidez', ',', '√≥tima', 'c√¢mera', 'bateria', 'dur√°vel', ',', 'al√©m', 'travar', 'durante', 'uso', '.', 'aparelho', 'apreciado', 'fun√ß√µes', 'adicionais', 'nfc', 'smart', 'view', ',', 'excelente', 'custo-benef√≠cio', '.'], ['gostei', 'bastante', ',', 'tela', '√≥timo', 'tamanho', '...', 'achei', 'bem', 'satisfat√≥rio', 'pre√ßo', 'celular', ',', 'reclamar', 'enquanto', ',', 'bem', 'satisfeito', '!'], ['celular', 'bonito', ',', 'veio', 'tudo', 'certinho', '!', '!', 'gostei', 'pq', 'n√£', 'embalaram', 'cell', 'saco', 'bolha', ',', 'caixa', 'veio', 'nenhuma', 'prote√ß√£o', '!', 'telefone', 'nenhum', 'arranh√£o', '.', 'tirando', ',', 'tudo', 'certo', '.'], ['dei', 'presente', 'pra', 'esposa', '...', 'enquanto', 'tudo', 'certo', '.'], ['enquanto', 'achando', 'bom', ',', 'fotos', 'boas', ',', 'respostas', 'r√°pidas', 'biometria', ',', 'al√©m', 'disso', 'smart', 'view', '...', 'bom', '.', 'obs', 'carregador', 'fraco', 'demorar', 'carr

### 6. EXTRA√á√ÉO DE CARACTER√çSTICAS

- Extraia as seguintes caracter√≠sticas da base de dados: quantidade de
registros, quantidade de tokens e quantidade de types.

- Realize a opera√ß√£o de `POS Tagging` (Part-of-Speech Tagging). O `POS
Tagging` √© o processo de marcar as palavras em um texto com suas
respectivas categorias gramaticais, como substantivos, verbos, adjetivos,
entre outros.

In [7]:
# Contagem de registros (avalia√ß√µes)
print(f'Quantidade de registros: {total_linhas}')

# Contagem de tokens
num_tokens = sum(len(token_list) for token_list in tokenized)
print(f'Quantidade de tokens: {num_tokens}')

# Contagem de types (palavras √∫nicas)
types = set(word.lower() for token_list in tokenized for word in token_list)
num_types = len(types)
print(f'Quantidade de types (tipos √∫nicos de tokens): {num_types}')
print(f'Types: {types}\n')

# POS Tagging
pos_tagged = [nltk.pos_tag(review) for review in responses]
print(f'POS Tagging: \n{pos_tagged}\n\n')

# An√°lise sem√¢ntica (Chunking)
chunks = [nltk.ne_chunk(tagged) for tagged in pos_tagged]
print(f'Chunks: \n{chunks}\n\n')

Quantidade de registros: 21
Quantidade de tokens: 578
Quantidade de types (tipos √∫nicos de tokens): 258
Types: {'presente', 'metade', 'mediano', 'liga√ß√µes', '...', 'come√ßou', 'faz', 'arranh√£o', '√°udio', 'cima', 'abrir', 'devido', 'app', 'fui', 'embalaram', '√©', 'eles', 'das', 'fosse', 'tudo', 'saco', '.', 'c√¢mera', 'achando', 'carregador', 'mes', 'separadamente', 'al√©m', 'bom', 'certinho', 'ilegal', 'ruim', 'n√£o', '2', 'sua', 'tarefas', 'carregar', 'preju√≠zo', 't√°', 'achei', 'p√©ssima', 'na', 'dele', 'devolu√ß√£o', 'smart', 'tamb√©m', 'travamento', 'celular', 'telefone', 'gosta', 'poucos', 'bolha', 'podem', 'dei', 's√≥', 'pouca', 'total', 'problema', 'entre', 'encaixaram', 'q', 'rapidez', 'carregou', 'ter', 'comprei', 'consumidor', 'estou', 'eu', 'caixa', 'fiquei', 'como', 'que', 'ser', '√≥timo', 'prote√ß√£o', 'usado', 'forma', 'com', 'recomendo', 'fa√ßo', 'do', 'carregando', 'satisfeito', 'sem', 'parece', 'bastante', 'experi√™ncia', 'üëé', 'voc√™', 'd√°', 'onde', 'o', 'pr