In [1]:
import pandas as pd

pd.set_option('display.max_colwidth', None)
pd.set_option('display.colheader_justify', 'left')

### 1. COLETA DE DADOS

- Escolher uma empresa real que utilize um e-commerce ao qual seja
possível coletar informações das avaliações reais realizadas por seus
clientes.

- Criar a base de dados contendo no mínimo 20 avaliações (positivas,
negativas e neutras). Esses dados podem estar armazenados em um
array de strings. Observação: essa etapa já foi realizada na atividade
`ESTUDO DE CASO: ANÁLISE DE SENTIMENTO DE AVALIAÇÕES DE
PRODUTOS`.

In [2]:
# Caminho para o arquivo CSV contendo as avaliações
data_src = 'db/dataset.csv'

# Leitura do arquivo CSV usando Pandas
data = pd.read_csv(data_src)

# Conta o número total de linhas (avaliações)
total_linhas = data.shape[0]

# Exibe todas as avaliações coletadas
data.head(total_linhas)


Unnamed: 0,Avaliação,Classe
0,"É amplamente elogiado por sua rapidez, ótima câmera e bateria durável, além de não travar durante o uso. O aparelho também é apreciado por suas funções adicionais como NFC e Smart View, e pelo excelente custo-benefício.",Positivo
1,"Gostei bastante, a tela tem um ótimo tamanho... achei bem satisfatório para o preço do celular, não tenho com o que reclamar por enquanto, estou bem satisfeito!",Positivo
2,"Celular muito bonito, veio tudo certinho!! só não gostei pq nã embalaram o cell em um saco bolha, e a caixa veio sem nenhuma proteção! mas o telefone não tem nenhum arranhão. Tirando isso, tudo certo.",Neutro
3,Dei de presente pra minha esposa... Por enquanto tudo certo.,Neutro
4,"Por enquanto estou achando muito bom, fotos boas, respostas rápidas da biometria, além disso tem o smart view... fora isso ele é muito bom. Obs o carregador é fraco demorar para carregar o telefone um pouco.",Positivo
5,"Produto muito bom bateria dura bastante só não gostei do tamanho, estou acostumado com celular maior,mas pra quem gosta recomendo podem comprar sem medo.",Positivo
6,"O produto tem um design lindo, porém tem pouca durabilidade em relação à bateria... Só não faço a devolução devido a necessidade que eu tenho em relação ao aparelho.",Neutro
7,"Eu não tive muito sorte com essa compra, esse celular está com um mês de uso e tá travando... ele não obedece.",Negativo
8,"A qualidade das câmeras deixa muito a desejar, mas para um básico, dá pro gasto... precisa adquirir um separadamente.",Neutro
9,"Celular mediano, esperava mais por ser samsung... travando o app usado no momento fazendo com que você desigualdade tela para reiniciar o app.",Negativo


### 2. LIMPEZA DE TEXTO

- Deve ser realizada a remoção de caracteres especiais, números ou
símbolos indesejados. É uma etapa opcional, portanto, se a base de
dados não possuir essas informações, basta pular essa etapa.

#### Explicação:

- **Remover emojis e caracteres especiais**: A função `re.sub()` usa uma expressão regular para remover tudo o que não é letra, número, espaço ou vírgula.

- **Remover aspas duplas**: A função `replace()` remove as aspas duplas do texto, o que pode prevenir erros de formatação em CSV.

- **Aplicação da função**: A função `clean_text()` é aplicada a todas as células contendo texto no DataFrame data, e os dados limpos são salvos em um novo arquivo CSV chamado `dataset_cleaned.csv`.

In [3]:
import re

def clean_text(text):
    # Remover qualquer coisa que não seja uma letra, número, espaço ou vírgula
    text = re.sub(r'[^\w\s,]', '', text)

    # Remover aspas duplas
    text = text.replace('"', '')

    return text

data = data.apply(lambda x: clean_text(x) if isinstance(x, str) else x)

data.to_csv('db/dataset_cleaned.csv', index=False)

data.head(total_linhas)

Unnamed: 0,Avaliação,Classe
0,"É amplamente elogiado por sua rapidez, ótima câmera e bateria durável, além de não travar durante o uso. O aparelho também é apreciado por suas funções adicionais como NFC e Smart View, e pelo excelente custo-benefício.",Positivo
1,"Gostei bastante, a tela tem um ótimo tamanho... achei bem satisfatório para o preço do celular, não tenho com o que reclamar por enquanto, estou bem satisfeito!",Positivo
2,"Celular muito bonito, veio tudo certinho!! só não gostei pq nã embalaram o cell em um saco bolha, e a caixa veio sem nenhuma proteção! mas o telefone não tem nenhum arranhão. Tirando isso, tudo certo.",Neutro
3,Dei de presente pra minha esposa... Por enquanto tudo certo.,Neutro
4,"Por enquanto estou achando muito bom, fotos boas, respostas rápidas da biometria, além disso tem o smart view... fora isso ele é muito bom. Obs o carregador é fraco demorar para carregar o telefone um pouco.",Positivo
5,"Produto muito bom bateria dura bastante só não gostei do tamanho, estou acostumado com celular maior,mas pra quem gosta recomendo podem comprar sem medo.",Positivo
6,"O produto tem um design lindo, porém tem pouca durabilidade em relação à bateria... Só não faço a devolução devido a necessidade que eu tenho em relação ao aparelho.",Neutro
7,"Eu não tive muito sorte com essa compra, esse celular está com um mês de uso e tá travando... ele não obedece.",Negativo
8,"A qualidade das câmeras deixa muito a desejar, mas para um básico, dá pro gasto... precisa adquirir um separadamente.",Neutro
9,"Celular mediano, esperava mais por ser samsung... travando o app usado no momento fazendo com que você desigualdade tela para reiniciar o app.",Negativo


### 3. TOKENIZAÇÃO

- Dividir cada texto (avaliação) em palavras (tokens) ou frases (sentenças).
Isso é essencial para as análises subsequentes.


O código usa a biblioteca `NLTK` para realizar a tokenização das avaliações de produtos. Ele extrai as avaliações de um **DataFrame**, converte-as para uma lista de strings e depois divide cada string em tokens (palavras). Esse processo é fundamental para a análise de sentimentos, pois permite que o modelo de **PLN** identifique padrões linguísticos nas avaliações.

In [4]:
import nltk

# Lista com as avaliações
texts = data.iloc[:, 0].tolist()
print(f'Avaliações: \n{texts}\n\n')

tokenized = [nltk.word_tokenize(text) for text in texts]

print(f'Avaliações tokenizadas: \n{tokenized}')




Avaliações: 
['É amplamente elogiado por sua rapidez, ótima câmera e bateria durável, além de não travar durante o uso. O aparelho também é apreciado por suas funções adicionais como NFC e Smart View, e pelo excelente custo-benefício.', 'Gostei bastante, a tela tem um ótimo tamanho... achei bem satisfatório para o preço do celular, não tenho com o que reclamar por enquanto, estou bem satisfeito!', 'Celular muito bonito, veio tudo certinho!! só não gostei pq nã embalaram o cell em um saco bolha, e a caixa veio sem nenhuma proteção! mas o telefone não tem nenhum arranhão. Tirando isso, tudo certo.', 'Dei de presente pra minha esposa... Por enquanto tudo certo.', 'Por enquanto estou achando muito bom, fotos boas, respostas rápidas da biometria, além disso tem o smart view... fora isso ele é muito bom. Obs o carregador é fraco demorar para carregar o telefone um pouco.', 'Produto muito bom bateria dura bastante só não gostei do tamanho, estou acostumado com celular maior,mas pra quem gosta

### 4. NORMALIZAÇÃO
- `LOWERCASING`: Converter todo o texto para minúsculas para evitar
duplicação de palavras por causa de capitalização.

- `RADICALIZAÇÃO`: Remover os sufixos de palavras para chegar a raiz,
embora isso possa ser menos preciso que a lematização dependendo do
contexto.

In [5]:
# Lowercasing
words = [[word.lower() for word in review] for review in tokenized]
print(f'Palavras convertidas para letras minusculas: \n{words}\n\n')

# Radicalização
snowballStemmer = nltk.SnowballStemmer('portuguese')

radicalized = [[snowballStemmer.stem(word) for word in review] for review in words]
print(f'Remoção dos sufixos para chegar a raiz (Radicalização): \n{radicalized}\n\n')


Palavras convertidas para letras minusculas: 
[['é', 'amplamente', 'elogiado', 'por', 'sua', 'rapidez', ',', 'ótima', 'câmera', 'e', 'bateria', 'durável', ',', 'além', 'de', 'não', 'travar', 'durante', 'o', 'uso', '.', 'o', 'aparelho', 'também', 'é', 'apreciado', 'por', 'suas', 'funções', 'adicionais', 'como', 'nfc', 'e', 'smart', 'view', ',', 'e', 'pelo', 'excelente', 'custo-benefício', '.'], ['gostei', 'bastante', ',', 'a', 'tela', 'tem', 'um', 'ótimo', 'tamanho', '...', 'achei', 'bem', 'satisfatório', 'para', 'o', 'preço', 'do', 'celular', ',', 'não', 'tenho', 'com', 'o', 'que', 'reclamar', 'por', 'enquanto', ',', 'estou', 'bem', 'satisfeito', '!'], ['celular', 'muito', 'bonito', ',', 'veio', 'tudo', 'certinho', '!', '!', 'só', 'não', 'gostei', 'pq', 'nã', 'embalaram', 'o', 'cell', 'em', 'um', 'saco', 'bolha', ',', 'e', 'a', 'caixa', 'veio', 'sem', 'nenhuma', 'proteção', '!', 'mas', 'o', 'telefone', 'não', 'tem', 'nenhum', 'arranhão', '.', 'tirando', 'isso', ',', 'tudo', 'certo', '.

### 5. REMOÇÃO DE STOPWORDS

- `Stop words` são palavras comuns (artigos, pronomes, advérbios,
preposições, entre outras) que muitas vezes são removidas, pois podem
não contribuir para a análise que está sendo realizada.

In [6]:
stopwords = nltk.corpus.stopwords.words('portuguese')

responses = [[word for word in review if word not in stopwords] for review in words]
print(f'Avaliações sem stopwords: \n{responses}\n\n')

# Radicalização sem as stopwords
responses_radicalized = [[snowballStemmer.stem(word) for word in review] for review in responses]
print(f'Avaliações sem stopwords e radicalizada: \n{responses_radicalized}\n\n')

Avaliações sem stopwords: 
[['amplamente', 'elogiado', 'rapidez', ',', 'ótima', 'câmera', 'bateria', 'durável', ',', 'além', 'travar', 'durante', 'uso', '.', 'aparelho', 'apreciado', 'funções', 'adicionais', 'nfc', 'smart', 'view', ',', 'excelente', 'custo-benefício', '.'], ['gostei', 'bastante', ',', 'tela', 'ótimo', 'tamanho', '...', 'achei', 'bem', 'satisfatório', 'preço', 'celular', ',', 'reclamar', 'enquanto', ',', 'bem', 'satisfeito', '!'], ['celular', 'bonito', ',', 'veio', 'tudo', 'certinho', '!', '!', 'gostei', 'pq', 'nã', 'embalaram', 'cell', 'saco', 'bolha', ',', 'caixa', 'veio', 'nenhuma', 'proteção', '!', 'telefone', 'nenhum', 'arranhão', '.', 'tirando', ',', 'tudo', 'certo', '.'], ['dei', 'presente', 'pra', 'esposa', '...', 'enquanto', 'tudo', 'certo', '.'], ['enquanto', 'achando', 'bom', ',', 'fotos', 'boas', ',', 'respostas', 'rápidas', 'biometria', ',', 'além', 'disso', 'smart', 'view', '...', 'bom', '.', 'obs', 'carregador', 'fraco', 'demorar', 'carregar', 'telefone',

### 6. EXTRAÇÃO DE CARACTERÍSTICAS

- Extraia as seguintes características da base de dados: quantidade de
registros, quantidade de tokens e quantidade de types.

- Realize a operação de `POS Tagging` (Part-of-Speech Tagging). O `POS
Tagging` é o processo de marcar as palavras em um texto com suas
respectivas categorias gramaticais, como substantivos, verbos, adjetivos,
entre outros.

In [7]:
# Contagem de registros (avaliações)
print(f'Quantidade de registros: {total_linhas}')

# Contagem de tokens
num_tokens = sum(len(token_list) for token_list in tokenized)
print(f'Quantidade de tokens: {num_tokens}')

# Contagem de types (palavras únicas)
types = set(word.lower() for token_list in tokenized for word in token_list)
num_types = len(types)
print(f'Quantidade de types (tipos únicos de tokens): {num_types}')
print(f'Types: {types}\n')

# POS Tagging
pos_tagged = [nltk.pos_tag(review) for review in responses]
print(f'POS Tagging: \n{pos_tagged}\n\n')

# Análise semântica (Chunking)
chunks = [nltk.ne_chunk(tagged) for tagged in pos_tagged]
print(f'Chunks: \n{chunks}\n\n')

Quantidade de registros: 21
Quantidade de tokens: 578
Quantidade de types (tipos únicos de tokens): 258
Types: {'presente', 'metade', 'mediano', 'ligações', '...', 'começou', 'faz', 'arranhão', 'áudio', 'cima', 'abrir', 'devido', 'app', 'fui', 'embalaram', 'é', 'eles', 'das', 'fosse', 'tudo', 'saco', '.', 'câmera', 'achando', 'carregador', 'mes', 'separadamente', 'além', 'bom', 'certinho', 'ilegal', 'ruim', 'não', '2', 'sua', 'tarefas', 'carregar', 'prejuízo', 'tá', 'achei', 'péssima', 'na', 'dele', 'devolução', 'smart', 'também', 'travamento', 'celular', 'telefone', 'gosta', 'poucos', 'bolha', 'podem', 'dei', 'só', 'pouca', 'total', 'problema', 'entre', 'encaixaram', 'q', 'rapidez', 'carregou', 'ter', 'comprei', 'consumidor', 'estou', 'eu', 'caixa', 'fiquei', 'como', 'que', 'ser', 'ótimo', 'proteção', 'usado', 'forma', 'com', 'recomendo', 'faço', 'do', 'carregando', 'satisfeito', 'sem', 'parece', 'bastante', 'experiência', '👎', 'você', 'dá', 'onde', 'o', 'pra', 'sai', 'nã', 'texto', '