## [**Amazon Fine Food Reviews - Kaggle**](https://www.kaggle.com/datasets/snap/amazon-fine-food-reviews)

### Contexto e Conjunto de Dados

O conjunto de dados foi compilado a partir de avaliações de comidas feitas por usuários da Amazon. <br>
Ele inclui textos escritos livremente pelos consumidores relatando suas experiências com os produtos, além de informações estruturadas, como identificador do usuário, identificador do produto e a nota atribuída (de 1 a 5 estrelas). <br>

Essas avaliações permitem a construção de modelos de aprendizado de máquina capazes de prever a nota de um produto com base apenas no texto da avaliação. <br>

As 568.454 avaliações são divididas da seguinte forma, de acordo com a coluna Score:

- 1 estrela: avaliações muito negativas.
- 2 estrelas: avaliações negativas.
- 3 estrelas: avaliações neutras.
- 4 estrelas: avaliações positivas.
- 5 estrelas: avaliações muito positivas.

De modo a proporcionar uma classificação binária, as avaliações foram agrupadas da seguinte forma:

- **classe 0**: avaliações com menos estrelas (1, 2, 3 e 4 estrelas).
- **classe 1**: avaliações 5 estrelas.

<br> 


### ATENÇÃO: <br> $\quad$* Como você está em um grupo com no MÁXIMO DOIS alunos, este Jupyter irá fornecer um arquivo contendo uma amostra de sentenças de acordo com seu username.  <br>  $\quad$* Basta um arquivo por grupo.

<br>

In [1]:
import pandas as pd
import random
import os
from sklearn.model_selection import train_test_split

In [2]:
# Transforma string em inteiro
def nome_para_inteiro(nome):
    nome = nome.upper()  # Converter para maiúsculas para tratar maiúsculas e minúsculas da mesma forma
    valor_inteiro = 0
    
    for letra in nome:
        # Verificar se a letra está no alfabeto (A a Z)
        if 'A' <= letra <= 'Z':
            valor_inteiro += ord(letra) - ord('A') + 1  # Valor de 'A' é 1, 'B' é 2, ..., 'Z' é 26
    
    return valor_inteiro

In [3]:
os.listdir()

['Amazon-reviews-limpo.csv',
 'Cria base de dados Treino e Teste - ATE TRIO.ipynb',
 'Cria base de dados Treino e Teste - DUPLA.ipynb']

In [4]:
# Ler o arquivo de dados 
dados = pd.read_csv('Amazon-reviews-limpo.csv', encoding='utf-8-sig').iloc[:,1:]

#Reagrupamento dos dados
dados.loc[dados['Score']==5,'target'] = 1
dados.loc[dados['Score']<5,'target'] = 0
dados.drop(columns=['Score'], inplace=True)

# Visualização dos dados
dados.head()

Unnamed: 0,Summary,Text,target
0,Good Quality Dog Food,I have bought several of the Vitality canned d...,1.0
1,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...,0.0
2,"""Delight"" says it all",This is a confection that has been around a fe...,0.0
3,Cough Medicine,If you are looking for the secret ingredient i...,0.0
4,Great taffy,Great taffy at a great price. There was a wid...,1.0


In [5]:
print("\n",
      "Frequências de cada rótulo nos DADOS COMPLETO: \n",
      dados.target.value_counts())


 Frequências de cada rótulo nos DADOS COMPLETO: 
 target
1.0    363122
0.0    205332
Name: count, dtype: int64


--------
### ATENÇÃO: <p> Aqui você deverá colocar seu username para construção da sua base de dados a ser usada no Projeto 1

In [None]:
nome = "danielr"
valor_inteiro = nome_para_inteiro(nome)

63


In [14]:
# Separar as classes
dados_0 = dados[dados['target'] == 0].sample(n=1200, random_state=valor_inteiro)  # 1200 amostras de 0
dados_1 = dados[dados['target'] == 1].sample(n=1200, random_state=valor_inteiro)  # 1200 amostras de 1

# Combinar as amostras e embaralhar
dados_amostrados = pd.concat([dados_0, dados_1]).sample(frac=1, random_state=valor_inteiro).reset_index(drop=True)  # Embaralhar

# Exibir as primeiras linhas
dados_amostrados.head()

Unnamed: 0,Summary,Text,target
0,Amazingly Good,Although I detest most reduced-calorie dressin...,1.0
1,Almost as good as the bunnies,My kids love eating these fruit chews almost a...,1.0
2,Great angostura,I am a Mojito Fan. This is the best angostura ...,1.0
3,Excellent taste & quality organic whole bean c...,It's an excellent taste & quality whole bean o...,1.0
4,Better than PB,"No one in my family has nut allergies, but I w...",1.0


In [15]:
# Separar os dados de treino e teste 
X = dados_amostrados.Text
y = dados_amostrados.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=valor_inteiro)

dados_treino = pd.concat([X_train, y_train],axis=1)
dados_treino.columns = ['Text', 'target']
dados_teste = pd.concat([X_test, y_test],axis=1)
dados_teste.columns = ['Text', 'target']
   

In [16]:
print("\n",
      "Frequências de cada rótulo nos DADOS TREINAMENTO: \n",
      dados_treino.target.value_counts(sort=False), "\n\nsort=False",
      "Frequências de cada rótulo nos DADOS TESTE: \n",
      dados_teste.target.value_counts(sort=False))


 Frequências de cada rótulo nos DADOS TREINAMENTO: 
 target
1.0    824
0.0    856
Name: count, dtype: int64 

sort=False Frequências de cada rótulo nos DADOS TESTE: 
 target
1.0    376
0.0    344
Name: count, dtype: int64


In [18]:
# Salvar os dados de treino e teste em arquivos CSV
nome_arquivo_treino = 'dados_treino_so_DUPLA_'+nome+'.csv'
nome_arquivo_teste = 'dados_teste_so_DUPLA_'+nome+'.csv'

dados_treino.to_csv(nome_arquivo_treino,index = False, header=True)
dados_teste.to_csv(nome_arquivo_teste, index=False)#, engine='xlsxwriter')

print(f"Dados de treino e teste foram salvos em '{nome_arquivo_treino}' e '{nome_arquivo_teste}'.")

Dados de treino e teste foram salvos em 'dados_treino_so_DUPLA_danielr.csv' e 'dados_teste_so_DUPLA_danielr.csv'.


In [19]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TREINO
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_treino_so_DUPLA_'+nome+'.csv')

Unnamed: 0,Text,target
0,Fi-shock works great. This is number three fo...,1.0
1,Great stuff delivery is very fast . I mix it w...,1.0
2,I purchased these for my mom and she loves the...,1.0
3,I love Eight O'clock coffee but when shopping ...,0.0
4,These are really good. You do need to add jus...,1.0
...,...,...
1675,I first had this coffee in the strip district ...,1.0
1676,Grass seeds spout and grow into hair. My daugh...,0.0
1677,After drinking Twinings Green Tea for a while ...,0.0
1678,Having enjoyed coffee from Papua New Guinea fr...,0.0


In [12]:
# COMANDO QUE DEVE COLOCAR NO TEMPLATE Projeto1_Template.ipynb para LER a base de dados TESTE
# Faça adaptações digitando o nome (username) considerado
pd.read_csv('dados_teste_so_DUPLA_'+nome+'.csv')

Unnamed: 0,Text,target
0,I ordered a case of 10 for $[...].00. I love t...,1.0
1,I bought these based on all the great reviews ...,0.0
2,This is a fantastic product. I promote this pr...,0.0
3,A nicely spiced light roast coffee with the ar...,1.0
4,This really is a DELICIOUS product and if you ...,0.0
...,...,...
715,Our small dog has been eating Dingos for 8 yea...,1.0
716,I often use this KIND Plus Cranberry Almond Ba...,1.0
717,A good product; hard to find; I was delighted ...,1.0
718,"when you open the package, it smells like baco...",0.0
