Carregar Pacotes e Bibliotecas:

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from faker import Faker
import random

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

import os
from scipy.sparse import coo_matrix

# Separação  e criação das tabelas

In [12]:
# 1. Ler dataset original

data = pd.read_csv("clean_data.csv")  

In [14]:
# 2. Criar arquivo de produtos únicos

# Mantém apenas 1 linha por produto
products = data.drop_duplicates(subset="ProdID", keep="first")

In [15]:
# Seleciona só as colunas de atributos do produto
products = products[[
    "ProdID", "Name", "Category", "Brand", "Description", "Tags", "ReviewCount", "Rating"
]]

In [16]:
products.to_csv("products.csv", index=False)
print(f"✅ products.csv criado com {len(products)} produtos únicos.")

✅ products.csv criado com 1607 produtos únicos.


In [18]:
# Criar arquivo de interações (cliente-produto)

interactions = data[["ID", "ProdID", "Rating"]].rename(columns={"ID": "CustomerID"})
interactions.to_csv("interactions.csv", index=False)
print(f"✅ interactions.csv criado com {len(interactions)} interações.")


✅ interactions.csv criado com 4090 interações.


In [19]:
#Criar arquivo de clientes fictícios
# =======================
fake = Faker('pt_BR')

customers = []
customer_ids = interactions["CustomerID"].unique()  # pega todos os IDs que aparecem

for cid in customer_ids:
    customers.append({
        "CustomerID": cid,
        "Name": fake.first_name(),
        "Age": random.randint(18, 60),
        "Gender": random.choice(["M", "F"]),
        "Location": fake.city()
    })

df_customers = pd.DataFrame(customers)
df_customers.to_csv("df_customers.csv", index=False)
print(f"✅ customers.csv criado com {len(df_customers)} clientes fictícios.")

✅ customers.csv criado com 1666 clientes fictícios.


Verificação e validação dos dados:

In [None]:
# Conferimos se cada ProdID aparece uma vez só:

print("Total de linhas:", len(products))
print("ProdIDs únicos:", products['ProdID'].nunique())


Total de linhas: 1607
ProdIDs únicos: 1607


In [25]:
# Conferimos total de linhas e quantidade de clientes/produtos únicos:
print(interactions.head())  # primeiras linhas

print("Total de interações:", len(interactions))
print("Clientes únicos:", interactions['CustomerID'].nunique())
print("Produtos únicos:", interactions['ProdID'].nunique())


   CustomerID  ProdID  Rating
0  1705736792       2     0.0
1          95      76     0.0
2           8       8     4.5
3           4       3     0.0
4         990       3     0.0
Total de interações: 4090
Clientes únicos: 1666
Produtos únicos: 1607


In [None]:
# Conferimos se cada cliente é único:
print("Total de clientes:", len(df_customers))
print("IDs únicos:", df_customers['CustomerID'].nunique())


Total de clientes: 1666
IDs únicos: 1666


In [23]:
# Verificar consistência entre interações e clientes
clientes_invalidos = set(interactions['CustomerID']) - set(df_customers['CustomerID'])
print("Clientes que não estão no customers.csv:", clientes_invalidos)

# Verificar consistência entre interações e produtos
produtos_invalidos = set(interactions['ProdID']) - set(products['ProdID'])
print("Produtos que não estão no products.csv:", produtos_invalidos)


Clientes que não estão no customers.csv: set()
Produtos que não estão no products.csv: set()
