# 1 - Limpeza de Dados

In [1]:
import pandas as pd

In [2]:
# Carregando os arquivos CSV

compras = pd.read_csv("base_compras.csv")
departamentos = pd.read_csv("base_departamentos.csv")
produtos = pd.read_csv("base_produtos.csv")
tipo_produto = pd.read_csv("base_tipo_de_produto.csv")

In [3]:
# Explorando as primeiras linhas de cada dataset

# Tabela Compras

compras.head()

Unnamed: 0,product_id,user_id,order_dow,order_hour_of_day
0,196,1,1,9
1,12427,1,1,9
2,48110,2,2,11
3,22474,2,2,11
4,16589,2,2,11


In [4]:
# Tabela Departamentos

departamentos.head()

Unnamed: 0,department_id,department
0,1,frozen
1,2,other
2,3,bakery
3,4,produce
4,5,alcohol


In [5]:
# Tabela Produtos

produtos.head()

Unnamed: 0,product_id,product_name,aisle_id,department_id
0,1,Chocolate Sandwich Cookies,61,19
1,2,All-Seasons Salt,104,13
2,3,Robust Golden Unsweetened Oolong Tea,94,7
3,4,Smart Ones Classic Favorites Mini Rigatoni Wit...,38,1
4,5,Green Chile Anytime Sauce,5,13


In [6]:
# Tabela Tipo de Produtos

tipo_produto.head()

Unnamed: 0,aisle_id,aisle
0,1,prepared soups salads
1,2,specialty cheeses
2,3,energy granola bars
3,4,instant foods
4,5,marinades meat preparation


In [7]:
# Verificando valores ausentes

def check_missing_values(df, name):
    missing = df.isnull().sum()
    print(f"\nValores ausentes em {name}:")
    print(missing[missing > 0])

check_missing_values(compras, "Compras")
check_missing_values(departamentos, "Departamentos")
check_missing_values(produtos, "Produtos")
check_missing_values(tipo_produto, "Tipo de Produto")


Valores ausentes em Compras:
Series([], dtype: int64)

Valores ausentes em Departamentos:
Series([], dtype: int64)

Valores ausentes em Produtos:
Series([], dtype: int64)

Valores ausentes em Tipo de Produto:
Series([], dtype: int64)


In [8]:
# Verificando tipos de dados

def check_data_types(df, name):
    print(f"\nTipos de dados em {name}:")
    print(df.dtypes)
    
check_data_types(compras, "Compras")
check_data_types(departamentos, "Departamentos")
check_data_types(produtos, "Produtos")
check_data_types(tipo_produto, "Tipo de Produto")


Tipos de dados em Compras:
product_id           int64
user_id              int64
order_dow            int64
order_hour_of_day    int64
dtype: object

Tipos de dados em Departamentos:
department_id     int64
department       object
dtype: object

Tipos de dados em Produtos:
product_id        int64
product_name     object
aisle_id          int64
department_id     int64
dtype: object

Tipos de dados em Tipo de Produto:
aisle_id     int64
aisle       object
dtype: object


In [9]:
# Removendo duplicatas

def remove_duplicates(df, name):
    before = df.shape[0]
    df.drop_duplicates(inplace=True)
    after = df.shape[0]
    print(f"\nRemovidas {before - after} duplicatas de {name}.")
    return df

compras = remove_duplicates(compras, "Compras")
departamentos = remove_duplicates(departamentos, "Departamentos")
produtos = remove_duplicates(produtos, "Produtos")
tipo_produto = remove_duplicates(tipo_produto, "Tipo de Produto")


Removidas 111769 duplicatas de Compras.

Removidas 0 duplicatas de Departamentos.

Removidas 0 duplicatas de Produtos.

Removidas 0 duplicatas de Tipo de Produto.


In [10]:
# Padronizando colunas (Exemplo: nomes em minúsculo e sem espaços)

def standardize_columns(df):
    df.columns = df.columns.str.lower().str.replace(" ", "_")
    return df

compras = standardize_columns(compras)
departamentos = standardize_columns(departamentos)
produtos = standardize_columns(produtos)
tipo_produto = standardize_columns(tipo_produto)

In [11]:
# Criando dataset final com merge das tabelas

dataset_final = compras.merge(produtos, on='product_id', how='left')
dataset_final = dataset_final.merge(departamentos, on='department_id', how='left')
dataset_final = dataset_final.merge(tipo_produto, on='aisle_id', how='left')

dataset_final

Unnamed: 0,product_id,user_id,order_dow,order_hour_of_day,product_name,aisle_id,department_id,department,aisle
0,196,1,1,9,Soda,77,7,beverages,soft drinks
1,12427,1,1,9,Original Beef Jerky,23,19,snacks,popcorn jerky
2,48110,2,2,11,Thin Stackers Brown Rice Lightly Salted,78,19,snacks,crackers
3,22474,2,2,11,Cheddar Bunnies Snack Crackers,78,19,snacks,crackers
4,16589,2,2,11,Plantain Chips,107,19,snacks,chips pretzels
...,...,...,...,...,...,...,...,...,...
5150810,6846,206209,3,11,Diet Pepsi Pack,77,7,beverages,soft drinks
5150811,23594,206209,3,11,Medium Salsa,51,13,pantry,preserved dips spreads
5150812,6187,206209,0,16,Raisin Bran Cereal,121,14,breakfast,cereal
5150813,38167,206209,4,15,Ultra Downy® Clean Breeze™ Liquid Fabric Condi...,75,17,household,laundry


In [None]:
# Salvando dataset final limpo

dataset_final.to_csv("dataset_limpo.csv", index=False)
print("\nDataset final salvo como 'dataset_limpo.csv'")

In [None]:
# Criando um arquivo .gitignore para evitar versionamento do dataset grande

with open(".gitignore", "w") as gitignore:
    gitignore.write("dataset_limpo.csv\n")
print("Arquivo .gitignore criado para ignorar 'dataset_limpo.csv'")