# <a id='toc1_'></a>[🧾 Inserção de Dados](#toc0_)

**Este notebook documenta um passo importante do pipeline de dados: a inserção das tabelas no banco de dados.**

**Table of contents**<a id='toc0_'></a>    
- [🧾 Inserção de Dados](#toc1_)    
    - [Importando as Bibliotecas](#toc1_1_1_)    
  - [1° Inserção](#toc1_2_)    
  - [2° Inserção (Atualização)](#toc1_3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

### <a id='toc1_1_1_'></a>[Importando as Bibliotecas](#toc0_)


In [None]:
from sqlalchemy import create_engine, text  # Para criação da engine de conexão e execução de queries SQL (usando MySQL)
import pandas as pd  # Biblioteca para manipulação, análise e estruturação de dados

## <a id='toc1_2_'></a>[1° Inserção](#toc0_)

🗂️ Fonte dos dados: [Kaggle - Olist Brazilian E-Commerce Public Dataset](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce/data)  

💡 Justificativa: Por escolha própria, decidi importar os dados diretamente para um banco relacional como forma de simular um cenário real, com integração de dados, uso de SQLAlchemy e organização para consultas futuras.

🔍 Características desta etapa:

- Os dados ainda não passaram por nenhuma limpeza ou tratamento  
- Cada arquivo `.csv` foi associado à sua respectiva tabela no banco  
- A inserção foi realizada via Python + SQLAlchemy, com controle por `chunksize` para evitar sobrecarga  
- A conexão foi feita localmente, simulando um ambiente produtivo real

> Esta etapa marca o início do ciclo analítico, onde os dados sujos são organizados e centralizados. A partir daqui, cada transformação será documentada e justificada nos notebooks seguintes.

In [None]:
# Caminho base onde estão os arquivos CSV
base_path = "C:/Users/Pasta/Olist/Dados/"

# Conexão com o MySQL via SQLAlchemy
engine = create_engine("mysql+mysqlconnector://root:...")

# Mapeamento nome_tabela : nome_arquivo.csv
tabelas_arquivos = {
    "olist_geolocation": "olist_geolocation_dataset.csv",
    "olist_customers": "olist_customers_dataset.csv",
    "olist_sellers": "olist_sellers_dataset.csv",
    "olist_products": "olist_products_dataset.csv",
    "olist_orders": "olist_orders_dataset.csv",
    "olist_order_items": "olist_order_items_dataset.csv",
    "olist_order_payments": "olist_order_payments_dataset.csv",
    "olist_order_reviews": "olist_order_reviews_dataset.csv"
}

for tabela, arquivo in tabelas_arquivos.items():
    print(f"Lendo dados do arquivo: {arquivo} para a tabela: {tabela}")
    caminho_completo = base_path + arquivo
    
    # Leitura do CSV
    df = pd.read_csv(caminho_completo)
    
    # Insere no banco, em partes para evitar travar
    df.to_sql(
        name=tabela,
        con=engine,
        if_exists='append',
        index=False,
        chunksize=500
    )
    print(f"Dados inseridos na tabela {tabela} com sucesso.\n")


Lendo dados do arquivo: olist_geolocation_dataset.csv para a tabela: olist_geolocation
Dados inseridos na tabela olist_geolocation com sucesso.

Lendo dados do arquivo: olist_customers_dataset.csv para a tabela: olist_customers
Dados inseridos na tabela olist_customers com sucesso.

Lendo dados do arquivo: olist_sellers_dataset.csv para a tabela: olist_sellers
Dados inseridos na tabela olist_sellers com sucesso.

Lendo dados do arquivo: olist_products_dataset.csv para a tabela: olist_products
Dados inseridos na tabela olist_products com sucesso.

Lendo dados do arquivo: olist_orders_dataset.csv para a tabela: olist_orders
Dados inseridos na tabela olist_orders com sucesso.

Lendo dados do arquivo: olist_order_items_dataset.csv para a tabela: olist_order_items
Dados inseridos na tabela olist_order_items com sucesso.

Lendo dados do arquivo: olist_order_payments_dataset.csv para a tabela: olist_order_payments
Dados inseridos na tabela olist_order_payments com sucesso.

Lendo dados do arq

## <a id='toc1_3_'></a>[2° Inserção (Atualização)](#toc0_)

🗂️ Fonte dos dados: Pós-tratamento realizado no notebook [preprocessing.ipynb]

💡 Justificativa: Os dados foram atualizados no banco após passarem por processos de limpeza e tratamento. Agora estão prontos para análises mais robustas e confiáveis.

🔍 Características desta etapa:

- Os dados passaram por etapas de limpeza e pré-processamento, como remoção de inconsistências, tratamento de valores nulos e padronização de formatos
- Cada arquivo .csv tratado foi vinculado à sua respectiva tabela no banco de dados
- A inserção foi realizada utilizando Python + SQLAlchemy, com controle de chunksize para garantir eficiência e evitar sobrecarga na memória
- A conexão foi feita localmente, simulando um ambiente produtivo real

> Esta etapa representa a transição dos dados brutos para uma versão refinada e estruturada, pronta para exploração analítica. A partir daqui, as análises ganham maior precisão e confiabilidade, com base em dados limpos e bem organizados.





In [None]:
# Caminho base onde estão localizados os arquivos CSV com dados limpos
base_path_limpos = "C:/Users/Pasta/Olist/Dados/"

# Criação do engine para conexão com o banco MySQL local
engine = create_engine("mysql+mysqlconnector://root:...")


# Dicionário que mapeia o nome das tabelas no banco para os respectivos arquivos CSV
tabelas_arquivos = {
    "olist_geolocation": "olist_geolocation.csv",
    "olist_customers": "olist_customers.csv",
    "olist_sellers": "olist_sellers.csv",
    "olist_products": "olist_products.csv",
    "olist_orders": "olist_orders.csv",
    "olist_order_items": "olist_order_items.csv",
    "olist_order_payments": "olist_order_payments.csv",
    "olist_order_reviews": "olist_order_reviews.csv"
}


# Ordem correta de exclusão de dados das tabelas, respeitando dependências de chaves estrangeiras
ordem_exclusao = [
    "olist_order_payments",
    "olist_order_items",
    "olist_order_reviews",
    "olist_orders",
    "olist_products",
    "olist_sellers",
    "olist_customers",
    "olist_geolocation"
]


# Ordem correta de inserção dos dados nas tabelas, do dado mais independente ao mais dependente
ordem_insercao = [
    "olist_geolocation",
    "olist_customers",
    "olist_sellers",
    "olist_products",
    "olist_orders",
    "olist_order_items",
    "olist_order_payments",
    "olist_order_reviews"
]

# Desativar verificação de chaves estrangeiras para permitir truncamento em cascata
with engine.begin() as conn:
    conn.execute(text("SET FOREIGN_KEY_CHECKS = 0;"))
    
    # Exclui os dados das tabelas seguindo a ordem de dependência
    for tabela in ordem_exclusao:
        print(f"Deletando dados da tabela: {tabela}")
        conn.execute(text(f"DELETE FROM {tabela};"))
        print(f"Dados da tabela {tabela} apagados com sucesso.")
    
    # Reativa verificação de chaves estrangeiras
    conn.execute(text("SET FOREIGN_KEY_CHECKS = 1;"))

# Carrega os pedidos (orders) para filtrar posteriormente as tabelas que dependem de order_id
df_orders = pd.read_csv(base_path_limpos + tabelas_arquivos["olist_orders"])
order_ids_validos = set(df_orders["order_id"])

# Laço principal para carregar e inserir os dados limpos em cada tabela
for tabela in ordem_insercao:
    print(f"Inserindo dados limpos para a tabela: {tabela}")
    
    # Caminho completo do arquivo CSV da tabela atual
    caminho_completo = base_path_limpos + tabelas_arquivos[tabela]
    
    # Leitura do CSV
    df = pd.read_csv(caminho_completo)

    # Filtra registros inválidos por order_id, se a tabela depender dessa chave estrangeira
    if tabela in ["olist_order_items", "olist_order_payments", "olist_order_reviews"]:
        qtde_antes = len(df)
        df = df[df["order_id"].isin(order_ids_validos)]
        qtde_filtrados = qtde_antes - len(df)
        if qtde_filtrados > 0:
            print(f"Removidos {qtde_filtrados} registros inválidos da tabela {tabela} por order_id inexistente.")

    # Inserção dos dados no banco de dados (modo append)
    df.to_sql(
        name=tabela,
        con=engine,
        if_exists='append',
        index=False,
        chunksize=500  # Inserção em blocos de 500 linhas para otimizar performance
    )
    
    print(f"Dados limpos inseridos na tabela {tabela} com sucesso.\n")



Deletando dados da tabela: olist_order_payments
Dados da tabela olist_order_payments apagados com sucesso.
Deletando dados da tabela: olist_order_items
Dados da tabela olist_order_items apagados com sucesso.
Deletando dados da tabela: olist_order_reviews
Dados da tabela olist_order_reviews apagados com sucesso.
Deletando dados da tabela: olist_orders
Dados da tabela olist_orders apagados com sucesso.
Deletando dados da tabela: olist_products
Dados da tabela olist_products apagados com sucesso.
Deletando dados da tabela: olist_sellers
Dados da tabela olist_sellers apagados com sucesso.
Deletando dados da tabela: olist_customers
Dados da tabela olist_customers apagados com sucesso.
Deletando dados da tabela: olist_geolocation
Dados da tabela olist_geolocation apagados com sucesso.
Inserindo dados limpos para a tabela: olist_geolocation
Dados limpos inseridos na tabela olist_geolocation com sucesso.

Inserindo dados limpos para a tabela: olist_customers
Dados limpos inseridos na tabela ol