### Importando as bibliotecas necessarias para o ETL

In [15]:
import os
import json
import pandas as pd
import openpyxl

### 1. Definição dos Caminhos dos Arquivos
### Especificamos os caminhos absolutos dos arquivos de entrada

In [16]:
caminho_json = "C:/Users/win 10/Documents/GitHub/neotass_etl/data/registros_oportunidades.json"
caminho_parquet = "C:/Users/win 10/Documents/GitHub/neotass_etl/data/sellout.parquet"

### 2. Carregamento do Arquivo JSON
### Verificamos se o arquivo existe antes de tentar abri-lo

In [17]:
if os.path.exists(caminho_json):
    with open(caminho_json, "r", encoding="utf-8") as file:
        oportunidades = json.load(file)
    
    # Convertendo os dados carregados em um DataFrame do Pandas
    df_oportunidades = pd.DataFrame(oportunidades)
    
    # Exibir as primeiras linhas do DataFrame para conferência
    display(df_oportunidades.head())
else:
    print(f"Erro: Arquivo não encontrado no caminho {caminho_json}")

Unnamed: 0,Data de Registro,Quantidade,Status,Nome Fantasia,CNPJ Parceiro,Telefone Parceiro,Categoria produto,Nome_Produto,Valor_Unitario
0,1677283200000,23,Fechada,Marques Ferreira Ltda.,71.956.320/0001-68,71 8373-4031,Tablet,LiteTab Pro,2871.09
1,1712707200000,28,Perdida,Novaes,52.346.709/0001-47,0800-268-6025,Tablet,QuantumPad Ultra,2854.77
2,1709078400000,35,Perdida,Cirino,10.789.432/0001-87,41 9524 9911,Tablet,InfinityTab X,3550.9
3,1685836800000,25,Aberta,Novais,12.403.859/0001-20,0900 376 1847,Tablet,InfinityTab s,572.16
4,1729900800000,90,Fechada,Andrade,15.863.492/0001-16,(071) 2090 4217,Business TV,Collaboration Edge,4685.77


### 3. Carregamento do Arquivo Parquet
### Verificamos se o arquivo existe antes de tentar carregá-lo

In [18]:
if os.path.exists(caminho_parquet):
    df_sellout = pd.read_parquet(caminho_parquet)
    
    # Exibir as primeiras linhas do DataFrame para conferência
    display(df_sellout.head())
else:
    print(f"Erro: Arquivo não encontrado no caminho {caminho_parquet}")

Unnamed: 0,Data_Fatura,Quantidade,NF,Nome Fantasia,CNpj Parceiro,Telefone,Categoria,Nome_Produto,Valor_Unitario
0,2023-06-19,98,NF_267049,Pastor - EI,54.318.792/0001-76,(041) 4384-2150,Business TV,Collaboration Edge,4685.77
1,2023-03-30,85,NF_291155,Novaes - ME,85.730.216/0001-65,81 1706 3048,Smartphone,Velocity Elite,1878.94
2,2024-02-18,97,NF_907848,Nascimento,12.064.379/0001-82,(061) 5904 2597,Monitor,InfinityScreen Ultra,2639.11
3,2024-12-26,8,NF_600759,Nogueira,31.287.095/0001-08,+55 71 4014 0119,Monitor,PixelMaster S,4455.39
4,2023-06-26,34,NF_821240,Sampaio,89.231.756/0001-55,+55 51 7548 2145,Business TV,BizScreen S,4067.43


### 4. Transformação dos Dados
### 4.1 Renomeando colunas do DataFrame de Oportunidades
### Ajustamos os nomes das colunas para um formato mais padronizado

In [19]:
df_oportunidades.rename(columns={
    "id": "id_oportunidade",
    "partner_id": "id_parceiro",
    "product_id": "id_produto",
    "Data de Registro": "data_registro",
    "quantity": "quantidade",
    "total_value": "valor_total",
    "status": "status"
}, inplace=True)

# Convertendo a coluna de data para o formato datetime
df_oportunidades["data_registro"] = pd.to_datetime(df_oportunidades["data_registro"])

# Exibir as primeiras linhas para conferência
display(df_oportunidades.head())

Unnamed: 0,data_registro,Quantidade,Status,Nome Fantasia,CNPJ Parceiro,Telefone Parceiro,Categoria produto,Nome_Produto,Valor_Unitario
0,1970-01-01 00:27:57.283200,23,Fechada,Marques Ferreira Ltda.,71.956.320/0001-68,71 8373-4031,Tablet,LiteTab Pro,2871.09
1,1970-01-01 00:28:32.707200,28,Perdida,Novaes,52.346.709/0001-47,0800-268-6025,Tablet,QuantumPad Ultra,2854.77
2,1970-01-01 00:28:29.078400,35,Perdida,Cirino,10.789.432/0001-87,41 9524 9911,Tablet,InfinityTab X,3550.9
3,1970-01-01 00:28:05.836800,25,Aberta,Novais,12.403.859/0001-20,0900 376 1847,Tablet,InfinityTab s,572.16
4,1970-01-01 00:28:49.900800,90,Fechada,Andrade,15.863.492/0001-16,(071) 2090 4217,Business TV,Collaboration Edge,4685.77


### 4.2 Renomeando colunas do DataFrame de Sellout
### Ajustamos os nomes das colunas para um formato mais padronizado

In [20]:
df_sellout.rename(columns={
    "id": "id_sellout",
    "partner_id": "id_parceiro",
    "product_id": "id_produto",
    "Data_Fatura": "data_fatura",
    "invoice_number": "nf",
    "quantity": "quantidade",
    "total_value": "valor_total"
}, inplace=True)

# Convertendo a coluna de data para datetime
df_sellout["data_fatura"] = pd.to_datetime(df_sellout["data_fatura"])

# Exibir as primeiras linhas para conferência
display(df_sellout.head())

Unnamed: 0,data_fatura,Quantidade,NF,Nome Fantasia,CNpj Parceiro,Telefone,Categoria,Nome_Produto,Valor_Unitario
0,2023-06-19,98,NF_267049,Pastor - EI,54.318.792/0001-76,(041) 4384-2150,Business TV,Collaboration Edge,4685.77
1,2023-03-30,85,NF_291155,Novaes - ME,85.730.216/0001-65,81 1706 3048,Smartphone,Velocity Elite,1878.94
2,2024-02-18,97,NF_907848,Nascimento,12.064.379/0001-82,(061) 5904 2597,Monitor,InfinityScreen Ultra,2639.11
3,2024-12-26,8,NF_600759,Nogueira,31.287.095/0001-08,+55 71 4014 0119,Monitor,PixelMaster S,4455.39
4,2023-06-26,34,NF_821240,Sampaio,89.231.756/0001-55,+55 51 7548 2145,Business TV,BizScreen S,4067.43


### 5. Carregamento dos Dados
### Criamos um diretório para salvar os arquivos transformados

In [21]:
# Criamos um diretório para salvar os arquivos transformados
output_dir = "C:/Users/win 10/Documents/GitHub/neotass_etl/output"
os.makedirs(output_dir, exist_ok=True)

# Salvamos os DataFrames no formato Excel
df_oportunidades.to_excel(os.path.join(output_dir, "fato_registro_oportunidade.xlsx"), index=False)
df_sellout.to_excel(os.path.join(output_dir,"fato_sellout.xlsx"), index=False)

print("ETL concluído com sucesso! Os arquivos foram salvos na pasta 'output'.")

ETL concluído com sucesso! Os arquivos foram salvos na pasta 'output'.
