In [1]:
# Bibliotecas essenciais para o projeto de ingestão de dados
import pandas as pd                 # Manipulação de dados
import duckdb                      # Banco de dados analítico
import os                          # Acesso ao sistema de arquivos
from datetime import datetime      # Para registrar data/hora de execução


In [3]:
# Cria a conexão com o banco de dados DuckDB
con = duckdb.connect(database='dados_duckdb.db', read_only=False)


In [4]:
# Lê o primeiro arquivo CSV (z0019_1.csv) localizado na pasta landing
df = pd.read_csv('../landing/z0019_1.csv', sep=';')
df.head()


Unnamed: 0,NATBR,MATK,WERKS,MAINS,LABST
0,10001,PARAFUSO,BT10,100,100
1,10002,MARTELO,BT56,100,1500
2,10003,PREGO,BT10,100,50


In [5]:
# Exibe a data e hora atual no formato completo (útil para testes e controle de execução)
print(datetime.now())


2025-08-06 22:21:36.295162


In [6]:
# Define o nome do primeiro arquivo e registra a data/hora da ingestão
arquivo = 'z0019_1.csv'
data_ingestao = datetime.now()

# Lê o conteúdo do primeiro CSV da pasta landing
df = pd.read_csv(f'../landing/{arquivo}', sep=';')

# Adiciona colunas com o nome do arquivo e o timestamp de ingestão
df['nome_arquivo'] = arquivo
df['data_ingestao'] = data_ingestao

# Visualiza os primeiros registros
df.head()


Unnamed: 0,NATBR,MATK,WERKS,MAINS,LABST,nome_arquivo,data_ingestao
0,10001,PARAFUSO,BT10,100,100,z0019_1.csv,2025-08-06 22:35:23.450498
1,10002,MARTELO,BT56,100,1500,z0019_1.csv,2025-08-06 22:35:23.450498
2,10003,PREGO,BT10,100,50,z0019_1.csv,2025-08-06 22:35:23.450498


In [15]:
# Cria a tabela 'bronze_produtos' no banco DuckDB, se ainda não existir
# Essa tabela armazenará os dados brutos lidos dos arquivos CSV
con.execute("""
    CREATE TABLE IF NOT EXISTS bronze_produtos (
        NATBR VARCHAR,           -- Código do produto
        MATKT VARCHAR,           -- Descrição do material
        WERKS VARCHAR,           -- Código da planta (local de produção ou armazenamento)
        MAINS VARCHAR,           -- Estoque disponível na planta
        LABST VARCHAR,           -- Estoque total disponível
        nome_arquivo VARCHAR,    -- Nome do arquivo de origem dos dados
        data_ingestao TIMESTAMP  -- Data e hora em que os dados foram ingeridos
    )
""")


<duckdb.duckdb.DuckDBPyConnection at 0x234717aeb70>

In [None]:
# df ainda esta vazio porque ainda nao fiz a ingestao
con.execute("SELECT * FROM bronze_produtos").fetchdf()


Unnamed: 0,NATBR,MATKT,WERKS,MAINS,LABST,nome_arquivo,data_ingestao


In [None]:
con.register("df", df)
con.execute("INSERT INTO bronze_produtos SELECT * FROM df")
#selecionado tudo que esta no df  dados do arquivo1 acima e inserindo na tabela bronze_produtos

<duckdb.duckdb.DuckDBPyConnection at 0x234717aeb70>

In [18]:
#mostrar o conteudo da Tabela bronse_produtos
con.execute("SELECT * FROM bronze_produtos").fetchdf()


Unnamed: 0,NATBR,MATKT,WERKS,MAINS,LABST,nome_arquivo,data_ingestao
0,10001,PARAFUSO,BT10,100,100,z0019_1.csv,2025-08-06 22:35:23.450498
1,10002,MARTELO,BT56,100,1500,z0019_1.csv,2025-08-06 22:35:23.450498
2,10003,PREGO,BT10,100,50,z0019_1.csv,2025-08-06 22:35:23.450498


In [19]:
# Lê o primeiro arquivo CSV (z0019_2.csv) localizado na pasta landing
df = pd.read_csv('../landing/z0019_2.csv', sep=';')
df.head()

Unnamed: 0,NATRB,MATKL,WERKS,MAINS,LABST
0,10004,SERRA,BT56,100,200
1,10005,MACHADO,BT56,100,100
2,10003,PREGO,BT10,100,60


In [20]:
# Define o nome do segundo arquivo e registra a data/hora da ingestão
arquivo = 'z0019_2.csv'
data_ingestao = datetime.now()

# Lê o conteúdo do segundo CSV da pasta landing
df = pd.read_csv(f'../landing/{arquivo}', sep=';')

# Adiciona colunas com o nome do arquivo e o timestamp de ingestão
df['nome_arquivo'] = arquivo
df['data_ingestao'] = data_ingestao

# Visualiza os primeiros registros
df.head()

Unnamed: 0,NATRB,MATKL,WERKS,MAINS,LABST,nome_arquivo,data_ingestao
0,10004,SERRA,BT56,100,200,z0019_2.csv,2025-08-06 23:09:07.627013
1,10005,MACHADO,BT56,100,100,z0019_2.csv,2025-08-06 23:09:07.627013
2,10003,PREGO,BT10,100,60,z0019_2.csv,2025-08-06 23:09:07.627013


In [21]:
# Cria a tabela 'bronze_produtos' no banco DuckDB, se ainda não existir, mas neste caso ja existe
# Essa tabela armazenará os dados brutos lidos dos arquivos CSV
con.execute("""
    CREATE TABLE IF NOT EXISTS bronze_produtos (
        NATBR VARCHAR,           -- Código do produto
        MATKT VARCHAR,           -- Descrição do material
        WERKS VARCHAR,           -- Código da planta (local de produção ou armazenamento)
        MAINS VARCHAR,           -- Estoque disponível na planta
        LABST VARCHAR,           -- Estoque total disponível
        nome_arquivo VARCHAR,    -- Nome do arquivo de origem dos dados
        data_ingestao TIMESTAMP  -- Data e hora em que os dados foram ingeridos
    )
""")


<duckdb.duckdb.DuckDBPyConnection at 0x234717aeb70>

In [None]:
# df agora so contem os dados do arquivo 1  porque ainda nao fiz a ingestao do arquivo2
resultado = con.execute("SELECT * FROM bronze_produtos").fetchdf()         #usei uma variavel
print(resultado)

   NATBR     MATKT WERKS MAINS LABST nome_arquivo              data_ingestao
0  10001  PARAFUSO  BT10   100   100  z0019_1.csv 2025-08-06 22:35:23.450498
1  10002   MARTELO  BT56   100  1500  z0019_1.csv 2025-08-06 22:35:23.450498
2  10003     PREGO  BT10   100    50  z0019_1.csv 2025-08-06 22:35:23.450498


In [23]:
con.register("df", df)
con.execute("INSERT INTO bronze_produtos SELECT * FROM df")
#selecionado tudo que esta no df  dados do arquivo2  e inserindo na tabela bronze_produtos

<duckdb.duckdb.DuckDBPyConnection at 0x234717aeb70>

In [27]:
# agora ja contem os dados do arquivo 1  e arquivo2  na tabela bronze_produtos
resultado = con.execute("SELECT * FROM bronze_produtos").fetchdf()         #usei uma variavel
print(resultado)

   NATBR     MATKT WERKS MAINS LABST nome_arquivo              data_ingestao
0  10001  PARAFUSO  BT10   100   100  z0019_1.csv 2025-08-06 22:35:23.450498
1  10002   MARTELO  BT56   100  1500  z0019_1.csv 2025-08-06 22:35:23.450498
2  10003     PREGO  BT10   100    50  z0019_1.csv 2025-08-06 22:35:23.450498
3  10004     SERRA  BT56   100   200  z0019_2.csv 2025-08-06 23:09:07.627013
4  10005   MACHADO  BT56   100   100  z0019_2.csv 2025-08-06 23:09:07.627013
5  10003     PREGO  BT10   100    60  z0019_2.csv 2025-08-06 23:09:07.627013


In [29]:
#listando  4 registros somente seria assim
#print(resultado.head(4)) 

In [30]:
# Altera o nome da tabela de bronze_produtos para bronze_z0019
con.execute("ALTER TABLE bronze_produtos RENAME TO bronze_z0019")


<duckdb.duckdb.DuckDBPyConnection at 0x234717aeb70>

In [32]:
con.close

<bound method PyCapsule.close of <duckdb.duckdb.DuckDBPyConnection object at 0x00000234717AEB70>>