# 🧠 O que é ETL?

ETL é a sigla para Extract, Transform, Load, que em português significa Extrair, Transformar e Carregar. Esse é um processo fundamental em projetos de integração de dados e engenharia de dados, utilizado para mover e preparar dados de diferentes fontes para uso em análises, relatórios ou aplicações.


Aqui estou criando um processo de ETL que:

1. Extrai dados do Bitcoin usando uma API (como a da Binance).

2. Transforma os dados se necessário (por exemplo, converte timestamps, filtra colunas, essa parte ja sendo feita separadamente). 

3. Carrega esses dados em um banco de dados SQL Server (BitCointETL).

Um ponto importante é que o banco de dados utlizados aqui foi criado através do AWS RDS, também não irei me aprofundar nesse tópico do que é o RDS ou como se cria

In [7]:
#importações

import pandas as pd
import pyodbc
from datetime import datetime
from pegar_historico import pegar_historico
from dotenv import load_dotenv
import os
from datetime import date

In [43]:
#Para que eu nao colocasse minhas informações de segurança do banco direto no código, eu as coloquei em uma variavel de ambiente e as carrego utilizando
# a biblioteca load_dotenv, não irei me aprofundar aqui, mas basicamente, esse arquivo contem as informações de username. password, host, etc

#Carrega as informações
load_dotenv() 

#Parametros para estabecer a conexão com o banco
connection_string = f"""
    DRIVER={{ODBC Driver 18 for SQL Server}};
    SERVER={os.getenv('DB_HOST')},{os.getenv('DB_PORT')};
    DATABASE={os.getenv('DB_NAME')};
    UID={os.getenv('DB_USER')};
    PWD={os.getenv("DB_PASSWORD")};
    Encrypt=yes;
    TrustServerCertificate=yes;
"""

#Estabelece a conexao
conn = pyodbc.connect(connection_string)

#Faz a consulta no banco de dados
query = "SELECT * FROM bitcoin_data"

#Estrutura os dados em um dataframe atraves da biblioteca pandas
df = pd.read_sql(query, conn)

#Encerra a conexao com o banco
conn.close()

#Exibe os dados
df


#Apesar de eu nao ter inserido dados por aqui, eu fiz uma inserção manual de dados diretamente pelo SQL, para algo pudesse ser exibido aqui

  df = pd.read_sql(query, conn)


Unnamed: 0,id,timestamp,open,high,low,close,volume
0,1,2025-01-01,583135.0,579057.0,591233.0,588693.0,72.14957


In [23]:
date.today().strftime("%b %Y")

'Jun 2025'

In [19]:
#Pegando os dados

par = "BTCBRL"
intervalo = "1d"
data_inicio = date.today().strftime("%#d %b %Y")

df_btcbrl = pegar_historico(
        par,
        intervalo,
        data_inicio
    )

#filtrado as colunas
df_btcbrl = df_btcbrl[
    ['timestamp','open','low','high','close','volume']
]

df_btcbrl.head(5)

Unnamed: 0,timestamp,open,low,high,close,volume
0,2025-06-05,592931.0,570500.0,596717.0,571805.0,163.25379


In [37]:
#Iterando as linhas em uma tupla

data_to_insert = [
    (
        row.timestamp, 
        row.open, 
        row.low, 
        row.high, 
        row.close, 
        row.volume
    )
    for _, row in df_btcbrl.iterrows()
]

data_to_insert

(Timestamp('2025-06-05 00:00:00'),
 592931.0,
 570500.0,
 596717.0,
 571805.0,
 163.25379)

In [45]:
conn = pyodbc.connect(connection_string)

#Construindo a query de inserção
insert_query = """
    INSERT INTO bitcoin_data VALUES (?, ?, ?, ?, ?, ?)
"""

cursor =  conn.cursor()
cursor.execute(insert_query, data_to_insert[0])
conn.commit()
conn.close()

In [47]:
#Verificando se a linha foi inserindo
df = pd.read_sql(query, conn)
df

  df = pd.read_sql(query, conn)


Unnamed: 0,id,timestamp,open,high,low,close,volume
0,1,2025-01-01,583135.0,579057.0,591233.0,588693.0,72.14957
1,2,2025-06-05,592931.0,570500.0,596717.0,571805.0,163.25379


## INSERÇÃO EM MASSA, CRIAÇÃO DE TABELA

Antes de criar a nova tabela no banco de dados, irei  listar as tabelas já existente, para me certificar de que uma nova tabela foi criada

In [69]:
conn = pyodbc.connect(connection_string)

list_tables_querys = """
SELECT TABLE_SCHEMA, TABLE_NAME
FROM INFORMATION_SCHEMA.TABLES
"""

cursor =  conn.cursor()
df = pd.read_sql(list_tables_querys, conn)

conn.close()

#exibe as tabelas
df

  df = pd.read_sql(list_tables_querys, conn)


Unnamed: 0,TABLE_SCHEMA,TABLE_NAME
0,dbo,bitcoin_prices


In [75]:
#Abre a conexão
conn = pyodbc.connect(connection_string)

create_table_query = """
CREATE TABLE dados_historicos (
    id INT IDENTITY(1,1) PRIMARY KEY,
    timestamp DATETIME,
    [open] DECIMAL(18, 8),
    [high] DECIMAL(18, 8),
    [low] DECIMAL(18, 8),
    [close] DECIMAL(18, 8),
    volume DECIMAL(18, 8)
);
"""

cursor =  conn.cursor()
cursor.execute(create_table_query)
conn.commit()
conn.close() #Fecha a conexao

In [83]:
#Agora exibimos as tables existente novamente, e confirmamos se foi criada a nova tabela dados_historicos
conn = pyodbc.connect(connection_string)

list_tables_querys = """
SELECT TABLE_SCHEMA, TABLE_NAME
FROM INFORMATION_SCHEMA.TABLES;
"""

cursor =  conn.cursor()
df = pd.read_sql(list_tables_querys, conn)

conn.close()

#exibe as tabelas
df

  df = pd.read_sql(list_tables_querys, conn)


Unnamed: 0,TABLE_SCHEMA,TABLE_NAME
0,dbo,bitcoin_prices
1,dbo,dados_historicos


In [51]:
#Pegando os dados

par = "BTCBRL"
intervalo = "1d"
data_inicio = '1 Jan 2025'

df_btcbrl = pegar_historico(
        par,
        intervalo,
        data_inicio
    )

#filtrado as colunas
df_btcbrl = df_btcbrl[
    ['timestamp','open','low','high','close','volume']
]

df_btcbrl.head(5)

Unnamed: 0,timestamp,open,low,high,close,volume
0,2025-01-01,583135.0,579057.0,591233.0,588693.0,72.14957
1,2025-01-02,588635.0,587263.0,607111.0,599306.0,166.56756
2,2025-01-03,599363.0,594140.0,613793.0,607582.0,128.54397
3,2025-01-04,607593.0,604369.0,612902.0,609413.0,64.64526
4,2025-01-05,609412.0,604300.0,613000.0,611273.0,58.20556


In [53]:
data_to_insert = [
    (
        row.timestamp, 
        row.open, 
        row.low, 
        row.high, 
        row.close, 
        row.volume
    )
    for _, row in df_btcbrl.iterrows()
]

data_to_insert

[(Timestamp('2025-01-01 00:00:00'),
  583135.0,
  579057.0,
  591233.0,
  588693.0,
  72.14957),
 (Timestamp('2025-01-02 00:00:00'),
  588635.0,
  587263.0,
  607111.0,
  599306.0,
  166.56756),
 (Timestamp('2025-01-03 00:00:00'),
  599363.0,
  594140.0,
  613793.0,
  607582.0,
  128.54397),
 (Timestamp('2025-01-04 00:00:00'),
  607593.0,
  604369.0,
  612902.0,
  609413.0,
  64.64526),
 (Timestamp('2025-01-05 00:00:00'),
  609412.0,
  604300.0,
  613000.0,
  611273.0,
  58.20556),
 (Timestamp('2025-01-06 00:00:00'),
  611215.0,
  607000.0,
  628380.0,
  623526.0,
  171.95755),
 (Timestamp('2025-01-07 00:00:00'),
  623530.0,
  590000.0,
  627017.0,
  595655.0,
  192.81239),
 (Timestamp('2025-01-08 00:00:00'),
  595505.0,
  570000.0,
  598053.0,
  584795.0,
  182.16268),
 (Timestamp('2025-01-09 00:00:00'),
  584796.0,
  553869.0,
  586951.0,
  562606.0,
  201.00259),
 (Timestamp('2025-01-10 00:00:00'),
  562605.0,
  562111.0,
  585901.0,
  581627.0,
  169.00888),
 (Timestamp('2025-01-11

In [85]:
conn = pyodbc.connect(connection_string)

#Construindo a query de inserção
insert_query = """
    INSERT INTO dados_historicos VALUES (?, ?, ?, ?, ?, ?)
"""

cursor =  conn.cursor()
cursor.executemany(insert_query, data_to_insert)
conn.commit()
conn.close()