In [55]:
import pandas as pd
import zipfile
from io import BytesIO, StringIO

In [56]:
from sqlalchemy import create_engine, MetaData, Table, update
from sqlalchemy.orm import sessionmaker, Session
from sqlalchemy.dialects.postgresql import insert

In [2]:
FIELD_SIZES = {
    'TIPO_DE_REGISTRO': 2,
    'DATA_DO_PREGAO': 8,
    'CODIGO_BDI': 2,
    'CODIGO_DE_NEGOCIACAO': 12,
    'TIPO_DE_MERCADO': 3,
    'NOME_DA_EMPRESA': 12,
    'ESPECIFICACAO_DO_PAPEL': 10,
    'PRAZO_EM_DIAS_DO_MERCADO_A_TERMO': 3,
    'MOEDA_DE_REFERENCIA': 4,
    'PRECO_DE_ABERTURA': 13,
    'PRECO_MAXIMO': 13,
    'PRECO_MINIMO': 13,
    'PRECO_MEDIO': 13,
    'PRECO_ULTIMO_NEGOCIO': 13,
    'PRECO_MELHOR_OFERTA_DE_COMPRA': 13,
    'PRECO_MELHOR_OFERTA_DE_VENDAS': 13,
    'NUMERO_DE_NEGOCIOS': 5,
    'QUANTIDADE_NEGOCIADA': 18,
    'VOLUME_TOTAL_NEGOCIADO': 18,
    'PRECO_DE_EXERCICIO': 13,
    'INDICADOR_DE_CORRECAO_DE_PRECOS': 1,
    'DATA_DE_VENCIMENTO': 8,
    'FATOR_DE_COTACAO': 7,
    'PRECO_DE_EXERCICIO_EM_PONTOS': 13,
    'CODIGO_ISIN': 12,
    'NUMERO_DE_DISTRIBUICAO': 3
}

DATE_COLUMNS = (
    "DATA_DO_PREGAO",
    "DATA_DE_VENCIMENTO"
)

FLOAT32_COLUMNS = (
    'PRECO_DE_ABERTURA',
    'PRECO_MAXIMO',
    'PRECO_MINIMO',
    'PRECO_MEDIO',
    'PRECO_ULTIMO_NEGOCIO',
    'PRECO_MELHOR_OFERTA_DE_COMPRA',
    'PRECO_MELHOR_OFERTA_DE_VENDAS',
    'PRECO_DE_EXERCICIO',
    'PRECO_DE_EXERCICIO_EM_PONTOS',    
)

FLOAT64_COLUMNS = (
    "VOLUME_TOTAL_NEGOCIADO",
    "QUANTIDADE_NEGOCIADA"
)

UINT32_COLUMNS = (
    "FATOR_DE_COTACAO",
    "PRAZO_EM_DIAS_DO_MERCADO_A_TERMO",
    "NUMERO_DE_NEGOCIOS",
    "NUMERO_DE_DISTRIBUICAO",
    'TIPO_DE_REGISTRO', 
)

STRING_COLUMNS = (
    "CODIGO_DE_NEGOCIACAO",
    "NOME_DA_EMPRESA",
    "CODIGO_ISIN"
)

CATEGORY_COLUMNS = (
    "INDICADOR_DE_CORRECAO_DE_PRECOS", 
    'TIPO_DE_MERCADO', 
    'CODIGO_BDI', 
    "MOEDA_DE_REFERENCIA",
    "ESPECIFICACAO_DO_PAPEL"
)

MARKETS = {
    '010':'VISTA',
    '012':'EXERCICIO_DE_OPCOES_DE_COMPRA',
    '013':'EXERCÍCIO_DE_OPCOES_DE_VENDA',
    '017':'LEILAO',
    '020':'FRACIONARIO',
    '030':'TERMO',
    '050':'FUTURO_COM_RETENCAO_DE_GANHO',
    '060':'FUTURO_COM_MOVIMENTACAO_CONTINUA',
    '070':'OPCOES_DE_COMPRA',
    '080':'OPCOES_DE_VENDA'
}

INDOPC = {
    '0':'0',
    '1':'US$',
    '2':"TJLP",
    '8':"IGPM",
    '9':"URV"
}

CODBDI = {
    '00':'0',
    '02':"LOTE_PADRAO",
    '05':"SANCIONADAS PELOS REGULAMENTOS BMFBOVESPA",
    '06':"CONCORDATARIAS",
    '07':"RECUPERACAO_EXTRAJUDICIAL",
    '08':"RECUPERAÇÃO_JUDICIAL",
    '09':"REGIME_DE_ADMINISTRACAO_ESPECIAL_TEMPORARIA",
    '10':"DIREITOS_E_RECIBOS",
    '11':"INTERVENCAO",
    '12':"FUNDOS_IMOBILIARIOS",
    '13':'13',
    '14':"CERT.INVEST/TIT.DIV.PUBLICA",
    '18':"OBRIGACÕES",
    '22':"BÔNUS(PRIVADOS)",
    '26':"APOLICES/BÔNUS/TITULOS PUBLICOS",
    '32':"EXERCICIO_DE_OPCOES_DE_COMPRA_DE_INDICES",
    '33':"EXERCICIO_DE_OPCOES_DE_VENDA_DE_INDICES",
    '34':'34',
    '35':'35',
    '36':'36',
    '37':'37',
    '38':"EXERCICIO_DE_OPCOES_DE_COMPRA",
    '42':"EXERCICIO_DE_OPCOES_DE_VENDA",
    '46':"LEILAO_DE_NAO_COTADOS",
    '48':"LEILAO_DE_PRIVATIZACAO",
    '49':"LEILAO_DO_FUNDO_RECUPERACAO_ECONOMICA_ESPIRITO_SANTO",
    '50':"LEILAO",
    '51':"LEILAO_FINOR",
    '52':"LEILAO_FINAM",
    '53':"LEILAO_FISET",
    '54':"LEILAO_DE_ACÕES_EM_MORA",
    '56':"VENDAS_POR_ALVARA_JUDICIAL",
    '58':"OUTROS",
    '60':"PERMUTA_POR_ACÕES",
    '61':"META",
    '62':"MERCADO_A_TERMO",
    '66':"DEBENTURES_COM_DATA_DE_VENCIMENTO_ATE_3_ANOS",
    '68':"DEBENTURES_COM_DATA_DE_VENCIMENTO_MAIOR_QUE_3_ANOS",
    '70':"FUTURO_COM_RETENCAO_DE_GANHOS",
    '71':"MERCADO_DE_FUTURO",
    '74':"OPCOES_DE_COMPRA_DE_INDICES",
    '75':"OPCOES_DE_VENDA_DE_INDICES",
    '78':"OPCOES_DE_COMPRA",
    '82':"OPCOES_DE_VENDA",
    '83':"BOVESPAFIX",
    '84':"SOMA_FIX",
    '90':"TERMO_VISTA_REGISTRADO",
    '96':"MERCADO_FRACIONARIO",
    '99':"TOTAL_GERAL"
}

In [100]:
import requests
import warnings
from urllib3.exceptions import InsecureRequestWarning

# Opcional: Suprimir avisos sobre requisições inseguras
warnings.simplefilter('ignore', InsecureRequestWarning)

url = 'https://bvmf.bmfbovespa.com.br/InstDados/SerHist/COTAHIST_A2021.ZIP'

try:
    # *** AVISO: Conexão insegura! ***
    response = requests.get(url, verify=False)
    response.raise_for_status()
    # Processar a resposta
    print("Download concluído (com verificação SSL desabilitada).")

except requests.exceptions.RequestException as e:
    print(f"Erro na requisição: {e}")

Download concluído (com verificação SSL desabilitada).


In [49]:
with zipfile.ZipFile(BytesIO(response.content)) as zf:
    # Lê o arquivo TXT dentro do zip
    with zf.open('COTAHIST_A2021.TXT') as file:
        df = pd.read_fwf(file, 
                        header=None,
                        names=list(FIELD_SIZES.keys()),
                        widths=list(FIELD_SIZES.values()),
                            encoding='latin1')[1:-1]

In [50]:
df["TIPO_DE_MERCADO"] = df["TIPO_DE_MERCADO"].apply(lambda x: MARKETS.get(x, x))
df["INDICADOR_DE_CORRECAO_DE_PRECOS"] = df["INDICADOR_DE_CORRECAO_DE_PRECOS"].apply(lambda x: INDOPC.get(x, x))
df["CODIGO_BDI"] = df["CODIGO_BDI"].apply(lambda x: CODBDI.get(x, x))
for col in FLOAT32_COLUMNS: df[col] = df[col].astype(float) / 100
for col in FLOAT64_COLUMNS: df[col] = df[col].astype(float)
for col in DATE_COLUMNS:            
    df[col] = df[col].apply(lambda x: pd.NaT if x == "99991231" else x )
    df[col] = pd.to_datetime(df[col])

In [53]:
df = df[df['CODIGO_BDI'] == 2][['DATA_DO_PREGAO',
                                'PRECO_DE_ABERTURA','PRECO_ULTIMO_NEGOCIO',
                                'NUMERO_DE_NEGOCIOS','QUANTIDADE_NEGOCIADA',
                                'VOLUME_TOTAL_NEGOCIADO', 'CODIGO_ISIN']]

In [58]:
DATABASE_URL = "postgresql+psycopg2://admin:admin_password@localhost:5432/meu_banco"
engine = create_engine(DATABASE_URL)
Session = sessionmaker(bind=engine)
metadata = MetaData(bind=engine)

  metadata = MetaData(bind=engine)


In [63]:
def insert_into_database(df):
    """Insert processed data into the database, checking for ticker existence."""
    session = Session()
    try:
        cotacao = Table('cotacao', metadata, autoload_with=engine)
        existing_tickers = set(session.execute("SELECT codigo_isin FROM ticker").scalars().all())
        records = []
        for _, row in df.iterrows():
            if row['CODIGO_ISIN'] in existing_tickers:
                records.append({
                    'codigo_isin': row['CODIGO_ISIN'],
                    'data_pregao': row['DATA_DO_PREGAO'],
                    'abertura': row['PRECO_DE_ABERTURA'],
                    'fechamento': row['PRECO_ULTIMO_NEGOCIO'],
                    'numero_de_negocios': row['NUMERO_DE_NEGOCIOS'],
                    'quantidade_negociada': row['QUANTIDADE_NEGOCIADA'],
                    'volume_negociado': row['VOLUME_TOTAL_NEGOCIADO']
                })
        if records:
            from sqlalchemy.dialects.postgresql import insert
            stmt = insert(cotacao).values(records)
            stmt = stmt.on_conflict_do_nothing(index_elements=['codigo_isin','data_pregao'])
            session.execute(stmt)
            session.commit()
            print(f"Inserted {len(records)} records into cotacao table.")
        else:
            print("No matching tickers found for insertion.")
    except Exception as e:
        session.rollback()
        print(f"Error inserting into database: {e}")
    finally:
        session.close()

In [64]:
insert_into_database(df)

Inserted 78308 records into cotacao table.


In [66]:
def get_years_range():
    """Fetch years from 2010 to the year before the current year."""
    current_year = datetime.now().year
    return range(2010, current_year)

def get_months_current_year():
    """Fetch months from January to the previous month of the current year."""
    current_date = datetime.now()
    current_month = current_date.month
    current_year = current_date.year
    return [f"_M{month:02d}{current_year}.ZIP" for month in range(1, current_month)]

def get_days_current_month():
    """Fetch days from the start of the current month to today."""
    current_date = datetime.now()
    current_year = current_date.year
    current_month = current_date.month
    current_day = current_date.day
    return [f"_D{day:02d}{current_month:02d}{current_year}.ZIP" for day in range(1, current_day + 1)]

In [73]:
BASE_URL = "https://bvmf.bmfbovespa.com.br/InstDados/SerHist/COTAHIST"

In [78]:
def process_dataframe(df):
    """Process the dataframe with the provided transformations."""
    df["TIPO_DE_MERCADO"] = df["TIPO_DE_MERCADO"].apply(lambda x: MARKETS.get(x, x))
    df["INDICADOR_DE_CORRECAO_DE_PRECOS"] = df["INDICADOR_DE_CORRECAO_DE_PRECOS"].apply(lambda x: INDOPC.get(x, x))
    df["CODIGO_BDI"] = df["CODIGO_BDI"].apply(lambda x: CODBDI.get(x, x))
    for col in FLOAT32_COLUMNS:
        df[col] = df[col].astype(float) / 100
    for col in FLOAT64_COLUMNS:
        df[col] = df[col].astype(float)
    for col in DATE_COLUMNS:
        df[col] = df[col].apply(lambda x: pd.NaT if x == "99991231" else x)
        df[col] = pd.to_datetime(df[col])
    df = df[df['CODIGO_BDI'] == 2][['DATA_DO_PREGAO', 'PRECO_DE_ABERTURA',
                                    'PRECO_ULTIMO_NEGOCIO', 'NUMERO_DE_NEGOCIOS',
                                    'QUANTIDADE_NEGOCIADA', 'VOLUME_TOTAL_NEGOCIADO',
                                    'CODIGO_ISIN']]
    return df

In [79]:
def download_and_process_file(url_suffix):
    """Download and process a single file from the given URL suffix."""
    url = f"{BASE_URL}{url_suffix}"
    try:
        response = requests.get(url, verify=False)
        response.raise_for_status()
        with zipfile.ZipFile(BytesIO(response.content)) as zf:
            file_name = url_suffix.replace('.ZIP', '.TXT')
            file_name = "COTAHIST" + file_name
            with zf.open(file_name) as file:
                df = pd.read_fwf(file, header=None, names=list(FIELD_SIZES.keys()),
                                 widths=list(FIELD_SIZES.values()), encoding='latin1')[1:-1]
        return process_dataframe(df)
    except requests.exceptions.RequestException as e:
        print(f"Error downloading {url}: {e}")
        return None
    except Exception as e:
        print(f"Error processing {url}: {e}")
        return None

In [68]:
years = get_years_range()

In [95]:
years[-4]

2021

In [98]:
year = years[-3]
url_suffix = f"_A{year}.ZIP"
df_2021 = download_and_process_file(url_suffix)

In [None]:
df_2021

Unnamed: 0,DATA_DO_PREGAO,PRECO_DE_ABERTURA,PRECO_ULTIMO_NEGOCIO,NUMERO_DE_NEGOCIOS,QUANTIDADE_NEGOCIADA,VOLUME_TOTAL_NEGOCIADO,CODIGO_ISIN
1,2022-01-03,59.70,58.75,20535.0,3960200.0,2.335126e+10,BRGNDIACNOR2
2,2022-01-03,15.42,15.33,43784.0,23833600.0,3.645410e+10,BRABEVACNOR1
3,2022-01-03,10.80,10.93,3729.0,725000.0,8.033650e+08,BRMODLCDAM13
4,2022-01-03,25.00,24.54,2665.0,610900.0,1.506877e+09,BRTASAACNPR4
5,2022-01-03,5.68,5.70,10.0,5800.0,3.296500e+06,BRCRIVACNPR1
...,...,...,...,...,...,...,...
1234922,2022-11-25,40.00,41.08,5.0,600.0,2.417400e+06,BREMAEACNPR1
1234923,2022-11-25,14.50,14.31,8054.0,3989300.0,5.763856e+09,BREMBRACNOR4
1234925,2022-11-25,1.20,1.26,1690.0,7311600.0,9.272758e+08,BRINEPACNOR1
1234926,2022-11-25,1.09,1.11,941.0,2672500.0,3.037508e+08,BRINEPACNPR8


In [82]:
def process_year(**kwargs):
    for year in get_years_range():
        url_suffix = f"_A{year}.ZIP"
        df = download_and_process_file(url_suffix)
        if df is not None and not df.empty:
            insert_into_database(df)

In [83]:
months = get_months_current_year()
month = months[-1]


In [85]:
df_mar = download_and_process_file(month)

In [91]:
days = get_days_current_month()
day = days[-2]

In [93]:
df_today = download_and_process_file(day)