Importa√ß√£o bibliotecas

In [1]:
import pandas as pd
import requests
import os
from datetime import datetime
from pytrends.request import TrendReq
from pytrends.exceptions import ResponseError
from sidrapy import get_table
import time
import yfinance as yf


Fun√ß√£o de Coleta do Banco Central (SGS) - SELIC / IPCA / ICC / PIB

In [2]:
start_date = '2020-01-01'
end_date = datetime.now().strftime('%Y/%m/%d')
data_raw_path = '../data_raw/'

# Se existir a pasta ok, se n√£o √© criada
os.makedirs(data_raw_path, exist_ok=True)

# Defini√ß√£o {dicion√°rio} de indicadores BCB
indicadores_bcb = {
    '432': 'selic_meta',             # SELIC (Meta) - Mensal
    '433': 'ipca_mensal',            # IPCA (Var. % mensal) - Mensal
    '4393': 'icc_consumidor_mensal', # √çndice de Confian√ßa do Consumidor - Mensal
    '24364': 'pib_mensal'            # Produto interno bruto - Mensal
}

def dados_bc (codigo_indicador, nome_indicador):

    start_date_fmt = datetime.strptime(start_date, '%Y-%m-%d').strftime('%d/%m/%Y')
    end_date_fmt = datetime.now().strftime('%d/%m/%Y')

    url_api = f"http://api.bcb.gov.br/dados/serie/bcdata.sgs.{codigo_indicador}/dados?formato=json&dataInicial={start_date_fmt}&dataFinal={end_date_fmt}"
    
    #Chamar a API
    response = requests.get(url_api)
    
    if response.status_code == 200: #C√≥digo 200 significa √™xito
        dados_json = response.json()
        
        if not dados_json: # Check se a API retornar sem dados
            print(f"   > AVISO: S√©rie {nome_indicador} n√£o retornou dados.")
            return

        # Converte para DataFrame
        df = pd.DataFrame(dados_json)
        
        # Renomeia a coluna 'valor' para o nome do indicador
        df = df.rename(columns={'valor': nome_indicador})
        
        # Salvar o arquivo CSV individual (Criando novas pastas)
        file_path = os.path.join(data_raw_path, f'{nome_indicador}.csv')
        df.to_csv(file_path, index=False)
        
        print(f"   > Sucesso. Salvo em: {file_path}")
        
    else:
        print(f"   > ERRO! Falha ao buscar {nome_indicador}. Status: {response.status_code}")

# Loop para a fun√ß√£o de coleta BCB
for codigo, nome in indicadores_bcb.items():
    dados_bc(codigo, nome)

   > Sucesso. Salvo em: ../data_raw/selic_meta.csv
   > Sucesso. Salvo em: ../data_raw/ipca_mensal.csv
   > Sucesso. Salvo em: ../data_raw/icc_consumidor_mensal.csv
   > Sucesso. Salvo em: ../data_raw/pib_mensal.csv


Coleta Taxa de Desocupa√ß√£o (IBGE/SIDRA)

In [3]:
try:
    df_pmc = get_table(
        table_code='4095',
        territorial_level='1',
        ibge_territorial_code='all',
        variable='4099',
        period='all' 
    )
    
    if not df_pmc.empty:
        df_pmc = df_pmc.loc[1:, ['V', 'D2C']]
        df_pmc.columns = ['taxa_desocupacao', 'periodo_codigo_trimestre']
        df_pmc['taxa_desocupacao'] = pd.to_numeric(df_pmc['taxa_desocupacao'], errors='coerce')
        # Filtro de data
        df_pmc = df_pmc[df_pmc['periodo_codigo_trimestre'] >= '201904']
        
        file_path = os.path.join(data_raw_path, 'desemprego_trimestral.csv')
        df_pmc.to_csv(file_path, index=False)
        print(f"   > Sucesso. Salvo em: {file_path}")
    else:
        print("   > AVISO: Dados de desemprego n√£o retornaram.")
        
except Exception as e:
    print(f"   > ERRO GERAL! Falha ao buscar Taxa de Desocupa√ß√£o : {e}")

   > Sucesso. Salvo em: ../data_raw/desemprego_trimestral.csv


Coleta Google Trends para as empresas

In [7]:
keywords = [
        'Magazine Luiza',
        'Casas Bahia',
        'Mercado Livre',
        'Amazon',
        'Shopee'
    ]

timeframe = f'2020-01-01 {datetime.now().strftime("%Y-%m-%d")}'
data_raw_path = '../data_raw'
file_path = os.path.join(data_raw_path, 'gtrends.csv')


if os.path.exists(file_path):
    print(f' > Sucesso. Lendo Google Trends do arquivo local : {file_path}')
    df_gtrends = pd.read_csv(file_path, parse_dates=['data'], index_col='data')

else:
    print("  > Arquivo local n√£o encontrado. Baixando dados do Google Trends...")
    try:
        time.sleep(5)
        
        pytrends = TrendReq(hl='pt-BR', tz=180)
        pytrends.build_payload(keywords, timeframe= timeframe,geo='BR')

        df = pytrends.interest_over_time()

        if not df.empty:
            if 'isPartial' in df.columns:
                df = df.drop(columns=['isPartial'])

            file_path = os.path.join(data_raw_path, 'gtrends.csv')
            df.to_csv(file_path, index_label='data')
            print(f"   > Sucesso. Salvo Google Trends em: {file_path}")
        else:
            print("   > AVISO: Dados do Google Trends n√£o retornaram.")

    except ResponseError as e:
        print(f"\n  > ERRO DE REQUISI√á√ÉO (429): {e}")
        print("  > O Google bloqueou a requisi√ß√£o. Tente novamente mais tarde.")
        df_gtrends = pd.DataFrame()


  > Arquivo local n√£o encontrado. Baixando dados do Google Trends...

  > ERRO DE REQUISI√á√ÉO (429): The request failed: Google returned a response with code 429
  > O Google bloqueou a requisi√ß√£o. Tente novamente mais tarde.


Coleta Pesquisa mensal com√©rcio - PMC

In [5]:
start_date = '2020-01-01'

url = "https://api.bcb.gov.br/dados/serie/bcdata.sgs.1455/dados?formato=json"
df = pd.read_json(url)

df['data'] = pd.to_datetime(df['data'], dayfirst=True)
df = df[df['data'] >= start_date]

df.rename(columns={'valor' : 'indice_PMC'},inplace=True)

df.reset_index(drop=True,inplace=True)

file_path = os.path.join(data_raw_path, 'pmc.csv')
df.to_csv(file_path, index=False)

print(df.tail())


         data  indice_PMC
62 2025-03-01      104.42
63 2025-04-01      104.11
64 2025-05-01      108.39
65 2025-06-01      101.99
66 2025-07-01      106.58


Coleta da "rea√ß√£o do mercado" - Cota√ß√£o das a√ß√µes

In [15]:
tickers = {
    'magazine_luiza' : 'MGLU3.SA',
    'casas_bahia' : 'BHIA3.SA',
    'mercado_livre' : 'MELI',
    'amazon' : 'AMZN',
    'shopee' : 'SE'
}

end_date_str = datetime.now().strftime('%Y-%m-%d')

try:

    stock_data = yf.download(
        list(tickers.values()),
        start=start_date,
        end=end_date_str
    )

    if 'Close' in stock_data.columns:
            adj_close_data = stock_data['Close']
    else:
        # Se baixar s√≥ um ticker, a estrutura √© diferente
        adj_close_data = stock_data[['Close']]
    
    rename_map = {ticker: nome for nome, ticker in tickers.items()}
    df_yf = adj_close_data.rename(columns=rename_map)

    file_path_df_yf = os.path.join(data_raw_path, 'stock_daily.csv')
    df_yf.to_csv(file_path_df_yf, index=True, index_label='data')

    print(f'Sucesso ao salvar cota√ß√µes em {file_path_df_yf}')

except Exception as e:
    print(f"   üö® ERRO GERAL! Falha ao buscar cota√ß√µes: {e}")

  stock_data = yf.download(
[*********************100%***********************]  5 of 5 completed

Sucesso ao salvar cota√ß√µes em ../data_raw\stock_daily.csv



