# Aplicação : Baixar dados do mercado secundário do site da ANBIMA

Conteúdo:

* Baixar arquivos de sites da internet usando o pacote `requests`
* Manipular datas usando o pacote `datetime`
* Configurar datas para o português usando o pacote `locale`
* Programação defensiva usando o comando `assert`
* Tratamento de uma base de dados difícil e real usando `pandas`
* Concatenação de dataframes usando `pandas`


## Parte 1: Baixar os dados

In [90]:
import requests
from datetime import date
import locale

#Faz com que nome dos meses seja retornado em Português (ex.: Fev, ao invés de. Feb)
locale.setlocale(locale.LC_TIME, 'pt_BR.UTF-8')

'pt_BR.UTF-8'

In [91]:
data = date(2022,12,22)
hoje = date.today()

assert (hoje - data).days < 5, "ANBIMA só disponibiliza dados para os últimos 5 dias."

dia = data.day
mes = data.strftime("%b")
ano = data.strftime("%y")

download_link = f"https://www.anbima.com.br/informacoes/merc-sec/arqs/m{ano}{mes}{dia}.xls"
print(download_link)

https://www.anbima.com.br/informacoes/merc-sec/arqs/m22dez22.xls


In [92]:
r = requests.get(download_link)
print(r.status_code)

200


In [93]:
with open('ANBIMA.xls','wb') as f:
    f.write(r.content)

### Mesma coisa, em uma função

In [94]:
def baixar_dados_merc_sec(data):
    
    hoje = date.today()
    
    assert (hoje - data).days < 5, "ANBIMA só disponibiliza dados para os últimos 5 dias."
    
    dia = data.day
    mes = data.strftime("%b")
    ano = data.strftime("%y")
    
    download_link = f"https://www.anbima.com.br/informacoes/merc-sec/arqs/m{ano}{mes}{dia}.xls"
    r = requests.get(download_link)
    
    assert r.status_code == 200, "Falha ao realizar o download"
    
    nome_arquivo = f"ANBIMA_{ano}-{mes}-{dia}.xls"
    
    with open(nome_arquivo,'wb') as f:
        f.write(r.content)
    
    #Retornar o nome do arquivo será conveniente mais tarde
    return(nome_arquivo)

In [105]:
baixar_dados_merc_sec(date(2022,12,20))

'ANBIMA_22-dez-20.xls'

## Parte 2 : Arrumar os dados

Vamos considerar a aba de NTN-B...

In [106]:
import pandas as pd

### Dados brutos, sem tratamento

In [107]:
df = pd.read_excel("ANBIMA.xls", sheet_name="NTN-B")
df

Unnamed: 0,Títulos Públicos Federais,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,22/Dez/2022
0,,,,,,,,,,,
1,Papel IPCA,,NTN-B - Taxa (% a.a.)/252,,,,,,,,
2,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Intervalo Indicativo,,,
3,,,,,,,,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
4,760100,2000-07-15 00:00:00,2023-03-15 00:00:00,6.294,6.2383,6.2715,4051.75308,5.2727,8.1216,5.3047,8.1747
5,760199,2000-07-15 00:00:00,2023-05-15 00:00:00,6.2948,6.2467,6.2666,4012.895122,5.5054,7.6163,5.5317,7.6582
6,760199,2000-07-15 00:00:00,2024-08-15 00:00:00,6.8127,6.7843,6.7954,4027.586056,6.5164,7.2447,6.5238,7.2524
7,760199,2000-07-15 00:00:00,2025-05-15 00:00:00,6.4398,6.4121,6.4256,3981.546218,6.1752,6.8467,6.1531,6.8249
8,760199,2000-07-15 00:00:00,2026-08-15 00:00:00,6.4245,6.4102,6.4194,4021.621106,6.1379,6.7326,6.132,6.7268
9,760199,2000-07-15 00:00:00,2027-05-15 00:00:00,6.341,6.3155,6.3292,3969.037778,6.052,6.6301,6.0239,6.6022


__Questões a serem tratadas__
* Cabeçalho da tabela está na linha 2
* Últimas 4 colunas do cabeçalho estão na linha 3
* Dados começam na linha 4
* Últimas 6 linhas não contêm dados

### Dados tratados

In [108]:
df = pd.read_excel("ANBIMA.xls", sheet_name="NTN-B", skiprows=3)
df.columns.values[-4:] = df.iloc[0,-4:]
df = df.iloc[1:-6,:]
df

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
1,760100,2000-07-15,2023-03-15,6.294,6.2383,6.2715,4051.75308,5.2727,8.1216,5.3047,8.1747
2,760199,2000-07-15,2023-05-15,6.2948,6.2467,6.2666,4012.895122,5.5054,7.6163,5.5317,7.6582
3,760199,2000-07-15,2024-08-15,6.8127,6.7843,6.7954,4027.586056,6.5164,7.2447,6.5238,7.2524
4,760199,2000-07-15,2025-05-15,6.4398,6.4121,6.4256,3981.546218,6.1752,6.8467,6.1531,6.8249
5,760199,2000-07-15,2026-08-15,6.4245,6.4102,6.4194,4021.621106,6.1379,6.7326,6.132,6.7268
6,760199,2000-07-15,2027-05-15,6.341,6.3155,6.3292,3969.037778,6.052,6.6301,6.0239,6.6022
7,760199,2000-07-15,2028-08-15,6.3569,6.3282,6.3441,4013.437753,6.0763,6.6211,6.0355,6.5805
8,760199,2000-07-15,2030-08-15,6.2776,6.2526,6.2669,4016.338434,6.0283,6.516,5.9868,6.4746
9,760199,2000-07-15,2032-08-15,6.3037,6.261,6.2812,3999.173742,6.0784,6.5291,6.0241,6.4748
10,760199,2000-07-15,2035-05-15,6.3067,6.2711,6.2858,3927.003833,6.1089,6.5274,6.0507,6.4692


### Mesma coisa, em uma função

In [109]:
def arruma_base_merc_sec(path_arquivo):
    df = pd.read_excel(path_arquivo, sheet_name="NTN-B", skiprows=3)
    df.columns.values[-4:] = df.iloc[0,-4:]
    df = df.iloc[1:-6,:]
    return(df)

In [110]:
df = arruma_base_merc_sec("ANBIMA.xls")

#Salvar para usar depois
df.to_excel("ANBIMA.xlsx", index=False)

## Parte 3: Concatena dados de hoje a arquivo pré-existente

Vamos supor que o arquivo pré-existente seja o ANBIMA.xlsx

In [131]:
dados_historicos = pd.read_excel("ANBIMA.xlsx")
dados_historicos.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,6.294,6.2383,6.2715,4051.75308,5.2727,8.1216,5.3047,8.1747
1,760199,2000-07-15,2023-05-15,6.2948,6.2467,6.2666,4012.895122,5.5054,7.6163,5.5317,7.6582
2,760199,2000-07-15,2024-08-15,6.8127,6.7843,6.7954,4027.586056,6.5164,7.2447,6.5238,7.2524
3,760199,2000-07-15,2025-05-15,6.4398,6.4121,6.4256,3981.546218,6.1752,6.8467,6.1531,6.8249
4,760199,2000-07-15,2026-08-15,6.4245,6.4102,6.4194,4021.621106,6.1379,6.7326,6.132,6.7268


In [132]:
dados_historicos.shape

(15, 11)

In [133]:
#path_dados_de_hoje = baixar_dados_merc_sec(date.today())
path_dados_de_hoje = baixar_dados_merc_sec(date(2022,12,23))
dados_de_hoje = arruma_base_merc_sec(path_dados_de_hoje)
dados_de_hoje.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
1,760100,2000-07-15,2023-03-15,6.63,6.578,6.6,4050.96346,5.3047,8.1747,5.6299,8.5214
2,760199,2000-07-15,2023-05-15,6.6321,6.5868,6.6043,4010.012549,5.5317,7.6582,5.8678,8.0098
3,760199,2000-07-15,2024-08-15,6.7561,6.7283,6.7437,4032.669047,6.5238,7.2524,6.472,7.201
4,760199,2000-07-15,2025-05-15,6.3338,6.305,6.3194,3992.432511,6.1531,6.8249,6.047,6.7191
5,760199,2000-07-15,2026-08-15,6.33,6.3041,6.3183,4036.093263,6.132,6.7268,6.0309,6.6259


In [134]:
dados_de_hoje.shape

(15, 11)

In [135]:
dados_historicos = pd.concat([dados_historicos, dados_de_hoje], axis=0)
dados_historicos.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,6.294,6.2383,6.2715,4051.75308,5.2727,8.1216,5.3047,8.1747
1,760199,2000-07-15,2023-05-15,6.2948,6.2467,6.2666,4012.895122,5.5054,7.6163,5.5317,7.6582
2,760199,2000-07-15,2024-08-15,6.8127,6.7843,6.7954,4027.586056,6.5164,7.2447,6.5238,7.2524
3,760199,2000-07-15,2025-05-15,6.4398,6.4121,6.4256,3981.546218,6.1752,6.8467,6.1531,6.8249
4,760199,2000-07-15,2026-08-15,6.4245,6.4102,6.4194,4021.621106,6.1379,6.7326,6.132,6.7268


In [136]:
from datetime import timedelta

In [137]:
dados_historicos.shape

(30, 11)

### Mesma coisa, em uma função

In [139]:
def atualiza_arquivo_historico(path_arquivo_historico):
    
    #Carrega dados históricos
    dados_historicos = pd.read_excel(path_arquivo_historico)
    
    #Carrega dados de hoje
    path_dados_de_hoje = baixar_dados_merc_sec(date.today())
    dados_de_hoje = arruma_base_merc_sec(path_dados_de_hoje)
    
    #Concatena dados de hoje aos dados históricos
    dados_historicos = pd.concat([dados_historicos, dados_de_hoje], axis=0)
    
    return(dados_historicos)

In [140]:
atualiza_arquivo_historico("ANBIMA.xlsx")

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,6.294,6.2383,6.2715,4051.75308,5.2727,8.1216,5.3047,8.1747
1,760199,2000-07-15,2023-05-15,6.2948,6.2467,6.2666,4012.895122,5.5054,7.6163,5.5317,7.6582
2,760199,2000-07-15,2024-08-15,6.8127,6.7843,6.7954,4027.586056,6.5164,7.2447,6.5238,7.2524
3,760199,2000-07-15,2025-05-15,6.4398,6.4121,6.4256,3981.546218,6.1752,6.8467,6.1531,6.8249
4,760199,2000-07-15,2026-08-15,6.4245,6.4102,6.4194,4021.621106,6.1379,6.7326,6.132,6.7268
5,760199,2000-07-15,2027-05-15,6.341,6.3155,6.3292,3969.037778,6.052,6.6301,6.0239,6.6022
6,760199,2000-07-15,2028-08-15,6.3569,6.3282,6.3441,4013.437753,6.0763,6.6211,6.0355,6.5805
7,760199,2000-07-15,2030-08-15,6.2776,6.2526,6.2669,4016.338434,6.0283,6.516,5.9868,6.4746
8,760199,2000-07-15,2032-08-15,6.3037,6.261,6.2812,3999.173742,6.0784,6.5291,6.0241,6.4748
9,760199,2000-07-15,2035-05-15,6.3067,6.2711,6.2858,3927.003833,6.1089,6.5274,6.0507,6.4692


In [138]:
hoje = date.today()
hoje - timedelta(days=0)

datetime.date(2022, 12, 24)

In [None]:
dados_consolidados = pd.DataFrame([])
dias_corridos_atras = 0
dias_uteis_atras = 0

while dias_uteis_atras <= 5:
    try:
        data = hoje - timedelta(days = dias_corridos_atras)
        print(data)
        dia, mes, ano = data.days, data.month, data.year
        dados_do_dia = baixar_dados_merc_sec(dia, mes, ano)
        #dados_do_dia = arruma_base_merc_sec(dados_do_dia)
        #dados_consolidados = pd.concat([dados_consolidados, dados_do_dia], axis=1)
        dias_uteis_atras += 1
    except:
        pass
    
    dias_corridos_atras += 1

    
dados_consolidados.shape