# Aplicação : Baixar dados do mercado secundário do site da ANBIMA

Conteúdo:

* Baixar arquivos de sites da internet usando o pacote `requests`
* Manipular datas usando o pacote `datetime`
* Configurar datas para o português usando o pacote `locale`
* Programação defensiva usando o comando `assert`
* Tratamento de uma base de dados difícil e real usando `pandas`
* Concatenação de dataframes usando `pandas`


## Parte 1: Baixar os dados

In [3]:
import requests
from datetime import date, timedelta
import locale

#Faz com que nome dos meses seja retornado em Português (ex.: Fev, ao invés de. Feb)
locale.setlocale(locale.LC_TIME, 'pt_BR.UTF-8')

'pt_BR.UTF-8'

In [23]:
hoje = date.today()
data = hoje - timedelta(1)

assert (hoje - data).days < 5, "ANBIMA só disponibiliza dados para os últimos 5 dias."

dia = data.strftime("%d")
mes = data.strftime("%b")
ano = data.strftime("%y")

download_link = f"https://www.anbima.com.br/informacoes/merc-sec/arqs/m{ano}{mes}{dia}.xls"
print(download_link)

https://www.anbima.com.br/informacoes/merc-sec/arqs/m23fev09.xls


In [24]:
r = requests.get(download_link)
print(r.status_code) # sucesso : 200

200


In [25]:
with open('ANBIMA.xls','wb') as f:
    f.write(r.content)

### Mesma coisa, em uma função

In [28]:
def baixar_dados_merc_sec(data):
    
    hoje = date.today()
    
    assert (hoje - data).days < 5, "ANBIMA só disponibiliza dados para os últimos 5 dias."
    
    dia = data.strftime("%d")
    mes = data.strftime("%b")
    ano = data.strftime("%y")
    
    download_link = f"https://www.anbima.com.br/informacoes/merc-sec/arqs/m{ano}{mes}{dia}.xls"
    r = requests.get(download_link)
    
    assert r.status_code == 200, "Falha ao realizar o download"
    
    nome_arquivo = f"ANBIMA_{ano}-{mes}-{dia}.xls"
    
    with open(nome_arquivo,'wb') as f:
        f.write(r.content)
    
    #Retornar o nome do arquivo será conveniente mais tarde
    return(nome_arquivo)

In [29]:
baixar_dados_merc_sec(data)

'ANBIMA_23-fev-09.xls'

## Parte 2 : Arrumar os dados

Vamos considerar a aba de NTN-B...

In [30]:
import pandas as pd

### Dados brutos, sem tratamento

In [31]:
df = pd.read_excel("ANBIMA.xls", sheet_name="NTN-B")
df

Unnamed: 0,Títulos Públicos Federais,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,09/Fev/2023
0,,,,,,,,,,,
1,Papel IPCA,,NTN-B - Taxa (% a.a.)/252,,,,,,,,
2,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Intervalo Indicativo,,,
3,,,,,,,,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
4,760100,2000-07-15 00:00:00,2023-03-15 00:00:00,4.872,4.82,4.8607,4128.949959,4.1873,7.873,3.6289,7.3415
5,760199,2000-07-15 00:00:00,2023-05-15 00:00:00,4.8871,4.8306,4.8555,4098.010168,4.4886,7.2334,3.9195,6.6848
6,760199,2000-07-15 00:00:00,2024-08-15 00:00:00,6.4519,6.4257,6.437,4121.906656,6.3715,7.1089,6.1525,6.8902
7,760199,2000-07-15 00:00:00,2025-05-15 00:00:00,6.0484,6.0178,6.03,4085.361217,5.8719,6.5527,5.7596,6.4405
8,760199,2000-07-15 00:00:00,2026-08-15 00:00:00,6.1529,6.1277,6.14,4128.003603,5.852,6.4501,5.857,6.4551
9,760199,2000-07-15 00:00:00,2027-05-15 00:00:00,6.1744,6.1495,6.1601,4064.485013,5.8193,6.4003,5.8573,6.4382


__Questões a serem tratadas__
* Cabeçalho da tabela está na linha 2
* Últimas 4 colunas do cabeçalho estão na linha 3
* Dados começam na linha 4
* Últimas 6 linhas não contêm dados

### Dados tratados

In [32]:
df = pd.read_excel("ANBIMA.xls", sheet_name="NTN-B", skiprows=3)
df.columns.values[-4:] = df.iloc[0,-4:]
df = df.iloc[1:-6,:]
df

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
1,760100,2000-07-15,2023-03-15,4.872,4.82,4.8607,4128.949959,4.1873,7.873,3.6289,7.3415
2,760199,2000-07-15,2023-05-15,4.8871,4.8306,4.8555,4098.010168,4.4886,7.2334,3.9195,6.6848
3,760199,2000-07-15,2024-08-15,6.4519,6.4257,6.437,4121.906656,6.3715,7.1089,6.1525,6.8902
4,760199,2000-07-15,2025-05-15,6.0484,6.0178,6.03,4085.361217,5.8719,6.5527,5.7596,6.4405
5,760199,2000-07-15,2026-08-15,6.1529,6.1277,6.14,4128.003603,5.852,6.4501,5.857,6.4551
6,760199,2000-07-15,2027-05-15,6.1744,6.1495,6.1601,4064.485013,5.8193,6.4003,5.8573,6.4382
7,760199,2000-07-15,2028-08-15,6.2943,6.2682,6.2807,4096.806081,5.8951,6.4451,5.97,6.5201
8,760199,2000-07-15,2030-08-15,6.292,6.2639,6.2767,4085.820301,5.9123,6.4031,5.9949,6.4856
9,760199,2000-07-15,2032-08-15,6.3744,6.32,6.3483,4052.339444,6.0086,6.4612,6.09,6.5426
10,760199,2000-07-15,2033-05-15,6.4166,6.3743,6.3978,3974.202679,6.0714,6.5132,6.1466,6.5884


### Mesma coisa, em uma função

In [33]:
def arruma_base_merc_sec(path_arquivo):
    df = pd.read_excel(path_arquivo, sheet_name="NTN-B", skiprows=3)
    df.columns.values[-4:] = df.iloc[0,-4:]
    df = df.iloc[1:-6,:]
    return(df)

In [34]:
df = arruma_base_merc_sec("ANBIMA.xls")

#Salvar para usar depois
df.to_excel("ANBIMA.xlsx", index=False)

## Parte 3: Concatena dados de hoje a arquivo pré-existente

Vamos supor que o arquivo pré-existente seja o ANBIMA.xlsx

In [46]:
dados_historicos = pd.read_excel("ANBIMA.xlsx")
dados_historicos.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,4.872,4.82,4.8607,4128.949959,4.1873,7.873,3.6289,7.3415
1,760199,2000-07-15,2023-05-15,4.8871,4.8306,4.8555,4098.010168,4.4886,7.2334,3.9195,6.6848
2,760199,2000-07-15,2024-08-15,6.4519,6.4257,6.437,4121.906656,6.3715,7.1089,6.1525,6.8902
3,760199,2000-07-15,2025-05-15,6.0484,6.0178,6.03,4085.361217,5.8719,6.5527,5.7596,6.4405
4,760199,2000-07-15,2026-08-15,6.1529,6.1277,6.14,4128.003603,5.852,6.4501,5.857,6.4551


In [47]:
dados_historicos.shape

(15, 11)

In [48]:
path_dados_de_hoje = baixar_dados_merc_sec(date.today())
dados_de_hoje = arruma_base_merc_sec(path_dados_de_hoje)
dados_de_hoje.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
1,760100,2000-07-15,2023-03-15,4.5766,4.5466,4.5766,4131.653981,3.6289,7.3415,3.3347,7.0745
2,760199,2000-07-15,2023-05-15,4.594,4.5561,4.5797,4102.382409,3.9195,6.6848,3.6358,6.4218
3,760199,2000-07-15,2024-08-15,6.3284,6.2992,6.3164,4130.522109,6.1525,6.8902,6.0314,6.7693
4,760199,2000-07-15,2025-05-15,5.9833,5.9627,5.9735,4091.869295,5.7596,6.4405,5.7031,6.3843
5,760199,2000-07-15,2026-08-15,6.12,6.0923,6.1055,4134.163433,5.857,6.4551,5.8227,6.4208


In [49]:
dados_de_hoje.shape

(15, 11)

In [50]:
dados_historicos = pd.concat([dados_historicos, dados_de_hoje], axis=0)
dados_historicos.head()

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,4.872,4.82,4.8607,4128.949959,4.1873,7.873,3.6289,7.3415
1,760199,2000-07-15,2023-05-15,4.8871,4.8306,4.8555,4098.010168,4.4886,7.2334,3.9195,6.6848
2,760199,2000-07-15,2024-08-15,6.4519,6.4257,6.437,4121.906656,6.3715,7.1089,6.1525,6.8902
3,760199,2000-07-15,2025-05-15,6.0484,6.0178,6.03,4085.361217,5.8719,6.5527,5.7596,6.4405
4,760199,2000-07-15,2026-08-15,6.1529,6.1277,6.14,4128.003603,5.852,6.4501,5.857,6.4551


In [51]:
from datetime import timedelta

In [52]:
dados_historicos.shape

(30, 11)

### Mesma coisa, em uma função

In [53]:
def atualiza_arquivo_historico(path_arquivo_historico):
    
    #Carrega dados históricos
    dados_historicos = pd.read_excel(path_arquivo_historico)
    
    #Carrega dados de hoje
    path_dados_de_hoje = baixar_dados_merc_sec(date.today())
    dados_de_hoje = arruma_base_merc_sec(path_dados_de_hoje)
    
    #Concatena dados de hoje aos dados históricos
    dados_historicos = pd.concat([dados_historicos, dados_de_hoje], axis=0)
    
    return(dados_historicos)

In [54]:
atualiza_arquivo_historico("ANBIMA.xlsx")

Unnamed: 0,Código SELIC,Data Base/Emissão,Data de Vencimento,Tx. Compra,Tx. Venda,Tx. Indicativas,PU,Mínimo (D0),Máximo (D0),Mínimo (D+1),Máximo (D+1)
0,760100,2000-07-15,2023-03-15,4.872,4.82,4.8607,4128.949959,4.1873,7.873,3.6289,7.3415
1,760199,2000-07-15,2023-05-15,4.8871,4.8306,4.8555,4098.010168,4.4886,7.2334,3.9195,6.6848
2,760199,2000-07-15,2024-08-15,6.4519,6.4257,6.437,4121.906656,6.3715,7.1089,6.1525,6.8902
3,760199,2000-07-15,2025-05-15,6.0484,6.0178,6.03,4085.361217,5.8719,6.5527,5.7596,6.4405
4,760199,2000-07-15,2026-08-15,6.1529,6.1277,6.14,4128.003603,5.852,6.4501,5.857,6.4551
5,760199,2000-07-15,2027-05-15,6.1744,6.1495,6.1601,4064.485013,5.8193,6.4003,5.8573,6.4382
6,760199,2000-07-15,2028-08-15,6.2943,6.2682,6.2807,4096.806081,5.8951,6.4451,5.97,6.5201
7,760199,2000-07-15,2030-08-15,6.292,6.2639,6.2767,4085.820301,5.9123,6.4031,5.9949,6.4856
8,760199,2000-07-15,2032-08-15,6.3744,6.32,6.3483,4052.339444,6.0086,6.4612,6.09,6.5426
9,760199,2000-07-15,2033-05-15,6.4166,6.3743,6.3978,3974.202679,6.0714,6.5132,6.1466,6.5884
