In [91]:
import pandas as pd
import numpy as np
import dask.dataframe as dd
import os

In [92]:
# pega a data máxima de referência
file_path = os.path.join('bases', 'debentures.csv')
if os.path.exists(file_path):
    df_base = pd.read_csv(file_path)
    df_base['data_referencia'] = pd.to_datetime(df_base['data_referencia'])
    print('Máxima data de referência', df_base['data_referencia'].max())

In [93]:
df = dd.read_csv(
    'downloads/*.csv',
    encoding='latin1',
    skiprows=2,
    sep='\t'
)

df = df.dropna(subset=['Ativo'])

del df['Unnamed: 8']

# converte o dataframe dask para pandas
df = df.compute()

In [94]:
df['Data do PU'] = pd.to_datetime(df['Data do PU'], format='%d/%m/%Y', errors='ignore')

df.rename(columns={
    'Data do PU':'data_referencia',
    'Ativo':'ativo',
    'Valor Nominal':'vr_nominal',
    'Juros':'vr_juros',
    'Prêmio':'vr_premio',
    'Preço Unitário':'vr_preco_unitario',
    'Critério de Cálculo':'criterio_calculo',
    'Situação':'situacao'},
    inplace=True
)

df

Unnamed: 0,data_referencia,ativo,vr_nominal,vr_juros,vr_premio,vr_preco_unitario,criterio_calculo,situacao
0,2020-09-28,AALR12,"10.000,000000",63167160,-,"10.063,167160",Padrão - SND,Reg.
1,2020-09-25,AALR12,"10.000,000000",61978830,-,"10.061,978830",Padrão - SND,Reg.
2,2020-09-24,AALR12,"10.000,000000",60790490,-,"10.060,790490",Padrão - SND,Reg.
3,2020-09-23,AALR12,"10.000,000000",59602450,-,"10.059,602450",Padrão - SND,Reg.
4,2020-09-22,AALR12,"10.000,000000",58414490,-,"10.058,414490",Padrão - SND,Reg.
...,...,...,...,...,...,...,...,...
333,2019-06-04,XPVS12,"1.000,000000",0792360,-,"1.000,792360",Padrão - SND,Reg.
334,2019-06-03,XPVS12,"1.000,000000",0528170,-,"1.000,528170",Padrão - SND,Reg.
335,2019-05-31,XPVS12,"1.000,000000",0264050,-,"1.000,264050",Padrão - SND,Reg.
336,2019-05-30,XPVS12,"1.000,000000",-,-,"1.000,000000",Padrão - SND,Reg.


In [95]:
df['vr_nominal'] = df['vr_nominal'].apply(lambda x: x.replace('-', ''))
df['vr_juros'] = df['vr_juros'].apply(lambda x: x.replace('-', ''))
df['vr_premio'] = df['vr_premio'].apply(lambda x: x.replace('-', ''))
df['vr_preco_unitario'] = df['vr_preco_unitario'].apply(lambda x: x.replace('-', ''))

df['vr_nominal'] = df['vr_nominal'].apply(lambda x: x.replace('.',''))
df['vr_juros'] = df['vr_juros'].apply(lambda x: x.replace('.',''))
df['vr_premio'] = df['vr_premio'].apply(lambda x: x.replace('.',''))
df['vr_preco_unitario'] = df['vr_preco_unitario'].apply(lambda x: x.replace('.',''))

df['vr_nominal'] = df['vr_nominal'].apply(lambda x: x.replace(',','.'))
df['vr_juros'] = df['vr_juros'].apply(lambda x: x.replace(',','.'))
df['vr_premio'] = df['vr_premio'].apply(lambda x: x.replace(',','.'))
df['vr_preco_unitario'] = df['vr_preco_unitario'].apply(lambda x: x.replace(',','.'))

df['vr_nominal'] = df['vr_nominal'].apply(lambda x: x.strip())
df['vr_juros'] = df['vr_juros'].apply(lambda x: x.strip())
df['vr_premio'] = df['vr_premio'].apply(lambda x: x.strip())
df['vr_preco_unitario'] = df['vr_preco_unitario'].apply(lambda x: x.strip())

df['vr_nominal'] = pd.to_numeric(df['vr_nominal'], errors='coerce')
df['vr_juros'] = pd.to_numeric(df['vr_juros'], errors='coerce')
df['vr_premio'] = pd.to_numeric(df['vr_premio'], errors='coerce')
df['vr_preco_unitario'] = pd.to_numeric(df['vr_preco_unitario'], errors='coerce')

df

Unnamed: 0,data_referencia,ativo,vr_nominal,vr_juros,vr_premio,vr_preco_unitario,criterio_calculo,situacao
0,2020-09-28,AALR12,10000.0,63.16716,,10063.16716,Padrão - SND,Reg.
1,2020-09-25,AALR12,10000.0,61.97883,,10061.97883,Padrão - SND,Reg.
2,2020-09-24,AALR12,10000.0,60.79049,,10060.79049,Padrão - SND,Reg.
3,2020-09-23,AALR12,10000.0,59.60245,,10059.60245,Padrão - SND,Reg.
4,2020-09-22,AALR12,10000.0,58.41449,,10058.41449,Padrão - SND,Reg.
...,...,...,...,...,...,...,...,...
333,2019-06-04,XPVS12,1000.0,0.79236,,1000.79236,Padrão - SND,Reg.
334,2019-06-03,XPVS12,1000.0,0.52817,,1000.52817,Padrão - SND,Reg.
335,2019-05-31,XPVS12,1000.0,0.26405,,1000.26405,Padrão - SND,Reg.
336,2019-05-30,XPVS12,1000.0,,,1000.00000,Padrão - SND,Reg.


In [96]:
# salva o arquivo de saída
print('Salvando resultado capturado no arquivo', file_path)
df.to_csv(file_path, mode='a', index=False)

Salvando resultado capturado no arquivo bases/debentures.csv
