# Tratamento de Dados

**TAREFA**

Webscraping, coleta e preparação dos DataFrames.

Os dados consistem em uma base que contém as features:
* IGP-M,
* Var. % no PIB nominal, 
* Spread NTN-B, inclinação da curva 
* indicador de concessão de crédito.

 Como target, será importado o desempenho do **ETF FIND11**, que segue o IFNC, índice de desempenho das maiores instituições financeiras do país. 

### Importação de Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import yfinance as yf

### Importação Target

In [2]:
data = yf.download("FIND11.SA",
                   start = '2020-01-01',
                   period = "1y", # 1d,5d,1mo,3mo,6mo,1y,2y,5y,10y,ytd,max
                   interval = "1mo") # 1m,2m,5m,15m,30m,60m,90m,1h,1d,5d,1wk,1mo,3mo
                   
target = data["Adj Close"].pct_change().dropna()

[*********************100%***********************]  1 of 1 completed


### Importação Features

Fontes: 

https://www3.bcb.gov.br/sgspub/localizarseries/localizarSeries.do?method=prepararTelaLocalizarSeries

https://dadosabertos.bcb.gov.br/dataset/20542-saldo-da-carteira-de-credito-com-recursos-livres---total/resource/6e2b0c97-afab-4790-b8aa-b9542923cf88

http://www.ipeadata.gov.br/ExibeSerie.aspx?serid=521274780&module=M

In [3]:
def get_BCB(codigo_serie):
    url = f"https://api.bcb.gov.br/dados/serie/bcdata.sgs.{codigo_serie}/dados?formato=json"
    df = pd.read_json(url)
    df["data"] = pd.to_datetime(df["data"], dayfirst = True)
    df.set_index("data", inplace = True)
    df["valor"] = df["valor"].astype(float)
    return df

def get_pib(url):
    pib = pd.read_html(url)[2]
    pib.columns = pib.loc[0]
    pib.drop(0, axis = 0, inplace = True)
    pib.reset_index(drop = True, inplace = True)

    datas, pibs = [], []
    for i in range(len(pib)):
        data_iter = pib.iloc[i, 0].replace(".", "")
        pib_iter = float(pib.iloc[i, 1].replace(".", ""))/10000    
        datas.append(data_iter)
        pibs.append(pib_iter)

    pib["Data"] = pd.to_datetime(datas, format = "%Y%m")
    pib["PIB"] = pibs
    pib.set_index("Data", inplace = True)
    
    return pib

In [6]:
pib

Unnamed: 0_level_0,PIB
Data,Unnamed: 1_level_1
1990-01-01,0.2
1990-02-01,0.4
1990-03-01,0.8
1990-04-01,0.7
1990-05-01,0.8
...,...
2022-08-01,856615.5
2022-09-01,827490.4
2022-10-01,826638.8
2022-11-01,837324.0


In [4]:
igpm = get_BCB(189)
credito_pib = get_BCB(20622)
div_liq = get_BCB(4536)
pib = get_pib("http://www.ipeadata.gov.br/ExibeSerie.aspx?serid=521274780&module=M")

### Unindo valores em um dataframe