**Coleta dos Dados e Web Scraping**

### Instalar bibliotecas

Vamos instalar todos as bibliotecas que utilizaremos

In [None]:
# Importação e estruturação da biblioteca Pandas (ler, manipular, agregar e plotar os dados)
# Muito utilizado para Análise Exploratória de Dados (EDA)
import pandas as pd
# Configuração da exibição do Dataframe
pd.set_option("display.max_colwidth", 140) # Configura as colunas
pd.set_option("display.min_rows", 20) # Configura as linhas do meu dataframe.

Vamos importar a biblioteca Numpy, responsável pelas funções matemáticas

Guarde todas as informações das bibliotecas Pandas e Numpy

In [None]:
# Importar a biblioteca Numpy: específica para funções matemáticas
# Uma boa prática é sempre instalar com a sigla "np"
import numpy as np

### Coletando dados com Web Scraping

Vamos instalar o yfinance: https://pypi.org/project/yfinance/

In [None]:
# Instalar o Yahoo Finance
# yfinance busca fazer o download dos dados do Yahoo! finance (https://pypi.org/project/yfinance/).
!pip install yfinance
import yfinance as yf # Sempre usar yf para esta biblioteca.

Collecting yfinance
  Downloading https://files.pythonhosted.org/packages/7a/e8/b9d7104d3a4bf39924799067592d9e59119fcfc900a425a12e80a3123ec8/yfinance-0.1.55.tar.gz
Collecting lxml>=4.5.1
[?25l  Downloading https://files.pythonhosted.org/packages/d2/88/b25778f17e5320c1c58f8c5060fb5b037288e162bd7554c30799e9ea90db/lxml-4.6.2-cp37-cp37m-manylinux1_x86_64.whl (5.5MB)
[K     |████████████████████████████████| 5.5MB 20.2MB/s 
Building wheels for collected packages: yfinance
  Building wheel for yfinance (setup.py) ... [?25l[?25hdone
  Created wheel for yfinance: filename=yfinance-0.1.55-py2.py3-none-any.whl size=22616 sha256=a3e0a71be1b138a2ef927e84a19d5eb9e333d2214218b6f25e6059846fea04e2
  Stored in directory: /root/.cache/pip/wheels/04/98/cc/2702a4242d60bdc14f48b4557c427ded1fe92aedf257d4565c
Successfully built yfinance
Installing collected packages: lxml, yfinance
  Found existing installation: lxml 4.2.6
    Uninstalling lxml-4.2.6:
      Successfully uninstalled lxml-4.2.6
Successfull

In [None]:
# Programação específica apenas para o Google Colaboratory
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [None]:
# Vamos buscar os dados do Tesouro Direto.
def busca_titulos_tesouro_direto():
  url = 'https://www.tesourotransparente.gov.br/ckan/dataset/df56aa42-484a-4a59-8184-7676580c81e3/resource/796d2059-14e9-44e3-80c9-2d9e30b405c1/download/PrecoTaxaTesouroDireto.csv'
  df  = pd.read_csv(url, sep=';', decimal=',')
  df['Data Vencimento'] = pd.to_datetime(df['Data Vencimento'], dayfirst=True)
  df['Data Base']       = pd.to_datetime(df['Data Base'], dayfirst=True)
  multi_indice = pd.MultiIndex.from_frame(df.iloc[:, :3])
  df = df.set_index(multi_indice).iloc[: , 3:]  
  return df

In [None]:
titulos = busca_titulos_tesouro_direto() # Criamos os títulos e adicionamos "busca_titulos_tesouro_direto()" a este.

In [None]:
# Ver os dados das 5 primeiras colunas e 5 primeiras linhas
titulos.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Tipo Titulo,Data Vencimento,Data Base,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-10,9.86,9.92,1519.01,1514.72,1513.94
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-11,9.85,9.91,1520.51,1516.22,1515.44
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-12,9.84,9.9,1522.01,1517.72,1516.94
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-13,9.8,9.86,1525.66,1521.37,1520.58
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-14,9.92,9.98,1465.75,1461.48,1512.79
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-17,9.8,9.86,1475.12,1470.83,1470.03
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-18,9.79,9.85,1476.63,1472.34,1472.09
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-19,9.7,9.76,1483.91,1479.59,1478.79
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-20,9.7,9.76,1484.71,1480.39,1479.59
Tesouro IPCA+ com Juros Semestrais,2015-05-15,2008-11-21,9.7,9.76,1486.01,1481.69,1480.39


In [None]:
# Ver os dados das últimas 5 linhas
titulos.tail(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Tipo Titulo,Data Vencimento,Data Base,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-04,11.09,11.15,963.47,960.52,960.12
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-05,11.16,11.22,960.43,957.5,957.09
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-08,11.11,11.17,963.29,960.35,959.94
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-09,11.32,11.38,953.44,950.54,950.14
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-10,11.49,11.55,945.67,942.81,942.4
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-11,11.51,11.57,945.12,942.27,941.86
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-12,11.35,11.41,953.21,950.32,949.91
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-15,11.71,11.77,936.47,933.65,933.24
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-16,11.62,11.68,941.12,938.29,937.88
Tesouro Prefixado com Juros Semestrais,2023-01-01,2014-09-17,11.47,11.53,948.67,945.81,945.4


In [None]:
titulos.sort_index(inplace=True)
titulos.head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Tipo Titulo,Data Vencimento,Data Base,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2004-12-31,9.23,9.25,1776.67,1776.51,1827.87


In [None]:
titulos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Tipo Titulo,Data Vencimento,Data Base,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2004-12-31,9.23,9.25,1776.67,1776.51,1827.87
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2005-01-03,9.23,9.25,1777.71,1777.55,1776.51
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2005-01-04,9.26,9.28,1778.52,1778.36,1777.32
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2005-01-05,9.28,9.3,1779.4,1779.25,1778.2
Tesouro IGPM+ com Juros Semestrais,2005-07-01,2005-01-06,9.31,9.33,1780.21,1780.06,1779.01


In [None]:
tipos_titulos = titulos.index.droplevel(level=1).droplevel(level=1).drop_duplicates().to_list()
tipos_titulos

['Tesouro IGPM+ com Juros Semestrais',
 'Tesouro IPCA+',
 'Tesouro IPCA+ com Juros Semestrais',
 'Tesouro Prefixado',
 'Tesouro Prefixado com Juros Semestrais',
 'Tesouro Selic']

In [None]:
pre2023 = titulos.loc[('Tesouro Prefixado', '2023-01-01')]
pre2023.head(2)

Unnamed: 0_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Data Base,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-01-26,16.59,16.65,346.72,345.49,345.28
2016-01-27,16.32,16.38,352.52,351.27,351.06


In [None]:
pre2023.head(2)

Unnamed: 0_level_0,Taxa Compra Manha,Taxa Venda Manha,PU Compra Manha,PU Venda Manha,PU Base Manha
Data Base,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-01-26,16.59,16.65,346.72,345.49,345.28
2016-01-27,16.32,16.38,352.52,351.27,351.06


In [None]:
pre2023.columns

Index(['Taxa Compra Manha', 'Taxa Venda Manha', 'PU Compra Manha',
       'PU Venda Manha', 'PU Base Manha'],
      dtype='object')

In [None]:
pre2023.index

DatetimeIndex(['2016-01-26', '2016-01-27', '2016-01-28', '2016-01-29',
               '2016-02-01', '2016-02-02', '2016-02-03', '2016-02-04',
               '2016-02-05', '2016-02-10',
               ...
               '2021-01-28', '2021-01-29', '2021-02-01', '2021-02-02',
               '2021-02-03', '2021-02-04', '2021-02-05', '2021-02-08',
               '2021-02-09', '2021-02-10'],
              dtype='datetime64[ns]', name='Data Base', length=1254, freq=None)

In [None]:
pre2023.shape


(1254, 5)