# Web Scraping
* Através das técnicas de web scraping,utilizando os dados fornecidos pelos sites, serão criados data frames posteriormente serem exportados em uma database criado no postgre
* Os bancos irão conter indices financeiros utilizados no Brasil
* Posteriormente será possível realizar a análise e cruzamento dos daos entre essas e outras tabelas.
* Fontes: 
    * https://www.ecalculos.com.br/utilitarios/ipca-ibge.php
    * 

## Bibliotecas

In [4]:
#Import libraries
import requests
import pandas as pd
from bs4 import BeautifulSoup
from datetime import datetime
import sqlalchemy as db

## Função para criar tables no postgre

In [13]:
def create_table(title: str, df):
    engine = db.create_engine('postgresql://postgres:admin@localhost/financas')
    conn = engine.connect()
    df.to_sql(title, con=conn, if_exists = 'replace', index=False)
    conn.close()    

## Função para gerar data frames das tabelas do site https://www.ecalculos.com.br/

In [5]:
def get_df_ecalculos(col_valor: str, url : str):
    #através da url de pesquisa faz uma requisição get, busca o html do response, convert para o soup
    response = requests.get(url)
    html = response.content
    soup = BeautifulSoup(html)
    #busca entre as tables a com a class definida
    tables = soup.find_all('table', {'class':'table table-striped table-hover table-bck'})
    #cria listas vazias para receber os dados de cada linha das tabelas
    mesano = []
    valor = []
    #busca em cada tabela das todas encontradas com a class especificada anteriormente
    for table in tables:
        #busca por todas as linhas dentro da tabela
        rows = table.find_all('tr')
        #remove o título que não contém dados úteis
        rows.remove(rows[0])
        #busca por cada linha da tabela
        for row in rows:
            #no valor é feito o strip para remover os espaços o replace da virgula em ponto
            valor_row = row.find_all('td')[1].text.strip().replace(',','.')
            #incluido o mês através da primeira tag td, feito o strip para remover espaços
            mesano_row = row.find_all('td')[0].text.strip()
            if valor_row != '--':
                mesano.append(mesano_row)
                valor.append(float(valor_row))
    #cria um DataFrame com as duas listas
    df = pd.DataFrame(list(zip(mesano, valor)))
    # renomeia as colunas
    df.columns = ['mesano', col_valor]
    return df

# ÍNDICE NACIONAL DE PREÇOS AO CONSUMIDOR AMPLO (IPCA)
* índice oficial do Governo Federal para medição das metas inflacionarias
* https://www.ecalculos.com.br/utilitarios/ipca-ibge.php

In [6]:
#cria um data frame através do link com as tables referente aos dados históricos do ipca
df_ipca = get_df_ecalculos(url = 'https://www.ecalculos.com.br/utilitarios/ipca-ibge.php', col_valor='ipca')

# Índice Geral de Preços do Mercado (IGPM) 
* Atua como um indicador da economia. Calculado todos os meses pela Fundação Getúlio Vargas (FGV)
* O cálculo considera a variação dos preços das matérias-primas utilizadas nos ramos agrícola, industrial, da construção civil, de serviços e do comércio varejista.
* https://www.ecalculos.com.br/utilitarios/igpm-fgv.php

In [7]:
#cria um data frame através do link com as tables referente aos dados históricos do igpm
df_igpm = get_df_ecalculos(url = 'https://www.ecalculos.com.br/utilitarios/igpm-fgv.php', col_valor='igpm')

# Poupança
* Rendimento pago mensal pela poupança
* https://www.ecalculos.com.br/utilitarios/correcao-monetaria-poupanca.php


In [8]:
#cria um data frame através do link com as tables referente aos dados históricos da remuneração da poupança
df_poupanca = get_df_ecalculos(url = 'https://www.ecalculos.com.br/utilitarios/correcao-monetaria-poupanca.php', col_valor='poupanca')

# Unindo os data frames em um só e criando tabela no postgre

In [14]:
# faz o merge entre os df
df = pd.merge(df_ipca, df_igpm, how='inner', on=['mesano'])
df = pd.merge(df, df_poupanca, how='inner', on=['mesano'])

#cria tabela diario no postgre
create_table('mensal', df)