# DataFrames em Economia

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo

* Estrutura de Dados 
  * DataFrames - Séries Temporais
  * DataFrames - Cross-Sectional
  * DataFrames - Dados em Painel
* Algumas Fonte de Dados
  * Bacen Data
  * Yahoo Finance Data
  * IBGE Data
  * WoldBank Open Data
* Web Scraping
  * BeautifulSoup
  * Scrapy


### Referências

* Géron, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2019.
* Athey, S., & Imbens, G. (2017). "The State of Applied Econometrics: Causality and Policy Evaluation." *Journal of Economic Perspectives*.
* Mullainathan, S., & Spiess, J. (2017). "Machine Learning: An Applied Econometric Approach." *Journal of Economic Perspectives*.
* Varian, H. R. (2014). "Big Data: New Tricks for Econometrics." *Journal of Economic Perspectives*.

### Introdução

Em econometria e ciência de dados aplicados à economia, é fundamental compreender a estrutura dos dados que estamos analisando. A forma como os dados estão organizados influencia diretamente:

* O tipo de modelo estatístico que podemos aplicar;
* As hipóteses que podem ser testadas;
* As limitações na inferência causal.

Os três principais tipos de estrutura de dados são:

* **Séries Temporais (Time Series)**
* **Dados em Seção Cruzada (Cross-sectional)**
* **Dados em Painel (Panel Data)**

### Séries Temporais

**Definição**

Séries temporais são conjuntos de observações ordenadas no tempo. Em geral, os dados são univariados ou multivariados e possuem frequência temporal regular (diária, mensal, trimestral, anual etc.).

Estrutura típica

In [2]:
import pandas as pd
import numpy as np

# Simulação de série mensal
np.random.seed(42)
dates = pd.date_range(start='2010-01-01', periods=60, freq='M')
gdp = np.cumsum(np.random.normal(0.5, 0.3, size=60)) + 100
inflation = np.random.normal(3, 0.2, size=60)

df_ts = pd.DataFrame({
    'date': dates,
    'gdp': gdp,
    'inflation': inflation
}).set_index('date')

df_ts.head()


Unnamed: 0_level_0,gdp,inflation
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-31,100.649014,2.904165
2010-02-28,101.107535,2.962868
2010-03-31,101.801842,2.778733
2010-04-30,102.75875,2.760759
2010-05-31,103.188504,3.162505


Aplicações
Modelos ARIMA, SARIMA, Prophet

Testes de estacionariedade (ADF, KPSS)

Previsão e análise de tendência/sazonalidade

Cuidados: 
* Não permutáveis no tempo
* Necessidade de estacionariedade em muitos modelos
* Sazonalidade, autocorrelação, heterocedasticidade

### Estrutura de Dados

Nos vamos trabalhar com três tipos de estrutura de dados:

* Séries Temporais - Dados em função do tempo

* Cross-Sectional - Dados em função de variáveis

* Dados em Painel - Dados em função de variáveis e do tempo



## Objetivo da Aula

Nesta aula, vamos aprender a acessar e carregar bases de dados econômicos diretamente do Python utilizando pandas. Faremos exemplos com dados do IBGE, Banco Central do Brasil e fontes internacionais como o World Bank. Ao final, construiremos visualizações básicas que ajudam a explorar esses dados.



In [1]:
from bcb import sgs

# Série histórica do IPCA (código 433) – IPCA mensal
ipca = sgs.get(433, start='2015-01-01')
ipca.head()


Exception: Download error: code = 433