# Python para economistas

### Importação de dados

Nesta aula mostraremos como importar dados de diferentes fontes e formatos no Python. Esta lista não é exaustiva. Assim, se você precisar importar para o Python algum arquivo com formato diferente dos citados, é quase certo que há uma maneira de fazer isso. 

### API

É o caminho mais natural e automatizável de fazer a importação de dados no Python. Para isso, basta instalar a biblioteca que traz a interface junto a API que você deseja extrair os dados e utilizar as funções específicas do pacote. Cada biblioteca vai ter funções específicas, ou seja, é preciso ler a documentação da biblioteca em questão. Para procurar pacotes e suas documentações, acesse https://pypi.org/.

Para mostrar um exemplo, iremos mostrar o uso da biblioteca "sidrapy", que permite acesso ao API do SIDRA-IBGE. É preciso saber o número da tabela do sidra que desejamos extrair, no caso a 1419, que mostra os dados de inflação. Veja que há outros argumentos na função que servem como filtros dos dados. 

In [33]:
pip install -U sidrapy

Note: you may need to restart the kernel to use updated packages.


In [34]:
##ACESSO API SIDRA-IBGE

import sidrapy

data = sidrapy.get_table(table_code="1419", territorial_level="1", 
                         ibge_territorial_code="all", period="last 12")

data.head()

Unnamed: 0,NC,NN,MC,MN,V,D1C,D1N,D2C,D2N,D3C,D3N,D4C,D4N
0,Nível Territorial (Código),Nível Territorial,Unidade de Medida (Código),Unidade de Medida,Valor,Brasil (Código),Brasil,Mês (Código),Mês,Variável (Código),Variável,"Geral, grupo, subgrupo, item e subitem (Código)","Geral, grupo, subgrupo, item e subitem"
1,1,Brasil,2,%,0.32,1,Brasil,201901,janeiro 2019,63,IPCA - Variação mensal,7169,Índice geral
2,1,Brasil,2,%,0.32,1,Brasil,201901,janeiro 2019,69,IPCA - Variação acumulada no ano,7169,Índice geral
3,1,Brasil,2,%,3.78,1,Brasil,201901,janeiro 2019,2265,IPCA - Variação acumulada em 12 meses,7169,Índice geral
4,1,Brasil,2,%,100.0000,1,Brasil,201901,janeiro 2019,66,IPCA - Peso mensal,7169,Índice geral


### Excel

Para importar arquivos de excel, iremos utilizar a biblioteca Pandas. Assim, a função "read_excel" importa no formato dataframe. Além do Pandas, é necessário instalar a biblioteca "openpyxl".

Como o arquivo que estamos utilizando está dentro da pasta do projeto, é apenas necessário colocar o nome do arquivo e o formato. Caso contrário, seria necessário indicar o caminho dele dentro de seu computador (ex: "./arquivos/excel/iris.xlsx")

In [32]:
pip install openpyxl




In [30]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [29]:
import pandas as pd

iris_excel = pd.read_excel('iris.xlsx')
iris_excel

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### CSV


Importar arquivos no formato CSV é semelhante ao que fizemos com arquivos de excel. 

In [28]:
import pandas as pd

iris_csv = pd.read_csv('iris.csv')  
iris_csv

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### Stata


Para importar dados do Stata (formato dta) é preciso utilizar a biblioteca "pyreadstat". A função retorna duas partes do arquivo: os dados e os metadados, que são informações sobre a base. Assim, é preciso colocar os resultados da função em dois objetos diferentes, o que é feito separando os arquivos do lado esquerdo por uma virgula. 

In [27]:
pip install pyreadstat

Note: you may need to restart the kernel to use updated packages.


In [26]:
import pyreadstat

olympics, meta = pyreadstat.read_dta('olympics.dta')

In [25]:
olympics.head()

Unnamed: 0,country,year,gdp,pop,gold,silver,bronze,medaltot,host,planned,soviet
0,1.0,80.0,26600000000.0,16000000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1.0,84.0,29900000000.0,17600000.0,,,,,0.0,0.0,0.0
2,2.0,80.0,2450000000.0,2671000.0,,,,,0.0,1.0,0.0
3,2.0,84.0,2660000000.0,2897000.0,,,,,0.0,1.0,0.0
4,2.0,88.0,2800000000.0,3138000.0,,,,,0.0,1.0,0.0


In [24]:
meta.notes

['Andrew B. Bernard and Meghan R. Busse "Who wins the olympic games: Economic resources and medal totals," The Review of Economics and Statistics, February 2004, 86(1), 413-417.',
 '1']

### PDF

Muitas vezes pode ser interessante, ou necessário, extrair informações de arquivos PDF. Colocamos dois exemplos diferentes desse tipo de caso. No primeiro, estamos interessados em extrair o texto do pdf, para fazer uma análise de sentimentos, por exemplo. No segundo, os dados estão tabulados no formato PDF. 

Para o primeiro caso, utilizamos a biblioteca "textract", que fornece um procedimento bastante simples. Já no segundo caso, utilizamos a biblioteca "tabula-py", que trabalha com algoritmos que permitem identificar a formatação da tabela e a transformação destes dados em um dataframe comum. Como no nosso exemplo, temos várias tabelas diferentes espalhadas pelo pdf, a função retorna uma lista. Assim, para acessar uma tabela em específico, tudo que precisamos fazer é acessar o elemento desta tabela na lista.

In [63]:
pip install textract

Note: you may need to restart the kernel to use updated packages.


In [71]:
import textract

text = textract.process("exemplo.pdf")
text

ShellError: The command `pdftotext exemplo.pdf -` failed with exit code 127
------------- stdout -------------
------------- stderr -------------


In [68]:
pip install tabula-py

Collecting tabula-pyNote: you may need to restart the kernel to use updated packages.
  Downloading tabula_py-2.5.0-py3-none-any.whl (12.0 MB)
     ---------------------------------------- 12.0/12.0 MB 9.2 MB/s eta 0:00:00
Collecting distro
  Downloading distro-1.7.0-py3-none-any.whl (20 kB)
Installing collected packages: distro, tabula-py
Successfully installed distro-1.7.0 tabula-py-2.5.0



In [70]:
import tabula

# Read pdf into list of DataFrame
lista = tabula.read_pdf("exemplo_tabela.pdf", pages='all', 
                        multiple_tables=True,silent=True)

lista[0]

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear
0,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4
1,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4
2,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4
3,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3
4,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3
5,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3
6,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3
7,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4
8,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4
9,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4
