# Introdução à Análise de Dados com Python
---

## Capítulo 5: Organização dos Dados

# Tidy Data

Algumas formas de organização dos dados são melhores para uma pessoa analisar outras são mais interessantes para a análise computacional. Hadley Wickham, no artigo [Tidy Data](http://vita.had.co.nz/papers/tidy-data.html), publicado no Journal of Statistical Software, aborda o assunto de forma simples, exemplificando situações onde os dados precisam ser reorganizados para facilitar sua análise. Wickham afirma que:

> "Tidy Data é uma maneira padrão de mapear o significado de um conjunto de dados para sua estrutura. Um conjunto de dados é bagunçado ou organizado, dependendo de como linhas, colunas e tabelas são combinadas com observações, variáveis e tipos."

Em sua abordagem, são definidos três pilares que devem reger a organização de um dataset:

* cada variável forma uma coluna
* cada observação forma uma linha
* cada unidade observacional forma uma tabela

O artigo descreve, ainda, os cinco problemas mais comuns encontrados nos datasets e quais técnicas utilizar para reorganizar os dados para que os pilares citados acima sejam respeitados.

# Dívida e PIB por UF

## Datasets

### Dívida dos Estados por Ano

Este conjunto de dados abrange o estoque da dívida dos Governos estaduais e DF, segregado por administração direta e administração indireta custeada pelo Tesouro estadual.

#### Arquivos:

* dados/de_relatorio_estoque_final.csv
* de_metadados_relatorio_estoque_final.pdf

#### Origem:

http://dados.gov.br/dataset/estoque-da-divida-de-estados-e-do-distrito-federal/resource/f9a981c0-6281-43b2-9238-5270eacd4a77?inner_span=True


### PIB dos Estados por Ano

PIB Estadual a preços de mercado corrente.

#### Arquivos:

* dados/de_ipeadata_pib_estados_preco_de_mercado_corrente.csv

#### Origem:

http://www.ipeadata.gov.br/

http://www.ipeadata.gov.br/SelNivelR.aspx?serid=1540855420&module=R

# Prática

## Exercício 01

Realize a leitura de ambos os datasets e aplique os princípios do Tidy Data para criar um único dataset que deverá conter as informações de PIB e Dívida dos estados.

In [61]:
import pandas as pd
import numpy as np

pd.options.display.max_columns = 500

df_divida = pd.read_csv('dados/de_relatorio_estoque_final.csv', sep=';', encoding='iso-8859-1', skiprows=2)

df_divida.head()

Unnamed: 0,DISCRIMINAÇÃO de credores,ANO,AC,AL,AM,AP,BA,CE,DF,ES,GO,MA,MG,MS,MT,PA,PB,PE,PI,PR,RJ,RN,RO,RR,RS,SC,SE,SP,TO,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42
0,DÍVITA TOTAL (Adm. Direta e Indireta),1996,"496.167.400,00","1.336.063.226,80","1.339.077.760,60","72.350.000,00","5.051.360.926,00","1.914.695.155,20","914.624.000,00","970.495.656,60","5.339.870.576,02","2.390.082.631,32","13.349.756.562,20","1.883.749.902,20","2.927.347.561,80","1.111.113.086,40","1.757.779.520,60","2.539.669.193,20","1.328.789.163,60","2.714.774.210,60","8.858.624.026,00","553.568.706,80","513.126.727,00","78.600.206,03","9.215.137.103,10","3.746.107.567,80","975.204.018,20","50.922.619.418,00","203.010.099,40",,,,,,,,,,,,,,
1,1 - DÍVIDA FUNDADA - Adm. Direta,1996,"434.596.460,00","1.283.160.226,80","1.288.625.760,60","72.350.000,00","4.821.292.351,20","1.579.798.396,40","726.296.000,00","946.436.656,60","5.291.159.576,02","2.390.082.631,32","12.668.173.610,80","1.782.793.068,20","2.726.449.369,20","890.131.390,00","1.681.208.520,60","1.980.472.059,20","1.108.074.565,80","2.298.261.685,00","8.373.711.660,00","533.379.706,80","467.376.063,00","75.013.649,87","9.077.327.371,10","3.403.695.921,80","706.458.319,40","36.173.823.874,20","187.261.099,40",,,,,,,,,,,,,,
2,1.1 - Fundada Interna,1996,"434.596.460,00","1.283.160.226,80","1.288.357.760,60","64.090.000,00","4.593.103.351,20","1.334.449.336,40","637.355.000,00","857.308.656,60","5.247.366.576,02","2.375.922.953,16","12.163.699.040,80","1.781.697.268,20","2.726.449.369,20","822.215.890,00","1.680.893.520,60","1.856.797.059,20","1.105.110.565,80","1.881.488.685,00","8.321.092.660,00","533.379.706,80","467.376.063,00","75.013.649,87","8.807.683.832,10","3.172.663.921,80","686.942.319,40","35.879.818.874,20","132.327.099,40",,,,,,,,,,,,,,
3,1.1.1 - Contratual,1996,"434.596.460,00","879.160.226,80","1.288.357.760,60","64.090.000,00","3.855.103.351,20","1.236.449.336,40","637.355.000,00","735.308.656,60","4.546.366.576,02","2.375.922.953,16","3.390.699.040,80","1.509.697.268,20","2.546.776.369,20","822.215.890,00","1.626.893.520,60","1.287.797.059,20","1.105.110.565,80","1.491.488.685,00","2.386.092.660,00","533.379.706,80","467.376.063,00","75.013.649,87","2.264.562.931,10","1.721.663.921,80","490.942.319,40","17.156.818.874,20","132.327.099,40",,,,,,,,,,,,,,
4,1.1.1.1 - União,1996,"434.596.460,00","815.888.226,80","1.288.357.760,60","64.090.000,00","3.807.775.351,20","1.232.792.606,40","489.548.000,00","727.080.656,60","4.545.228.576,02","2.255.692.730,35","2.543.450.840,80","1.324.624.768,20","2.351.183.369,20","817.805.490,00","1.553.995.520,60","1.287.797.059,20","1.105.110.565,80","1.102.640.685,00","1.974.612.660,00","533.379.706,80","359.961.063,00","75.013.649,87","2.254.844.272,10","1.554.335.921,80","490.942.319,40","2.821.053.874,20","132.327.099,40",,,,,,,,,,,,,,


In [68]:
df_divida_1 = df_divida[df_divida['DISCRIMINAÇÃO de credores'] == 'DÍVITA TOTAL (Adm. Direta e Indireta)'].copy()
df_divida_1 = df_divida_1.loc[:, 'ANO':'TO'].reset_index(drop=True)
df_divida_1 = pd.melt(df_divida_1, id_vars=['ANO'], var_name='UF', value_name='DIVIDA')
df_divida_1['ANO'] = df_divida_1['ANO'].astype(np.int64)
df_divida_1['UF'] = df_divida_1['UF'].astype(str)
df_divida_1.head()

Unnamed: 0,ANO,UF,DIVIDA
0,1996,AC,"496.167.400,00"
1,1997,AC,"518.193.236,05"
2,1998,AC,"545.164.412,53"
3,1999,AC,"791.895.413,30"
4,2000,AC,"715.259.628,70"


In [78]:
df_pib = pd.read_csv('dados/de_ipeadata_pib_estados_preco_de_mercado_corrente.csv', sep=';', skiprows=1)
df_pib = df_pib.loc[:,'Sigla':'2012'].drop(['Código','Estado'], axis=1).reset_index(drop=True)
df_pib = pd.melt(df_pib, id_vars=['Sigla'], var_name='ANO', value_name='PIB').rename(columns={'Sigla':'UF'})
df_pib['ANO'] = df_pib['ANO'].astype(np.int64)
df_pib['UF'] = df_pib['UF'].astype(str)
df_pib = df_pib[['ANO','UF','PIB']]
df_pib.head()

Unnamed: 0,ANO,UF,PIB
0,1990,AC,1599639309
1,1990,AL,8160226627
2,1990,AM,2100455169
3,1990,AP,1859140125
4,1990,BA,5189828251


In [79]:
df_pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 621 entries, 0 to 620
Data columns (total 3 columns):
ANO    621 non-null int64
UF     621 non-null object
PIB    621 non-null object
dtypes: int64(1), object(2)
memory usage: 14.6+ KB


In [80]:
df_divida_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 567 entries, 0 to 566
Data columns (total 3 columns):
ANO       567 non-null int64
UF        567 non-null object
DIVIDA    567 non-null object
dtypes: int64(1), object(2)
memory usage: 13.4+ KB


In [81]:
df_pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 621 entries, 0 to 620
Data columns (total 3 columns):
ANO    621 non-null int64
UF     621 non-null object
PIB    621 non-null object
dtypes: int64(1), object(2)
memory usage: 14.6+ KB


In [85]:
df_final = pd.merge(df_divida_1, df_pib, left_on=['ANO','UF'], right_on=['ANO','UF'], how='inner')

def to_float(x):
    try:
        return float(x.replace('.','').replace(',','.'))
    except:
        return np.nan

df_final['PIB'] = df_final['PIB'].apply(to_float)
df_final['DIVIDA'] = df_final['DIVIDA'].apply(to_float)

df_final.head()

Unnamed: 0,ANO,UF,DIVIDA,PIB
0,1996,AC,496167400.0,1459645.547
1,1997,AC,518193200.0,1555306.521
2,1998,AC,545164400.0,1694328.657
3,1999,AC,791895400.0,1866542.316
4,2000,AC,715259600.0,2154284.485


## Exercício 02

Utilize interpolação para completar os valores de PIB faltantes no Dataset.