# Aula 5 - Introdução a Pandas, pt4

Hoje, vamos falar de exploração de dados usando o Pandas, e finalizar nosso processamento de dados.

---

## Reshaping

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_table('dados/dados_religiao_income.txt',
                   header=0, sep=' ')

In [None]:
df

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

In [None]:
df.columns

In [None]:
value_cols = [col for col in df.columns if col != 'religion']
value_cols

In [None]:
# Nosso novo dataframe agora terá o formato de tidy data.
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

Também podemos juntar dataframes do Pandas, usando o método "concat".

In [None]:
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

df2 = pd.DataFrame({'nome':['nós', 'vós', 'eles/elas'],
                    'val':[2, 2, 2]})

In [None]:
pd.concat([df1, df2])

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

## Exploração de dados: Estatísticas

In [None]:
df = pd.read_table('dados_parciais.txt', sep=';', decimal=',')

In [None]:
df.head(3)

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
# Também podemos fazer uma estatística de cada vez.
df.mean()

In [None]:
df.quantile([0.25, 0.75])

In [None]:
df.min(numeric_only=True)

In [None]:
# Se quisermos estatísticas separadas para cada UF, podemos usar o groupby.
df.groupby('regiao').mean(numeric_only=True)

In [None]:
# Nós também podemos juntar tabelas diferentes, usando o método "merge"
df_muni = pd.read_table('dados/populacao_brasileira_por_municipio.txt',
                        sep=';',
                        thousands='.')

In [None]:
df_muni.head(10)

In [None]:
# Vamos colocar a região de cada UF na tabela acima, e 
# encontrar a população média por município para cada região.
df.uf

Perceba que temos Ilhas, Litígio e que tem duas estrelas em pernambuco. Vamos limpar isso primeiro.

In [None]:
df2 = df.loc[~df.uf.isin(['Ilhas***', 'Litígio*'])].copy()

In [None]:
df2.uf

In [None]:
df2.at[13, 'uf'] = 'PE'

In [None]:
df2

In [None]:
df3 = df2[['regiao', 'uf']].copy()

In [None]:
df3

In [None]:
df_reg = df_muni.merge(df3, left_on=['UF'], right_on=['uf'], how='left')

In [None]:
df_reg

In [None]:
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA':['mean', 'std']})