# Aula 5 - Introdução a Pandas, pt4

Hoje, vamos falar de exploração de dados usando o Pandas, e finalizar nosso processamento de dados.

---

## Reshaping

In [None]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_table('/Users/magnovaldo/Documents/Training/lets_code/ds_boticario/boti_pipe/data/dados_religiao_income.txt',
                   header=0, sep=' ')

In [3]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

In [4]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [5]:
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

In [6]:
# Nosso novo dataframe agora terá o formato de tidy data.
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


In [7]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


Também podemos juntar dataframes do Pandas, usando o método "concat".

In [9]:
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

df2 = pd.DataFrame({'nome':['nós', 'vós', 'eles/elas'],
                    'val':[2, 2, 2]})

In [10]:
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

## Exploração de dados: Estatísticas

In [None]:
df = pd.read_table('dados_parciais.txt', sep=';', decimal=',')

In [None]:
df.head(3)

In [13]:
df.describe()

Unnamed: 0,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,134.2,188.1,223.0,212.6,193.2,328.4
std,205.433,306.461,370.236,338.248,308.834,523.265
min,1.0,9.0,7.0,9.0,10.0,30.0
25%,16.0,19.5,24.25,24.25,23.25,40.75
50%,23.5,27.0,33.5,43.0,34.0,82.5
75%,177.75,191.5,192.0,198.75,166.75,201.5
max,575.0,869.0,1064.0,982.0,881.0,1486.0


In [12]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
pd.set_option('display.float_format', lambda x: '%.3f' % x)
df.describe()


Unnamed: 0,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,134.2,188.1,223.0,212.6,193.2,328.4
std,205.433,306.461,370.236,338.248,308.834,523.265
min,1.0,9.0,7.0,9.0,10.0,30.0
25%,16.0,19.5,24.25,24.25,23.25,40.75
50%,23.5,27.0,33.5,43.0,34.0,82.5
75%,177.75,191.5,192.0,198.75,166.75,201.5
max,575.0,869.0,1064.0,982.0,881.0,1486.0


In [None]:
# Também podemos fazer uma estatística de cada vez.
df.mean()

In [None]:
df.quantile([0.25, 0.75])

In [None]:
df.min(numeric_only=True)

In [None]:
# Se quisermos estatísticas separadas para cada UF, podemos usar o groupby.
df.groupby('regiao').mean(numeric_only=True)

In [None]:
# Nós também podemos juntar tabelas diferentes, usando o método "merge"
df_muni = pd.read_table('dados/populacao_brasileira_por_municipio.txt',
                        sep=';',
                        thousands='.')

In [None]:
df_muni.head(10)

In [None]:
# Vamos colocar a região de cada UF na tabela acima, e 
# encontrar a população média por município para cada região.
df.uf

Perceba que temos Ilhas, Litígio e que tem duas estrelas em pernambuco. Vamos limpar isso primeiro.

In [None]:
df2 = df.loc[~df.uf.isin(['Ilhas***', 'Litígio*'])].copy()

In [None]:
df2.uf

In [None]:
df2.at[13, 'uf'] = 'PE'

In [None]:
df2

In [None]:
df3 = df2[['regiao', 'uf']].copy()

In [None]:
df3

In [None]:
df_reg = df_muni.merge(df3, left_on=['UF'], right_on=['uf'], how='left')

In [None]:
df_reg

In [None]:
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA':['mean', 'std']})