# Aula 5 - Pandas

Hoje, vamos falar de exploração de dados usando o Pandas, e finalizar nosso processamento de dados.

---

## Reshaping

In [1]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_table('data/dados_religiao_income.txt',
                   header=0, sep=' ')

In [4]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

In [5]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [6]:
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

In [7]:
# Nosso novo dataframe agora terá o formato de tidy data.
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


In [8]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


Também podemos juntar dataframes do Pandas, usando o método "concat".

In [9]:
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

df2 = pd.DataFrame({'nome':['nós', 'vós', 'eles/elas'],
                    'val':[2, 2, 2]})

In [10]:
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

## Exploração de dados: Estatísticas

In [12]:
df = pd.read_table('data/dados_parciais.txt', sep=';', decimal=',')

In [13]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


In [14]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [15]:
# Também podemos fazer uma estatística de cada vez.
df.mean()

  df.mean()


superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [16]:
df.quantile([0.25, 0.75])

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.25,53307.0,1580216.5,475874.5,1874890.0
0.75,333366.0,5095113.0,2024133.0,7104462.5


In [17]:
df.min(numeric_only=True)

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

In [18]:
# Se quisermos estatísticas separadas para cada UF, podemos usar o groupby.
df.groupby('regiao').mean(numeric_only=True)

Unnamed: 0_level_0,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,1170921.0,2216459.0,408911.0,2625370.0
Nordeste,156117.8,3243633.0,1730612.0,4974245.0
Norte,552805.6,1005618.0,607252.3,1612870.0
Sudeste,231821.8,14956490.0,1794278.0,16750770.0
Sul,192404.7,6052783.0,1786127.0,7838910.0


In [21]:
# Nós também podemos juntar tabelas diferentes, usando o método "merge"
df_muni = pd.read_table('data/populacao_brasileira_por_municipio.txt',
                        sep=';',
                        thousands='.')

In [22]:
df_muni.head(10)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052
7,RO,11,80,Costa Marques,19255
8,RO,11,98,Espigão D'Oeste,33009
9,RO,11,106,Guajará-Mirim,46930


In [23]:
# Vamos colocar a região de cada UF na tabela acima, e 
# encontrar a população média por município para cada região.
df.uf

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

Perceba que temos Ilhas, Litígio e que tem duas estrelas em pernambuco. Vamos limpar isso primeiro.

In [24]:
df2 = df.loc[~df.uf.isin(['Ilhas***', 'Litígio*'])].copy()

In [25]:
df2.uf

0       RO
1       AC
2       AM
3       RR
4       PA
5       AP
6       TO
7       MA
8       PI
10      CE
11      RN
12      PB
13    PE**
14      AL
15      SE
16      BA
17      MG
18      ES
19      RJ
20      SP
21      PR
22      SC
23      RS
24      MS
25      MT
26      GO
27      DF
Name: uf, dtype: object

In [26]:
df2.at[13, 'uf'] = 'PE'

In [27]:
df2

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0


In [28]:
df3 = df2[['regiao', 'uf']].copy()

In [29]:
df3

Unnamed: 0,regiao,uf
0,Norte,RO
1,Norte,AC
2,Norte,AM
3,Norte,RR
4,Norte,PA
5,Norte,AP
6,Norte,TO
7,Nordeste,MA
8,Nordeste,PI
10,Nordeste,CE


In [30]:
df_reg = df_muni.merge(df3, left_on=['UF'], right_on=['uf'], how='left')

In [31]:
df_reg

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,regiao,uf
0,RO,11,15,Alta Floresta D'Oeste,22516,Norte,RO
1,RO,11,23,Ariquemes,111148,Norte,RO
2,RO,11,31,Cabixi,5067,Norte,RO
3,RO,11,49,Cacoal,86416,Norte,RO
4,RO,11,56,Cerejeiras,16088,Norte,RO
...,...,...,...,...,...,...,...
5565,GO,52,22005,Vianópolis,14088,Centro-Oeste,GO
5566,GO,52,22054,Vicentinópolis,9002,Centro-Oeste,GO
5567,GO,52,22203,Vila Boa,6451,Centro-Oeste,GO
5568,GO,52,22302,Vila Propício,5941,Centro-Oeste,GO


In [32]:
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA':['mean', 'std']})

Unnamed: 0_level_0,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA
Unnamed: 0_level_1,mean,std
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2
Centro-Oeste,35775.880086,172714.901533
Nordeste,32144.839465,120513.137652
Norte,42015.471111,140141.406672
Sudeste,53736.757794,364442.832617
Sul,25526.941226,88461.904412
