# Pandas

In [1]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [2]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [3]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [4]:
indices = ["a", "b", "c", "d", "e"]
serie_pandas = pd.Series(data=lista, index=indices, name="coluna1")

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [5]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [6]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

# Máscara booleana simples
notas[notas >= 0]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64

In [7]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[((notas >= 0) & (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
23     3
24     5
25     9
26     6
28     5
29     7
dtype: int64

In [8]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64

In [9]:
# E também fazer o inverso
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int64

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [10]:
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int64

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [11]:
notas.unique()

array([ 9,  6, 10,  7,  5,  8,  4,  3, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [12]:
notas.value_counts()

10    5
7     5
9     4
5     4
6     3
8     3
4     2
3     2
11    2
dtype: int64

In [13]:
# frequencia relativa
notas.value_counts(normalize=True)

10    0.166667
7     0.166667
9     0.133333
5     0.133333
6     0.100000
8     0.100000
4     0.066667
3     0.066667
11    0.066667
dtype: float64

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [14]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [15]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [16]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


A partir de um arquivo

In [17]:
df = pd.read_table('dados_religiao_income.txt',
                   header=0, sep=' ')

In [18]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [19]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [20]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [21]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


### pivot_table

In [22]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [23]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [24]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [25]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


In [26]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [27]:
new_df2

Unnamed: 0,nome,val
4,nós,2
5,vós,2
6,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [28]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1,nós,2
1,tu,1,vós,2
2,ele/ela,1,eles/elas,2


In [29]:
pd.concat([df1, new_df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1.0,,
1,tu,1.0,,
2,ele/ela,1.0,,
4,,,nós,2.0
5,,,vós,2.0
6,,,eles/elas,2.0


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [30]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [35]:
df1.columns = ['nome_modificado', 'valor']
df1.head()

Unnamed: 0,nome_modificado,valor
0,eu,1
1,tu,1
2,ele/ela,1


## Exploração de dados: Estatísticas

In [31]:
df = pd.read_table('dados_parciais.txt', sep=';', decimal=',')

### Head

In [32]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


### Tail

In [33]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


### Describe

In [34]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [36]:
stats = df.describe()
type(stats)

pandas.core.frame.DataFrame

In [37]:
stats['pop_urbana']

count    2.700000e+01
mean     4.558599e+06
std      6.443718e+06
min      1.742770e+05
25%      1.580216e+06
50%      2.176006e+06
75%      5.095113e+06
max      3.176922e+07
Name: pop_urbana, dtype: float64

In [42]:
salarios = [5000, 3000, 6000, 15000, 4000, 45000, 40000, 50000]

import numpy as np

print('Média:', np.mean(salarios))
print('Mediana:', np.median(salarios))

Média: 21000.0
Mediana: 10500.0


### Outras estatísticas

In [43]:
# calculando uma estatística por vez
df.mean()

  


superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [44]:
df.median()

  """Entry point for launching an IPython kernel.


superficie     199709.0
pop_urbana    2176006.0
pop_rural      715174.0
total         2802707.0
dtype: float64

In [45]:
df.quantile([0.25, 0.75])

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.25,53307.0,1580216.5,475874.5,1874890.0
0.75,333366.0,5095113.0,2024133.0,7104462.5


In [46]:
df.quantile([0.01, 0.99])

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.01,840.76,210969.24,55105.1,281536.28
0.99,2899074.0,26908525.76,4424729.0,29584460.86


In [47]:
df.min(numeric_only=True)

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

In [48]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0


In [49]:
# se quisermos estatísticas separadas por região
df.groupby('regiao').mean()

Unnamed: 0_level_0,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,1170921.0,2216459.0,408911.0,2625370.0
Nordeste,156117.8,3243633.0,1730612.0,4974245.0
Norte,552805.6,1005618.0,607252.3,1612870.0
Sudeste,231821.8,14956490.0,1794278.0,16750770.0
Sul,192404.7,6052783.0,1786127.0,7838910.0


### Importando novo Dataframe

In [50]:
# importando o dataframe de municípios
df_muni = pd.read_table('populacao_brasileira_por_municipio.txt',
                        sep=';', thousands='.')

In [51]:
df_muni.head(10)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052
7,RO,11,80,Costa Marques,19255
8,RO,11,98,Espigão D'Oeste,33009
9,RO,11,106,Guajará-Mirim,46930


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [52]:
df.uf

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [53]:
type(df.uf)

pandas.core.series.Series

In [54]:
df['uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [55]:
type(df['uf'])

pandas.core.series.Series

In [56]:
# terceira forma - retorna um dataframe
df[['uf']]

Unnamed: 0,uf
0,RO
1,AC
2,AM
3,RR
4,PA
5,AP
6,TO
7,MA
8,PI
9,Litígio*


In [57]:
type(df[['uf']])

pandas.core.frame.DataFrame

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [61]:
# quero saber quais cidades tem população urbana > 500000
df.query('pop_urbana > 500000')

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0


In [63]:
# podemos usar uma variável
limite = 500000
df.query("`pop_urbana` > @limite")

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0


### .loc e .iloc

In [64]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset
df.loc[1, 'pop_urbana']

315401.0

In [65]:
# qual estado corresponde à segunda linha do dataset
df.loc[1, :]

regiao           Norte
uf                  AC
superficie      153150
pop_urbana    315401.0
pop_rural     168322.0
total         483726.0
Name: 1, dtype: object

In [66]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df.loc[df.regiao == 'Nordeste', 'uf']

7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

In [68]:
# quais estados pertencem à região NE e N?
df.loc[(df.regiao == 'Nordeste') | (df.regiao == 'Norte'), 'uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

In [69]:
# iloc faz a referência aos índices e colunas de forma implícita
df.iloc[2, 2]

1577820

In [70]:
# definir a coluna uf como a coluna de índice
df = df.set_index(['uf'])
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0
AC,Norte,153150,315401.0,168322.0,483726.0
AM,Norte,1577820,1766166.0,623113.0,2389279.0
RR,Norte,225116,174277.0,72854.0,247131.0
PA,Norte,1253165,2949017.0,2561832.0,5510849.0


In [71]:
# desejo obter a população rural do AC

# loc (explícito)
print('Valor desejado', df.loc['AC', 'pop_rural'])

# iloc (implícito)
print('Valor desejado', df.iloc[1, 3])

Valor desejado 168322.0
Valor desejado 168322.0


In [74]:
# queremos as cidades que têm menos de 500000 habitantes (total)
df.loc[df.total < 500000, :].head(1)

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AC,Norte,153150,315401.0,168322.0,483726.0


### Operações matemáticas

In [75]:
# quero saber a razão entre as população urbana e a população rural
df['razao_urbana_rural'] = df['pop_urbana'] / df['pop_rural']
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136


In [77]:
# se eu chamar uma coluna inexiste em modo de leitura
# df['frac_urbana']

In [78]:
# calcular a fração da população urbana sobre a geral
df['frac_urbana'] = df['pop_urbana'] / df['total']

In [80]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário
for uf in df.index:
  
  if df.loc[uf, 'frac_urbana'] > 0.7:
    df.loc[uf, 'indicador'] = 1
  else:
    df.loc[uf, 'indicador'] = 0

In [82]:
%%timeit
for uf in df.index:
  
  if df.loc[uf, 'frac_urbana'] > 0.7:
    df.loc[uf, 'indicador'] = 1
  else:
    df.loc[uf, 'indicador'] = 0

8.07 ms ± 1.17 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [83]:
df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

In [84]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0


In [85]:
%%timeit
df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

319 µs ± 33.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [89]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['regiao_pc'] = df['regiao'].map(ponto_cardeal)
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,,0.52866
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,,0.546218
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,,0.614438
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,,0.584215
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,,0.502468


In [87]:
def soma_quadrados(row):

  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [88]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1)

df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,N,0.52866
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,N,0.546218
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,N,0.614438
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,N,0.584215
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,N,0.502468


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [90]:
df_muni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [92]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,,0.52866
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,,0.546218
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,,0.614438
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,,0.584215
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,,0.502468


In [93]:
# retirar o uf dos índices
df = df.reset_index()
df.head()

Unnamed: 0,uf,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,,0.52866
1,AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,,0.546218
2,AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,,0.614438
3,RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,,0.584215
4,PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,,0.502468


In [94]:
df_reg = df_muni.merge(df, left_on=['UF'], right_on=['uf'], how='left')
df_reg.head(20)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,uf,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,11,15,Alta Floresta D'Oeste,22516,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
1,RO,11,23,Ariquemes,111148,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
2,RO,11,31,Cabixi,5067,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
3,RO,11,49,Cacoal,86416,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
4,RO,11,56,Cerejeiras,16088,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
5,RO,11,64,Colorado do Oeste,15213,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
6,RO,11,72,Corumbiara,7052,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
7,RO,11,80,Costa Marques,19255,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
8,RO,11,98,Espigão D'Oeste,33009,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866
9,RO,11,106,Guajará-Mirim,46930,RO,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,,0.52866


In [97]:
# quero a média e o desvio padrão da população estimada por região
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA': ['mean', 'std', 'median']})

Unnamed: 0_level_0,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA
Unnamed: 0_level_1,mean,std,median
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Centro-Oeste,35775.880086,172714.901533,9399.0
Nordeste,29827.873835,117781.50581,13876.0
Norte,42015.471111,140141.406672,16921.0
Sudeste,53736.757794,364442.832617,11504.5
Sul,25526.941226,88461.904412,7213.0


**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual o média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?