# Pandas

In [1]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [2]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [3]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [4]:
indices = ["a", "b", "c", "d", "e"]
serie_pandas = pd.Series(data=lista, index=indices, name="coluna1")

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [5]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [6]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

# Máscara booleana simples
notas[notas >= 0]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

In [7]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[((notas >= 0) & (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
23     3
24     5
25     9
26     6
28     5
29     7
dtype: int32

In [8]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

In [9]:
# E também fazer o inverso
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int32

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [13]:
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int32

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [14]:
notas.unique()

array([ 9,  6, 10,  7,  5,  8,  4,  3, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [15]:
notas.value_counts()

10    5
7     5
9     4
5     4
6     3
8     3
4     2
3     2
11    2
dtype: int64

In [16]:
# frequencia relativa
notas.value_counts(normalize=True)

10    0.166667
7     0.166667
9     0.133333
5     0.133333
6     0.100000
8     0.100000
4     0.066667
3     0.066667
11    0.066667
dtype: float64

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [17]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [18]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [19]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


A partir de um arquivo

In [21]:
df = pd.read_table('./dados/dados_religiao_income.txt',
                   header=0, sep=' ')

In [22]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   religion  10 non-null     object
 1   <$10k     10 non-null     int64 
 2   $10-20k   10 non-null     int64 
 3   $20-30k   10 non-null     int64 
 4   $30-40k   10 non-null     int64 
 5   $40-50k   10 non-null     int64 
 6   $50-75k   10 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 688.0+ bytes


In [25]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [26]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [27]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


### pivot_table

In [28]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [29]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [30]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [31]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


In [32]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [33]:
new_df2

Unnamed: 0,nome,val
4,nós,2
5,vós,2
6,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [34]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1,nós,2
1,tu,1,vós,2
2,ele/ela,1,eles/elas,2


In [35]:
pd.concat([df1, new_df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1.0,,
1,tu,1.0,,
2,ele/ela,1.0,,
4,,,nós,2.0
5,,,vós,2.0
6,,,eles/elas,2.0


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [36]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [37]:
df1.columns = ['nome_modificado', 'valor']
df1.head()

Unnamed: 0,nome_modificado,valor
0,eu,1
1,tu,1
2,ele/ela,1


## Exploração de dados: Estatísticas

In [47]:
df = pd.read_table('./dados/populacao_brasileira_por_municipio.txt', sep=';', decimal=',')

### Head

In [48]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22.516
1,RO,11,23,Ariquemes,111.148
2,RO,11,31,Cabixi,5.067


### Tail

In [49]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
5567,GO,52,22203,Vila Boa,6.451
5568,GO,52,22302,Vila Propício,5.941
5569,DF,53,108,Brasília,3.094.325


### Describe

In [50]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,COD. UF,COD. MUNIC
count,5570.0,5570.0
mean,32.377738,15816.982585
std,9.833862,15997.29978
min,11.0,13.0
25%,25.0,4507.25
50%,31.0,10400.5
75%,41.0,20853.0
max,53.0,72202.0


In [69]:
df.loc[74, 'POPULAÇÃO ESTIMADA'].replace("'", "")

'16.396'

In [44]:
stats = df.describe()
type(stats)

pandas.core.frame.DataFrame

In [45]:
stats['pop_urbana']

count    2.700000e+01
mean     4.558599e+06
std      6.443718e+06
min      1.742770e+05
25%      1.580216e+06
50%      2.176006e+06
75%      5.095113e+06
max      3.176922e+07
Name: pop_urbana, dtype: float64

In [46]:
salarios = [5000, 3000, 6000, 15000, 4000, 45000, 40000, 50000]

import numpy as np

print('Média:', np.mean(salarios))
print('Mediana:', np.median(salarios))

Média: 21000.0
Mediana: 10500.0


### Outras estatísticas

In [70]:
# calculando uma estatística por vez
df.mean()

  df.mean()


COD. UF          32.377738
COD. MUNIC    15816.982585
dtype: float64

In [71]:
df.median()

  df.median()


COD. UF          31.0
COD. MUNIC    10400.5
dtype: float64

In [72]:
df.quantile([0.25, 0.75])

Unnamed: 0,COD. UF,COD. MUNIC
0.25,25.0,4507.25
0.75,41.0,20853.0


In [73]:
df.quantile([0.01, 0.99])

Unnamed: 0,COD. UF,COD. MUNIC
0.01,12.0,142.14
0.99,52.0,67935.07


In [74]:
df.min(numeric_only=True)

COD. UF       11
COD. MUNIC    13
dtype: int64

In [75]:
df.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22.516
1,RO,11,23,Ariquemes,111.148
2,RO,11,31,Cabixi,5.067
3,RO,11,49,Cacoal,86.416
4,RO,11,56,Cerejeiras,16.088


In [76]:
# se quisermos estatísticas separadas por região
df.groupby('regiao').mean()

KeyError: 'regiao'

### Importando novo Dataframe

In [119]:
df_muni = pd.read_table('./dados/dados_parciais.txt')

In [122]:
# importando o dataframe de municípios
df_muni = pd.read_table('./dados/dados_parciais.txt',
                        sep=';', decimal=',')

In [123]:
df_muni.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [124]:
df_muni.uf

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [125]:
type(df_muni.uf)

pandas.core.series.Series

In [126]:
df_muni['uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [127]:
type(df_muni['uf'])

pandas.core.series.Series

In [128]:
# terceira forma - retorna um dataframe
df_muni[['uf']]

Unnamed: 0,uf
0,RO
1,AC
2,AM
3,RR
4,PA
5,AP
6,TO
7,MA
8,PI
9,Litígio*


In [129]:
type(df_muni[['uf']])

pandas.core.frame.DataFrame

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [130]:
# quero saber quais cidades tem população urbana > 500000
df_muni.query('pop_urbana > 500000')

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,,0.52866
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,,0.614438
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,,0.502468
6,Norte,TO,278421,741009.0,307633.0,1048642.0,2.408744,0.706637,1,,0.585398
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,1.079868,0.5192,0,NE,0.500737
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0,1.393044,0.582122,0,NE,0.513488
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0,2.248199,0.692137,0,NE,0.573833
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0,2.577675,0.720489,1,NE,0.597231
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0,2.167421,0.684286,0,NE,0.567922
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0,2.849271,0.740211,1,NE,0.615402


In [131]:
# podemos usar uma variável
limite = 500000
df_muni.query("`pop_urbana` > @limite")

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0


### .loc e .iloc

In [132]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset
df_muni.loc[1, 'pop_urbana']

315401.0

In [133]:
# qual estado corresponde à segunda linha do dataset
df_muni.loc[1, :]

regiao           Norte
uf                  AC
superficie      153150
pop_urbana    315401.0
pop_rural     168322.0
total         483726.0
Name: 1, dtype: object

In [134]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df_muni.loc[df.regiao == 'Nordeste', 'uf']

7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

In [135]:
# quais estados pertencem à região NE e N?
df_muni.loc[(df.regiao == 'Nordeste') | (df.regiao == 'Norte'), 'uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

In [136]:
# iloc faz a referência aos índices e colunas de forma implícita
df_muni.iloc[2, 2]

1577820

In [137]:
# definir a coluna uf como a coluna de índice
df = df_muni.set_index(['uf'])
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0
AC,Norte,153150,315401.0,168322.0,483726.0
AM,Norte,1577820,1766166.0,623113.0,2389279.0
RR,Norte,225116,174277.0,72854.0,247131.0
PA,Norte,1253165,2949017.0,2561832.0,5510849.0


In [138]:
# desejo obter a população rural do AC

# loc (explícito)
print('Valor desejado', df.loc['AC', 'pop_rural'])

# iloc (implícito)
print('Valor desejado', df.iloc[1, 3])

Valor desejado 168322.0
Valor desejado 168322.0


In [139]:
# queremos as cidades que têm menos de 500000 habitantes (total)
df.loc[df.total < 500000, :].head(1)

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AC,Norte,153150,315401.0,168322.0,483726.0


### Operações matemáticas

In [108]:
# quero saber a razão entre as população urbana e a população rural
df['razao_urbana_rural'] = df['pop_urbana'] / df['pop_rural']
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136


In [109]:
# se eu chamar uma coluna inexiste em modo de leitura
df['frac_urbana']

KeyError: 'frac_urbana'

In [110]:
# calcular a fração da população urbana sobre a geral
df['frac_urbana'] = df['pop_urbana'] / df['total']

In [111]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário
for uf in df.index:
    if df.loc[uf, 'frac_urbana'] > 0.7:
        df.loc[uf, 'indicador'] = 1
    else:
        df.loc[uf, 'indicador'] = 0

In [112]:
df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

In [113]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0


In [114]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['regiao_pc'] = df['regiao'].map(ponto_cardeal)
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,


In [115]:
def soma_quadrados(row):
    soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)
    return soma

In [116]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1)

df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,,0.52866
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,,0.546218
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,,0.614438
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,,0.584215
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,,0.502468


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [140]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

In [141]:
dict_left = {'coluna_on': lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_direita': lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [142]:
df_right = pd.DataFrame(dict_right)
df_right

Unnamed: 0,coluna_on,valores_direita
0,1,1
1,3,3
2,5,5
3,7,7
4,9,9
5,11,11


In [143]:
df_left.merge(df_right, how='outer')

Unnamed: 0,coluna_on,valores_esquerda,valores_direita
0,1,1.0,1.0
1,2,2.0,
2,3,3.0,3.0
3,4,4.0,
4,5,5.0,5.0
5,6,6.0,
6,7,7.0,7.0
7,8,8.0,
8,9,9.0,9.0
9,10,10.0,


In [144]:
df_muni.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0


In [145]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0
AC,Norte,153150,315401.0,168322.0,483726.0
AM,Norte,1577820,1766166.0,623113.0,2389279.0
RR,Norte,225116,174277.0,72854.0,247131.0
PA,Norte,1253165,2949017.0,2561832.0,5510849.0


In [146]:
# retirar o uf dos índices
df = df.reset_index()
df.head()

Unnamed: 0,uf,regiao,superficie,pop_urbana,pop_rural,total
0,RO,Norte,238513,762864.0,468143.0,1231007.0
1,AC,Norte,153150,315401.0,168322.0,483726.0
2,AM,Norte,1577820,1766166.0,623113.0,2389279.0
3,RR,Norte,225116,174277.0,72854.0,247131.0
4,PA,Norte,1253165,2949017.0,2561832.0,5510849.0


In [149]:
df_reg = df_muni.merge(df, left_on=['uf'], right_on=['uf'], how='left')
df_reg.head(20)

Unnamed: 0,regiao_x,uf,superficie_x,pop_urbana_x,pop_rural_x,total_x,regiao_y,superficie_y,pop_urbana_y,pop_rural_y,total_y
0,Norte,RO,238513,762864.0,468143.0,1231007.0,Norte,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0,Norte,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,Norte,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0,Norte,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,Norte,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0,Norte,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0,Norte,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,Nordeste,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0,Nordeste,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,,Nordeste,2977,,,


In [148]:
# quero a média e o desvio padrão da população estimada por região
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA': ['mean', 'std', 'median']})

NameError: name 'df_reg' is not defined

**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

In [2]:
import pandas as pd
import numpy as np

In [17]:
df_notas = pd.read_csv("./dados/alunos3.csv", sep=';', decimal=',')

In [18]:
df_notas.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


In [19]:
df_notas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   RA          10 non-null     int64  
 1   Nome        10 non-null     object 
 2   Frequencia  10 non-null     int64  
 3   Prova_1     10 non-null     float64
 4   Prova_2     10 non-null     float64
 5   Prova_3     10 non-null     float64
 6   Prova_4     10 non-null     int64  
dtypes: float64(3), int64(3), object(1)
memory usage: 688.0+ bytes


In [24]:
df_notas.loc[ : , 'Prova_1':'Prova_4'].mean(axis=1)

0     7.000
1     7.250
2     7.000
3     9.000
4     7.000
5     7.500
6     5.875
7    10.000
8     8.625
9     8.000
dtype: float64

In [27]:
# Bruno
df_notas = pd.read_csv('./dados/alunos3.csv',
                       sep = ';',
                       decimal= ',')

df_notas['Media_provas'] = df_notas.loc[ : , 'Prova_1':'Prova_4'].mean(axis = 1)
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [None]:
# Kleiton
df_notas['media'] = df_notas.loc[:,'Prova_1':].mean(axis=1)

In [None]:
# Matheus Miranda

df_1 = pd.read_csv("./dados/alunos3.csv", sep=';', decimal=',')
df_1['Media_provas'] = df_1.loc[:, 'Prova_1':'Prova_4'].mean(axis=1)

In [29]:
df_alunos = pd.read_csv("./dados/alunos3.csv", sep=';', decimal=',')

df_alunos['Media_provas'] = (df_alunos['Prova_1'] + df_alunos['Prova_2'] + df_alunos['Prova_3'] + df_alunos['Prova_4'])/4
df_alunos

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [30]:
df_alunos.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4',
       'Media_provas'],
      dtype='object')

In [32]:
lista_colunas = ['Nome', 'RA', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4',
       'Media_provas']

df_alunos_2 = df_alunos[lista_colunas]
df_alunos_2

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,7.0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,7.25
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7,7.0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,9.0
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7,7.0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,7.5
6,Joao Galo,110301,20,5.0,6.5,7.0,5,5.875
7,José Valente,110263,20,10.0,10.0,10.0,10,10.0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,8.625
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8,8.0


2) Quem foram os alunos que obtiveram a maior e a menor média

In [33]:
# Matheus Brandão
df_notas.query('Media_provas == @df_notas.Media_provas.max() | Media_provas == @df_notas.Media_provas.min()')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0


In [35]:
# Kleiton
df_notas.loc[(df_notas['Media_provas'] == df_notas['Media_provas'].max()) | (df_notas['Media_provas'] == df_notas['Media_provas'].min()),'Nome']

6       Joao Galo
7    José Valente
Name: Nome, dtype: object

In [37]:
maior_media = df_alunos.loc[df_alunos['Media_provas'].idxmax()]
print(maior_media)
menor_media = df_alunos.loc[df_alunos['Media_provas'].idxmin()]
print(menor_media)

RA                    110263
Nome            José Valente
Frequencia                20
Prova_1                 10.0
Prova_2                 10.0
Prova_3                 10.0
Prova_4                   10
Media_provas            10.0
Name: 7, dtype: object
RA                 110301
Nome            Joao Galo
Frequencia             20
Prova_1               5.0
Prova_2               6.5
Prova_3               7.0
Prova_4                 5
Media_provas        5.875
Name: 6, dtype: object


3) Agora una este dataframe com o cadastro_alunos.xlsx

In [38]:
df_cadastro = pd.read_excel('./dados/cadastro_alunos.xlsx')
df_cadastro.head()

Unnamed: 0,RA,Cidade,Sexo,Idade
0,110201,São Paulo,Masculino,15
1,110212,Rio de Janeiro,Feminino,20
2,110218,Rio de Janeiro,Masculino,18
3,110307,Belo Horizonte,Masculino,39
4,110275,Belo Horizonte,Feminino,22


In [41]:
df_combinacao = pd.merge(df_alunos, df_cadastro, on='RA')
df_combinacao

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas,Cidade,Sexo,Idade
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,São Paulo,Masculino,15
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Rio de Janeiro,Feminino,20
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Rio de Janeiro,Masculino,18
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Belo Horizonte,Masculino,39
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Belo Horizonte,Feminino,22
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5,Rio de Janeiro,Feminino,17
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875,Belo Horizonte,Masculino,26
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0,Belo Horizonte,Masculino,31
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625,São Paulo,Feminino,29
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0,São Paulo,Feminino,16


4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

In [43]:
# Kleiton
df_combinacao[['Sexo','Media_provas']].groupby('Sexo').mean()

Unnamed: 0_level_0,Media_provas
Sexo,Unnamed: 1_level_1
Feminino,7.675
Masculino,7.775


In [44]:
#Bruno
df_combinacao.groupby(['Sexo'])['Media_provas'].mean()

Sexo
Feminino     7.675
Masculino    7.775
Name: Media_provas, dtype: float64

In [71]:
medias_pub_fem = df_combinacao.loc[df_combinacao.Sexo == 'Feminino', 'Media_provas'].mean()
medias_pub_mas = df_combinacao.loc[df_combinacao.Sexo == 'Masculino', 'Media_provas'].mean()

print(f"A média de notas do público feminino é {medias_pub_fem} e do masculino é {medias_pub_mas}")

A média de notas do público feminino é 7.675 e do masculino é 7.775


In [53]:
df_combinacao.loc[:,"Prova_1":].groupby("Sexo").mean()

Unnamed: 0_level_0,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas,Idade
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Feminino,7.7,7.5,7.3,8.2,7.675,20.8
Masculino,7.5,8.1,7.9,7.6,7.775,25.8


In [67]:
df_combinacao[df_combinacao['Sexo'] == 'Masculino']['Media_provas'].mean()

7.775

In [69]:
print(f"Masculino: {df_combinacao[df_combinacao['Sexo'] == 'Masculino']['Media_provas'].mean()}")
print(f"Feminino: {df_combinacao[df_combinacao['Sexo'] == 'Feminino']['Media_provas'].mean()}")

Masculino: 7.775
Feminino: 7.675


5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

In [72]:
#Kleiton
df_combinacao[df_combinacao['Media_provas']>=7]['Idade'].mean()

23.0

In [73]:
print_questao_5 = df_combinacao.loc[df_combinacao.Media_provas >= 7.0 , :]['Idade'].mean()

print(f'A média de idade das pessoas que obtiveram médias maior ou igual a 7 foi de {print_questao_5}')

A média de idade das pessoas que obtiveram médias maior ou igual a 7 foi de 23.0


6) Faça um código para verificar a ordem das médias de Media_provas entre as cidades, mostrando o valor para cada uma bem como ordenando de forma decrescente? 

In [74]:
df_combinacao.groupby(['Cidade'])['Media_provas'].mean().sort_values(ascending = False)

Cidade
Belo Horizonte    7.96875
São Paulo         7.87500
Rio de Janeiro    7.25000
Name: Media_provas, dtype: float64

In [77]:
df_medias_desc = df_combinacao.groupby(by=['Cidade']).mean()

df_medias_desc['Media_provas'].sort_values(ascending=False)

Cidade
Belo Horizonte    7.96875
São Paulo         7.87500
Rio de Janeiro    7.25000
Name: Media_provas, dtype: float64