# Pandas

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente:

In [None]:
import pandas as pd
import numpy as np

In [None]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

In [None]:
pd.DataFrame(m)

In [None]:
df_nome_linhas = pd.DataFrame(m, index = ['obs1', 'obs2','obs3', 'obs4', 'obs5'],
                             columns=['variável_1', 'variáve_ 2','variável_3'] )
df_nome_linhas

A partir de um arquivo

In [None]:
df = pd.read_table("../dados/dados_religiao_income.txt",header=0, sep=' ')

In [None]:
df.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35


## Exercício:

 1. Utilizando o conjunto de dados 'dados_artificiais.txt':
    1. Leia o dataset
    2. Adicione a coluna de IMC > IMC = peso / altura**2
    3. Filtre e reserve uma nova variável para todos os IMC's que são considerados:
       1. Sobrepeso >
       2. < Baixo peso

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |


In [None]:
exe = pd.read_table('../dados/dados_artificiais copy.txt', sep='  ' ,engine='python')
exe.head(2)

Unnamed: 0,altura,peso,sexo
0,1.788811,65.648102,0
1,1.566784,76.642768,0


In [None]:
#Vitor Galves
imc = exe['peso'] / (exe['altura']**2)
exe['imc'] = imc
exe.head(2)

Unnamed: 0,altura,peso,sexo,imc
0,1.788811,65.648102,0,20.516027
1,1.566784,76.642768,0,31.22144


In [None]:
# Flanderson
exe['IMC'] = exe['peso'] / (exe['altura'] ** 2)

In [None]:
exe['imc'] = exe.peso/(exe.altura ** 2)
exe.head(2)

Unnamed: 0,altura,peso,sexo,imc
0,1.788811,65.648102,0,20.516027
1,1.566784,76.642768,0,31.22144


In [None]:
sobrepeso = exe[exe['imc']>=30]
sobrepeso

Unnamed: 0,altura,peso,sexo,imc
1,1.566784,76.642768,0,31.22144
7,1.187349,48.164764,0,34.16431
9,1.396282,67.930113,0,34.843042
19,1.456048,69.342337,0,32.70748


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [None]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(
    df,
    id_vars=["religion"],
    value_vars=value_cols,
    var_name="income",
    value_name="freq",
)

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


### pivot_table

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income',values='freq' )

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [None]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')


income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34.0,60.0,81.0,76.0,137.0,27.0
Atheist,27.0,37.0,52.0,35.0,70.0,12.0
Buddhist,21.0,30.0,34.0,33.0,58.0,27.0
Catholic,617.0,732.0,670.0,638.0,1116.0,418.0
Don’t know/refused,14.0,15.0,11.0,10.0,35.0,15.0
Evangelical Prot,869.0,1064.0,982.0,881.0,1486.0,575.0
Hindu,9.0,7.0,9.0,11.0,34.0,1.0
Historically Black Prot,244.0,236.0,238.0,197.0,223.0,228.0
Jehovah’s Witness,27.0,24.0,24.0,21.0,30.0,20.0
Jewish,19.0,25.0,25.0,30.0,95.0,19.0


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val': [1,1,1]})
# Criação de DataFrames por meio de listas
lista_valores = [
    ['nós', 2],
    ['vós',2],
    ['eles/elas',2]
]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])



In [None]:
df1

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


In [None]:
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [None]:
df1.columns.to_list() == df2.columns.to_list()

True

In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2]).reset_index(drop=True)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
3,nós,2
4,vós,2
5,eles/elas,2


In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df = df2.copy()
# O atributo .index do dataframe chama os índices
new_df.index=[4,5,6]
new_df

Unnamed: 0,nome,val
4,nós,2
5,vós,2
6,eles/elas,2


In [None]:
pd.concat([df1, new_df], axis=0)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
4,nós,2
5,vós,2
6,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, new_df], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1.0,,
1,tu,1.0,,
2,ele/ela,1.0,,
4,,,nós,2.0
5,,,vós,2.0
6,,,eles/elas,2.0


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
df1

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave
# o valor antigo e valor o novo
# inplace = True sem ele a variável não muda
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [None]:
df1.columns

Index(['nome', 'val'], dtype='object')

In [None]:
df1.columns = ['nome_alterado', 'valor']
df1

Unnamed: 0,nome_alterado,valor
0,eu,1
1,tu,1
2,ele/ela,1


## Exploração de dados: Estatísticas

In [None]:
df = pd.read_table('../dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [None]:
stats = df.describe()
type(stats)

pandas.core.frame.DataFrame

In [None]:
stats

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [None]:
stats['pop_urbana']

count    2.700000e+01
mean     4.558599e+06
std      6.443718e+06
min      1.742770e+05
25%      1.580216e+06
50%      2.176006e+06
75%      5.095113e+06
max      3.176922e+07
Name: pop_urbana, dtype: float64

### Outras estatísticas

In [None]:
# calculando uma estatística por vez
df[["superficie", "pop_urbana", "pop_rural", "total"]].mean()

superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [None]:
df[["superficie", "pop_urbana", "pop_rural", "total"]].median()

superficie     199709.0
pop_urbana    2176006.0
pop_rural      715174.0
total         2802707.0
dtype: float64

In [None]:
df[["superficie", "pop_urbana", "pop_rural", "total"]].quantile([.25, .75])

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.25,53307.0,1580216.5,475874.5,1874890.0
0.75,333366.0,5095113.0,2024133.0,7104462.5


In [None]:
df[["superficie", "pop_urbana", "pop_rural", "total"]].min()

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

In [None]:
df.columns

Index(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'], dtype='object')

In [None]:
new_df = df[['regiao','superficie', 'pop_urbana', 'pop_rural', 'total']]

In [None]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0


In [None]:
df.groupby(['regiao', 'uf']).agg({'superficie':'mean', 'pop_urbana':'std'})

Unnamed: 0_level_0,Unnamed: 1_level_0,superficie,pop_urbana
regiao,uf,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,5822.0,
Centro-Oeste,GO,3412895.0,
Centro-Oeste,MS,358159.0,
Centro-Oeste,MT,906807.0,
Nordeste,AL,27933.0,
Nordeste,BA,567295.0,
Nordeste,CE,146348.0,
Nordeste,Litígio*,2977.0,
Nordeste,MA,333366.0,
Nordeste,PB,56585.0,


In [None]:
regioes_agrupadas.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,superficie,pop_urbana,pop_rural,total
regiao,uf,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Centro-Oeste,DF,5822.0,1692248.0,129698.0,1821946.0
Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0
Centro-Oeste,MS,358159.0,1604318.0,323516.0,1927834.0
Centro-Oeste,MT,906807.0,1695548.0,540284.0,2235832.0
Nordeste,AL,27933.0,1661914.0,971425.0,2633339.0


## Exercicios
1. Resete o INDEX do dataframe transformado ele em Coluna exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
        'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
2. Crie um filtro para Kevin e Laura
3. Crie um filtro para todos que tiveram um numero de tentativa(attempts) mair que 2
4. Preencha os np.nan com 0

In [None]:
exam_data = pd.DataFrame(
    {
        "name": [
            "Anastasia",
            "Dima",
            "Katherine",
            "James",
            "Emily",
            "Michael",
            "Matthew",
            "Laura",
            "Kevin",
            "Jonas",
        ],
        "score": [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        "attempts": [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        "qualify": ["yes", "no", "yes", "no", "no", "yes", "yes", "no", "no", "yes"],
    }
)

exam_data.head()

In [None]:
#2 Luiza
exam_data[exam_data['name'].isin(['Kevin','Laura'])]

# Outra forma
exam_data[(exam_data['name']=='Kevin')| (exam_data['name']=='Laura')]

In [None]:
#3
exam_data[exam_data.attempts>2]

In [None]:
#4
# exam_data[exam_data['score'].isna()]

exam_data.fillna(0, inplace=True)

In [None]:
exam_data

### Importando novo Dataframe

In [None]:
# importando o dataframe de municípios


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [None]:
df_muni = pd.read_table('../dados/populacao_brasileira_por_municipio.txt', sep=';', thousands='.')

In [None]:
df_muni.head(10)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052
7,RO,11,80,Costa Marques,19255
8,RO,11,98,Espigão D'Oeste,33009
9,RO,11,106,Guajará-Mirim,46930


## Colunas

In [None]:
df_muni.UF

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [None]:
type(df_muni.UF)

pandas.core.series.Series

In [None]:
type(df_muni.UF.values)

numpy.ndarray

In [None]:
df_muni['UF']

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [None]:
type(df_muni[['UF']])

pandas.core.frame.DataFrame

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
df_muni.head(1)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516


In [None]:
# quero saber quais cidades tem população urbana > 500000
df_muni.query(' `POPULAÇÃO ESTIMADA` > 1000 ')

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
...,...,...,...,...,...
5565,GO,52,22005,Vianópolis,14088
5566,GO,52,22054,Vicentinópolis,9002
5567,GO,52,22203,Vila Boa,6451
5568,GO,52,22302,Vila Propício,5941


In [None]:
# podemos usar uma variável
limite = 5000

df_muni.query(" `POPULAÇÃO ESTIMADA` < @limite")

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
18,RO,11,262,Rio Crespo,3843
32,RO,11,908,Castanheiras,2923
42,RO,11,1468,Pimenteiras do Oeste,2127
43,RO,11,1476,Primavera de Rondônia,2697
44,RO,11,1484,São Felipe D'Oeste,4962
...,...,...,...,...,...
5556,GO,52,21452,Trombas,3497
5557,GO,52,21502,Turvânia,4526
5559,GO,52,21577,Uirapuru,2829
5562,GO,52,21809,Urutaí,3056


### .loc e .iloc

In [None]:
df_muni.head(3)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067


In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset
df_muni.loc[1, 'NOME DO MUNICÍPIO']

'Ariquemes'

In [None]:
# qual estado corresponde à segunda linha do dataset
df_muni.loc[1, :]

UF                           RO
COD. UF                      11
COD. MUNIC                   23
NOME DO MUNICÍPIO     Ariquemes
POPULAÇÃO ESTIMADA       111148
Name: 1, dtype: object

In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df_muni.loc[df_muni["UF"]=='BA', 'COD. UF']

1827    29
1828    29
1829    29
1830    29
1831    29
        ..
2239    29
2240    29
2241    29
2242    29
2243    29
Name: COD. UF, Length: 417, dtype: int64

In [None]:
# quais estados pertencem à região NE e N?
df_muni.loc[(df_muni['UF']=='BA') | ( df_muni['NOME DO MUNICÍPIO']=='Feira de Santana')]

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
1827,BA,29,108,Abaíra,8681
1828,BA,29,207,Abaré,20594
1829,BA,29,306,Acajutiba,15214
1830,BA,29,355,Adustina,17209
1831,BA,29,405,Água Fria,17096
...,...,...,...,...,...
2239,BA,29,33307,Vitória da Conquista,343643
2240,BA,29,33406,Wagner,9342
2241,BA,29,33455,Wanderley,12125
2242,BA,29,33505,Wenceslau Guimarães,20862


In [None]:
df_muni.head(10)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052
7,RO,11,80,Costa Marques,19255
8,RO,11,98,Espigão D'Oeste,33009
9,RO,11,106,Guajará-Mirim,46930


In [None]:
# iloc faz a referência aos índices e colunas de forma implícita
df_muni.iloc[2,2]

np.int64(64)

## Seleção de colunas pelo tipo:

## Exercício:
1. Seleção de municípios por tamanho da população usando loc - 500k
2. Seleção de linhas específicas usando iloc - (10, 20)
3. Utilizar query para filtrar municípios com população entre 10.000 e 50.000 habitantes
4. Calcular a população total do estado de Rondônia usando operações matemáticas no Pandas.
5. Criação de uma nova coluna usando operações matemáticas e loc - População média

In [None]:
df_muni.rename(
    columns={
        "UF": "uf",
        "COD. UF": "cod_uf",
        "COD. MUNIC": "cod_muni",
        "NOME DO MUNICÍPIO": "nome_municipio",
        "POPULAÇÃO ESTIMADA": "pop_estimada",
    },
    inplace=True,
)
df_muni.head()

Unnamed: 0,uf,cod_uf,cod_muni,nome_municipio,pop_estimada
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [None]:
#1
df_muni.loc[df_muni['pop_estimada'] > 500000]

In [None]:
#1
df_muni.loc[lambda df_muni: df_muni['pop_estimada']> 500000]


In [None]:
#2
df_muni.iloc[[10,20]]

Unnamed: 0,uf,cod_uf,cod_muni,nome_municipio,pop_estimada
10,RO,11,114,Jaru,51469
20,RO,11,296,Santa Luzia D'Oeste,5942


In [None]:
#3
df_muni.query(' 10000 <= pop_estimada <= 50000 ')

Unnamed: 0,uf,cod_uf,cod_muni,nome_municipio,pop_estimada
0,RO,11,15,Alta Floresta D'Oeste,22516
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
7,RO,11,80,Costa Marques,19255
8,RO,11,98,Espigão D'Oeste,33009
...,...,...,...,...,...
5545,GO,52,20405,São Simão,21318
5548,GO,52,20603,Silvânia,20938
5560,GO,52,21601,Uruaçu,41150
5561,GO,52,21700,Uruana,13795


In [None]:
#4
df_muni[['uf', 'pop_estimada']].groupby('uf').agg('sum').loc['RO']

pop_estimada    1815278
Name: RO, dtype: int64

In [None]:
df_muni.groupby('uf').agg({'pop_estimada':'sum'}).loc['RO']

pop_estimada    1815278
Name: RO, dtype: int64

In [None]:
df_muni

Unnamed: 0,uf,cod_uf,cod_muni,nome_municipio,pop_estimada
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
...,...,...,...,...,...
5565,GO,52,22005,Vianópolis,14088
5566,GO,52,22054,Vicentinópolis,9002
5567,GO,52,22203,Vila Boa,6451
5568,GO,52,22302,Vila Propício,5941


In [None]:
#5
media_por_estado = df_muni.groupby('uf')['pop_estimada'].mean()

In [None]:
media_por_estado

### Operações matemáticas

In [None]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0
AC,Norte,153150,315401.0,168322.0,483726.0
AM,Norte,1577820,1766166.0,623113.0,2389279.0
RR,Norte,225116,174277.0,72854.0,247131.0
PA,Norte,1253165,2949017.0,2561832.0,5510849.0


In [None]:
# quero saber a razão entre as população urbana e a população rural
df['razao_urbana_rural'] = df['pop_urbana']/df['pop_rural']
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136


In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
# df['frac_urbana']

In [None]:
# calcular a fração da população urbana sobre a geral
df['frac_urbana'] = df['pop_urbana']/df['total']
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129


In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário
for uf in df.index:
    if df.loc[uf, 'frac_urbana']>0.7:
        df.loc[uf, 'indicador'] =1
    else:
        df.loc[uf, 'indicador'] =0


In [None]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0.0
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1.0
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1.0
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0.0


In [None]:
%%timeit
for uf in df.index:
    if df.loc[uf, 'frac_urbana']>0.7:
        df.loc[uf, 'indicador'] =1
    else:
        df.loc[uf, 'indicador'] =0


5.79 ms ± 511 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit
df['indicador'] =df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

127 μs ± 2.72 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [None]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE',
    'Norte':'N'
}

# podemos fazer transformações com dicionários
df['regiao_pc'] = df['regiao'].map(ponto_cardeal)

df.head(10)

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,N
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,N
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,N
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,N
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,N
AP,Norte,143454,330590.0,48869.0,379459.0,6.76482,0.871214,1,N
TO,Norte,278421,741009.0,307633.0,1048642.0,2.408744,0.706637,1,N
MA,Nordeste,333366,2711557.0,2511008.0,5222565.0,1.079868,0.5192,0,NE
PI,Nordeste,252379,1556115.0,1117061.0,2673176.0,1.393044,0.582122,0,NE
Litígio*,Nordeste,2977,,,,,,0,NE


In [None]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,N
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,N
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,N
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,N
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,N


In [None]:
# usando o apply em múltiplas colunas
def soma_quadrados(row):
    soma = (row["pop_urbana"] ** 2 + row["pop_rural"] ** 2) / (row["total"] ** 2)
    return soma

df['indicador2'] = df.apply(soma_quadrados, axis=1)


In [None]:
df.head()

Unnamed: 0_level_0,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,N,0.52866
AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,N,0.546218
AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,N,0.614438
RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,N,0.584215
PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,N,0.502468


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450 style="background-color:white">

In [None]:
lista_on_left = [ 1,2,3,4,5,6,7,8,9,10]
lista_on_right = [1,3,5,7,9, 15, 20 , 55]

In [None]:
dict_left= { 'coluna_on':lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_direita': lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [None]:
df_right = pd.DataFrame(dict_right)
df_right

Unnamed: 0,coluna_on,valores_direita
0,1,1
1,3,3
2,5,5
3,7,7
4,9,9
5,15,15
6,20,20
7,55,55


In [None]:
df_left.merge(df_right,on='coluna_on', how="inner")

Unnamed: 0,coluna_on,valores_esquerda,valores_direita
0,1,1,1
1,3,3,3
2,5,5,5
3,7,7,7
4,9,9,9


In [None]:
df = df.reset_index()
df.head()

Unnamed: 0,uf,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,Norte,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,N,0.52866
1,AC,Norte,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,N,0.546218
2,AM,Norte,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,N,0.614438
3,RR,Norte,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,N,0.584215
4,PA,Norte,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,N,0.502468


In [None]:
df_novo = pd.merge(df_muni, df, on='uf', how='left ')

In [None]:
df_novo.head()

Unnamed: 0,uf,cod_uf,cod_muni,nome_municipio,pop_estimada,regiao,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,11,15,Alta Floresta D'Oeste,22516,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,N,0.52866
1,RO,11,23,Ariquemes,111148,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,N,0.52866
2,RO,11,31,Cabixi,5067,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,N,0.52866
3,RO,11,49,Cacoal,86416,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,N,0.52866
4,RO,11,56,Cerejeiras,16088,Norte,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,N,0.52866


In [None]:
# quero a média e o desvio padrão da população estimada por região

df_novo.groupby('regiao').agg({'pop_estimada':['mean', 'std', 'median']})

Unnamed: 0_level_0,pop_estimada,pop_estimada,pop_estimada
Unnamed: 0_level_1,mean,std,median
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Centro-Oeste,35775.880086,172714.901533,9399.0
Nordeste,29827.873835,117781.50581,13876.0
Norte,42015.471111,140141.406672,16921.0
Sudeste,53736.757794,364442.832617,11504.5
Sul,25526.941226,88461.904412,7213.0


**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?