<a href="https://colab.research.google.com/github/robertosgpontes/tec_prog_1/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Review

Vamos criar uma matriz com os dados do arquivo `alunos.csv`. Use Numpy!

# Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science. Fornece estruturas e funções de dados de alto nível projetadas para tornar o trabalho com dados estruturados ou tabulares rápido, fácil e expressivo. Desde seu surgimento em 2010, ele ajudou a permitir que o Python fosse um ambiente de análise de dados poderoso e produtivo. 

O Pandas combina as ideias de computação de matriz de alto desempenho do NumPy com os recursos flexíveis de manipulação de dados de planilhas e bancos de dados relacionais (como SQL). Ele fornece uma funcionalidade de indexação sofisticada para facilitar a reformulação, o slice and dice, a execução de agregações e a seleção de subconjuntos de dados.

[Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython - by Wes McKinney, creator of pandas.](https://www.oreilly.com/library/view/python-for-data/9781491957653/)


## Instalação

In [47]:
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Import

In [48]:
import pandas as pd
import numpy as np

___

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

O objeto Series é um objeto de matriz rotulado unidimensional.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [49]:
lista = [4, 6, 3, 7, 25]

pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [50]:
dic = {"a": 50, "b" : 42}

pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [51]:
indices = ["a", "b", "c", "d", "e"]
lista = [4, 6, 3, 7, 25]

serie_pandas = pd.Series(data=lista, index=indices,  name="coluna1")

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [52]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [53]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64


In [54]:
# Máscara booleana simples
notas[notas >= 5]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
16    10
17     8
19     7
21     8
22    11
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64

Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)

In [55]:
notas[((notas >= 5) & (notas <= 8))]

1     6
3     7
5     5
8     7
9     6
12    5
13    8
14    7
17    8
19    7
21    8
24    5
26    6
28    5
29    7
dtype: int64

Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)

In [56]:
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64

E também fazer o inverso

In [57]:
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int64

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [58]:
print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64


In [59]:
# cria uma nova Serie ordenada
notas.sort_values()

23     3
20     3
18     4
15     4
24     5
5      5
28     5
12     5
1      6
26     6
9      6
14     7
19     7
29     7
8      7
3      7
17     8
21     8
13     8
6      9
4      9
25     9
0      9
11    10
10    10
16    10
7     10
2     10
22    11
27    11
dtype: int64

In [60]:
# cria uma nova Serie ordenada descrescente
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int64

In [61]:
# Ordenada Serie
notas.sort_values(inplace=True) 

In [62]:
print(notas)

23     3
20     3
18     4
15     4
24     5
5      5
28     5
12     5
1      6
26     6
9      6
14     7
19     7
29     7
8      7
3      7
17     8
21     8
13     8
6      9
4      9
25     9
0      9
11    10
10    10
16    10
7     10
2     10
22    11
27    11
dtype: int64


Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [63]:
notas.unique()

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [64]:
notas.value_counts()

7     5
10    5
5     4
9     4
6     3
8     3
3     2
4     2
11    2
dtype: int64

frequencia relativa

In [65]:
notas.value_counts(normalize=True)

7     0.166667
10    0.166667
5     0.133333
9     0.133333
6     0.100000
8     0.100000
3     0.066667
4     0.066667
11    0.066667
dtype: float64

___

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

O DataFrame é uma estrutura de dados tabular orientada a colunas com rótulos de linha e coluna.

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [66]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [67]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [68]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


## Lendo e Escrevendo os dados de Arquivos

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

[pandas.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [73]:
pd.read_csv('/content/alunos.csv')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [74]:
pd.read_csv('/content/alunos2.csv', sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [75]:
pd.read_csv('https://raw.githubusercontent.com/robertosgpontes/tec_prog_1/main/dados/alunos2.csv', sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


#### XLS ou XLSX

[pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


In [76]:
!pip install openpyxl

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


![Pasta de Trabalho Base](https://github.com/robertosgpontes/tec_prog_1/blob/main/dados/sample_xlsx.png?raw=1)

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [None]:
pd.read_excel('dados/sample.xlsx')

In [None]:
pd.read_excel('https://github.com/robertosgpontes/tec_prog_1/blob/main/dados/sample.xlsx?raw=true')

##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

In [None]:
pd.read_excel('dados/sample.xlsx', sheet_name='p2')

In [None]:
pd.read_excel('dados/sample.xlsx', sheet_name='p2', usecols='A:C')

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx` 

In [None]:
pd.read_excel('dados/sample.xlsx', sheet_name='p3')

##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [None]:
pd.read_excel('dados/sample.xlsx', sheet_name='p3', header=1)

##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [None]:
a = pd.read_excel('dados/sample.xlsx', sheet_name='p3', 
                header=1,
                names=['densidade', 'hzdepup', 'hzdeplow', 'areia', 
                        'silte', 'argila', 'phh2o', 'antimonio', 
                        'alunimio', 'hidrogenio', 'corg']
    )

In [None]:
a

##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [None]:
pd.read_excel('https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx')

#### JSON

[pandas.read_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

In [None]:
pd.read_json('dados/selic.json')

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

#### TXT de tamanho fixo

[pandas.read_fwf](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html)

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://dadosabertos.bcb.gov.br/dataset/precos-de-titulos-publicos-para-redesconto/resource/0bdd030d-ddf3-447c-92ee-437f3c695f4d?inner_span=True


https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [None]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT')

In [None]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT', widths=[1, 6, 8, 10, 8, 10, 8] )

_________
### Escrevendo dados de um arquivo

Vamos utilizar os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [None]:
df

#### CSV

Separado por virgula

In [None]:
df.to_csv('arq1.csv')

Separado por virgula e sem index

In [None]:
df.to_csv('arq2.csv', index=False)

Separado por ponto e virgula ou um separador qualquer

In [None]:
df.to_csv('arq3.csv', index=False, sep=';')

In [None]:
df.to_csv('arq4.csv', index=False, sep=';', decimal=',')

#### XLSX

In [None]:
df.to_excel('arq5.xlsx')

Sem index

In [None]:
df.to_excel('arq5.xlsx', index=False)

Fazendo append

In [None]:
f = pd.ExcelWriter('arq5.xlsx', mode='a')
df.to_excel(f, sheet_name='abanova')
f.close()

https://github.com/samukweku/data-wrangling-blog/blob/master/_notebooks/2020-05-19-Access-Tables-In-Excel.ipynb

## Funções Pandas

A partir de um arquivo `dados_religiao_income.txt`

In [None]:
df = pd.read_table('dados/dados_religiao_income.txt',
                   header=0, sep=' ')

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
df

In [None]:
list(df.columns)

### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
col = list(df.columns)

In [None]:
new_df = pd.melt(df,
                 id_vars= col[0], # não vou despivotar
                 value_vars= col[1:], # o que despivotar
                 var_name='income', # Titulos das colunas
                 value_name='freq' # Valores das colunas
                 )

new_df.sort_values(by=['religion', 'income']).reset_index(drop=True)


### pivot_table

Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
Usamos o método pivot.

In [72]:
new_df.pivot(index='religion', columns='income', values='freq')

NameError: ignored

In [None]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])

In [None]:
df1

In [None]:
df2

In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2]).reset_index()

In [None]:
pd.concat([df1, df2]).reset_index(drop=True)

In [None]:
pd.concat([df1, df2[['nome']]]).reset_index(drop=True)

In [None]:
pd.concat([df1, df2[['val','nome']]]).reset_index(drop=True)

In [None]:
df22 = df2.copy()
df22.columns = ['nome', 'v2']

In [None]:
pd.concat([df1, df22]).reset_index(drop=True)

In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [None]:
new_df2

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

 Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge

In [None]:
pd.concat([df1, df2], axis=1) #index

In [None]:
pd.concat([df1, new_df2], axis=1)

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
df1

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

In [None]:
df1.rename(columns={'nome': 'nome_alterado'}, inplace=True)

In [None]:
df1

In [None]:
df1.columns = ['nome_modificado', 'valor']
df1.head()

In [None]:
df1.head(1)

In [None]:
df1.head(2)

## Exploração de dados: Estatísticas

`dados_parciais.txt`

In [77]:
df = pd.read_table('/content/dados_parciais.txt', sep=';', decimal=',')

In [None]:
df

### Head

O head é utilizado para observarmos o início de um dataframe

In [None]:
df.head(3)

### Tail

O tail é utilizado para observarmos o final de um dataframe

In [None]:
df.tail(6)

### Describe

# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
stats = df.describe()
type(stats)

In [None]:
stats['pop_urbana']['mean']

### Outras estatísticas

Calculando uma estatística por vez

In [None]:
# calculando uma estatística por vez
df.mean()

In [None]:
df['pop_rural'].mean()

In [None]:
df.median()

In [None]:
df.quantile([0.25, 0.3, 0.75])

In [None]:
df.min()

In [None]:
df.min(numeric_only=True)

Se quisermos estatísticas separadas por região (agrupada)

In [None]:
df.groupby('regiao').mean()

In [None]:
df.groupby('regiao').mean().reset_index()

In [None]:
df.groupby('regiao').mean().reset_index(drop=True)

Importando novo Dataframe `populacao_brasileira_por_municipio.txt`

In [78]:
# importando o dataframe de municípios
df_muni = pd.read_table('/content/populacao_brasileira_por_municipio.txt',
                        sep=';', thousands='.')

In [None]:
df_muni

### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [None]:
df['uf']

In [None]:
df.uf

In [None]:
df_muni[['UF', 'COD. UF']]

In [None]:
df_muni[df_muni.columns[-3:]]

In [None]:
df_muni.columns

In [None]:
df_muni[df_muni.columns[:3]]

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

quero saber quais cidades tem população urbana > 500000

In [None]:
df.head(3)

In [None]:
%%timeit
query = df['pop_urbana']  > 500000
df[query]

In [None]:
%%timeit
df.query('pop_urbana > 500000')

In [None]:
limite = 500000

In [None]:
df.query(f'pop_urbana > {limite}')

In [None]:
df.query('pop_urbana > @limite')

### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset

df.loc[1, 'pop_urbana']

In [None]:
%%timeit
df.loc[1, 'pop_urbana'] = 1234

In [None]:
df['pop_urbana'].loc[1]

In [None]:
%%timeit
df['pop_urbana'].loc[1] = 4653

In [None]:
# qual estado corresponde à segunda linha do dataset

df.loc[1, :]

In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?


df.loc[df.regiao == 'Nordeste', 'uf']

In [None]:
# quais estados pertencem à região NE e N?

df.loc[(df.regiao == 'Nordeste') | (df.regiao == 'Norte'), 'uf']

iloc faz a referência aos índices e colunas de forma implícita

In [None]:
df.iloc[2, 2]

definir a coluna uf como a coluna de índice

In [None]:
df = df.set_index(['uf'])
df.head()

In [None]:
df = df.set_index(['superficie', 'total'])
df.head()

In [None]:
df.loc[(238513, 1231007.0), 'pop_urbana']

desejo obter a população rural do AC

In [None]:
# loc (explícito)

print('Valor desejado', df.loc['AC', 'pop_rural'])

In [None]:
# iloc (implícito)

print('Valor desejado', df.iloc[1, 3])

Queremos as cidades que têm menos de 500000 habitantes (total)

In [None]:
%%timeit
df.loc[df.total < 500000, :]

In [None]:
%%timeit
df[df.total < 500000]

### Operações matemáticas

Quero saber a razão entre as população urbana e a população rural

Calcular a fração da população urbana sobre a geral

Iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

Podemos fazer transformações com dicionários


Usando o apply em múltiplas colunas

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

retirar o uf dos índices

In [None]:
df_muni

In [85]:
df_reg = df_muni.merge(df,how='left',left_on='UF',right_on='uf')

In [86]:
df_reg[df_reg.total.isna()]

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,regiao,uf,superficie,pop_urbana,pop_rural,total
1465,PE,26,54,Abreu e Lima,100698,,,,,,
1466,PE,26,104,Afogados da Ingazeira,37546,,,,,,
1467,PE,26,203,Afrânio,19981,,,,,,
1468,PE,26,302,Agrestina,25240,,,,,,
1469,PE,26,401,Água Preta,37386,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
1645,PE,26,16183,Vertente do Lério,7526,,,,,,
1646,PE,26,16209,Vertentes,21172,,,,,,
1647,PE,26,16308,Vicência,32897,,,,,,
1648,PE,26,16407,Vitória de Santo Antão,140389,,,,,,


quero a média e o desvio padrão da população estimada por região

In [87]:
df_reg['UF']

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object