<a href="https://colab.research.google.com/github/robertosgpontes/tec_prog_1/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Review

Vamos criar uma matriz com os dados do arquivo `alunos.csv`. Use Numpy!

# Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science. Fornece estruturas e funções de dados de alto nível projetadas para tornar o trabalho com dados estruturados ou tabulares rápido, fácil e expressivo. Desde seu surgimento em 2010, ele ajudou a permitir que o Python fosse um ambiente de análise de dados poderoso e produtivo. 

O Pandas combina as ideias de computação de matriz de alto desempenho do NumPy com os recursos flexíveis de manipulação de dados de planilhas e bancos de dados relacionais (como SQL). Ele fornece uma funcionalidade de indexação sofisticada para facilitar a reformulação, o slice and dice, a execução de agregações e a seleção de subconjuntos de dados.

[Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython - by Wes McKinney, creator of pandas.](https://www.oreilly.com/library/view/python-for-data/9781491957653/)


## Instalação

In [1]:
!pip install pandas



## Import

In [1]:
import pandas as pd
import numpy as np

___

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

O objeto Series é um objeto de matriz rotulado unidimensional.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [3]:
lista = [4, 6, 3, 7, 25]

pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [4]:
dic = {"a": 50, "b" : 42}

pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [3]:
indices = ["a", "b", "c", "d", "e"]
lista = [4, 6, 3, 7, 25]

serie_pandas = pd.Series(data=lista, index=indices,  name="coluna1")

serie_pandas

a     4
b     6
c     3
d     7
e    25
Name: coluna1, dtype: int64

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [4]:
print(serie_pandas['a'])
print(serie_pandas[0:1])

4
a    4
Name: coluna1, dtype: int64


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [5]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64


In [6]:
# Máscara booleana simples
notas[notas >= 5]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
16    10
17     8
19     7
21     8
22    11
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int64

Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)

In [9]:
notas[((notas >= 5) & (notas <= 8))]

1     6
3     7
5     5
8     7
9     6
12    5
13    8
14    7
17    8
19    7
21    8
24    5
26    6
28    5
29    7
dtype: int32

Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)

In [10]:
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

E também fazer o inverso

In [11]:
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int32

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [12]:
print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32


In [13]:
# cria uma nova Serie ordenada
notas.sort_values()

23     3
20     3
18     4
15     4
24     5
5      5
28     5
12     5
1      6
26     6
9      6
14     7
19     7
29     7
8      7
3      7
17     8
21     8
13     8
6      9
4      9
25     9
0      9
11    10
10    10
16    10
7     10
2     10
22    11
27    11
dtype: int32

In [14]:
# cria uma nova Serie ordenada descrescente
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int32

In [15]:
# Ordenada Serie
notas.sort_values(inplace=True) 

In [16]:
print(notas)

23     3
20     3
18     4
15     4
24     5
5      5
28     5
12     5
1      6
26     6
9      6
14     7
19     7
29     7
8      7
3      7
17     8
21     8
13     8
6      9
4      9
25     9
0      9
11    10
10    10
16    10
7     10
2     10
22    11
27    11
dtype: int32


Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [17]:
notas.unique()

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [18]:
notas.value_counts()

7     5
10    5
5     4
9     4
6     3
8     3
3     2
4     2
11    2
dtype: int64

frequencia relativa

In [19]:
notas.value_counts(normalize=True)

7     0.166667
10    0.166667
5     0.133333
9     0.133333
6     0.100000
8     0.100000
3     0.066667
4     0.066667
11    0.066667
dtype: float64

___

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

O DataFrame é uma estrutura de dados tabular orientada a colunas com rótulos de linha e coluna.

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [20]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [21]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [22]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


## Lendo e Escrevendo os dados de Arquivos

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

[pandas.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [10]:
alunos = pd.read_csv('datasets/alunos.csv')

In [11]:
alunos

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [12]:
pd.read_csv('datasets/alunos2.csv')

Unnamed: 0,RA;Nome;Frequencia;Prova_1;Prova_2;Prova_3;Prova_4
0,110201;Antonio Carlos;20;6.5;8.5;7.0;6
1,110212;Ana Beatriz;20;7.0;7.0;7.0;8
2,110218;Carlos Vernes;17;7.0;7.0;7.0;7
3,110307;Francisco Cunha;20;9.0;8.5;8.5;10
4,110275;Sandra Rosa;15;6.5;7.5;7.0;7
5,110281;Juliana Arruda;18;7.5;7.0;7.5;8
6,110301;Joao Galo;20;5.0;6.5;7.0;5
7,110263;José Valente;20;10.0;10.0;10.0;10
8,110271;Maria Ferreira;19;9.5;8.0;7.0;10
9,110236;Adriana Tavares;20;8.0;8.0;8.0;8


In [14]:
pd.read_csv('datasets/alunos2.csv', sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [15]:
pd.read_csv('https://raw.githubusercontent.com/robertosgpontes/tec_prog_1/main/dados/alunos2.csv', 
            sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


#### XLS ou XLSX

[pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


In [16]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.5


![Pasta de Trabalho Base](dados/sample_xlsx.png)

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [17]:
pd.read_excel('datasets/sample.xlsx')

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


In [18]:
pd.read_excel('https://github.com/robertosgpontes/tec_prog_1/blob/main/dados/sample.xlsx?raw=true')

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

In [20]:
pd.read_excel('datasets/sample.xlsx', sheet_name='p2')

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


In [21]:
pd.read_excel('datasets/sample.xlsx', sheet_name='p2', usecols='A:C')

Unnamed: 0,ds2,hzdepup,hzdeplow
0,0.9,24,60
1,0.91,60,135
2,0.89,135,165
3,0.83,165,192
4,1.53,15,40
5,1.44,40,65


Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx` 

In [23]:
pd.read_excel('datasets/sample.xlsx', sheet_name='p3')

Unnamed: 0,Cabeçalho inútil,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
1,0.9,24,60,110,70,820,54,1,1,49,13.7
2,0.91,60,135,110,60,830,57,1,0,30,9
3,0.89,135,165,100,120,780,57,1,0,18,7.3
4,0.83,165,192,110,80,810,59,1,0,13,6
5,1.53,15,40,840,10,150,46,1,2,18,3.5
6,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [32]:
pd.read_excel('dados/sample.xlsx', sheet_name='p3', header=1)

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [24]:
a = pd.read_excel('datasets/sample.xlsx', sheet_name='p3', 
                header=1,
                names=['densidade', 'hzdepup', 'hzdeplow', 'areia', 
                        'silte', 'argila', 'phh2o', 'antimonio', 
                        'alunimio', 'hidrogenio', 'corg']
    )

In [25]:
a

Unnamed: 0,densidade,hzdepup,hzdeplow,areia,silte,argila,phh2o,antimonio,alunimio,hidrogenio,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [29]:
url = 'https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/bases-de-dados-programadas-para-abertura/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx'
pd.read_excel(url)

Unnamed: 0,Nº DO PEDIDO,DIVISÃO TÉCNICA DE ORIGEM,DATA DO DEPÓSITO,DESPACHO DE ENTRADA NA 2ª INSTÂNCIA,DATA DO DESPACHO,ATUALIZAÇÃO
0,MU8900154,DIMEC,2009-02-13,17.1,2013-03-19,2024-03-26
1,PI0801153,DIMEC,2008-04-14,17.1,2013-05-21,NaT
2,PI9816506,DIMEC,1998-02-20,17.1,2016-03-15,NaT
3,PI0711634,DIMOL,2007-05-11,17.1,2019-01-02,NaT
4,BR102014003077,DIMEC,2014-02-10,17.1,2019-06-18,NaT
...,...,...,...,...,...,...
7074,BR112019020688,DITEX,2018-03-28,12.2,2024-02-27,NaT
7075,BR112012024018,DITEX,2011-03-21,12.2,2024-03-05,NaT
7076,BR112019011273,DITEX,2017-12-01,12.2,2024-03-05,NaT
7077,BR112019026809,DITEX,2018-07-02,12.2,2024-03-05,NaT


#### JSON

[pandas.read_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

In [30]:
pd.read_json('datasets/selic.json')

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
411,01/09/2020,0.16
412,01/10/2020,0.16
413,01/11/2020,0.15
414,01/12/2020,0.16


Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [31]:
pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

Unnamed: 0,data,valor
0,01/08/1986,2.57
1,01/09/1986,2.94
2,01/10/1986,1.96
3,01/11/1986,2.37
4,01/12/1986,5.47
...,...,...
452,01/04/2024,0.89
453,01/05/2024,0.83
454,01/06/2024,0.79
455,01/07/2024,0.91


#### TXT de tamanho fixo

[pandas.read_fwf](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html)

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://dadosabertos.bcb.gov.br/dataset/precos-de-titulos-publicos-para-redesconto/resource/0bdd030d-ddf3-447c-92ee-437f3c695f4d?inner_span=True


https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [32]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT')

Unnamed: 0,0ASPB000420240829202408281754
0,1210100202409010000015276098980250000000000000...
1,1210100202503010000015273507271410000000000000...
2,1210100202509010000015267398017630000000000000...
3,1210100202603010000015256285440120000000000000...
4,1210100202609010000015248747219650000000000000...
...,...
182,1950199202901010000000942115679470000000000000...
183,1950199203101010000000916817582140000000000000...
184,1950199203301010000000896722166230000000000000...
185,1950199203501010000000880570996250000000000000...


In [39]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT', widths=[1, 6, 8, 10, 8, 10, 8] )

Unnamed: 0,0,ASPB00,04202302,1020230209,1807,Unnamed: 5,Unnamed: 6
0,1,210100,20230301.0,12815.0,81051925.0,0.0,0.0
1,1,210100,20230901.0,12809.0,80215379.0,0.0,0.0
2,1,210100,20240301.0,12804.0,58190186.0,0.0,0.0
3,1,210100,20240901.0,12798.0,72483749.0,0.0,0.0
4,1,210100,20250301.0,12790.0,48276054.0,0.0,0.0
...,...,...,...,...,...,...,...
171,1,950199,20270101.0,906.0,1588218.0,0.0,0.0
172,1,950199,20290101.0,860.0,27161064.0,0.0,0.0
173,1,950199,20310101.0,824.0,36419102.0,0.0,0.0
174,1,950199,20330101.0,797.0,11202908.0,0.0,0.0


_________
### Escrevendo dados de um arquivo

Vamos utilizar os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [33]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [34]:
df

Unnamed: 0,data,valor
0,01/08/1986,2.57
1,01/09/1986,2.94
2,01/10/1986,1.96
3,01/11/1986,2.37
4,01/12/1986,5.47
...,...,...
452,01/04/2024,0.89
453,01/05/2024,0.83
454,01/06/2024,0.79
455,01/07/2024,0.91


#### CSV

Separado por virgula

In [36]:
df.to_csv('saidas/arq1.csv')

Separado por virgula e sem index

In [37]:
df.to_csv('saidas/arq2.csv', index=False)

Separado por ponto e virgula ou um separador qualquer

In [38]:
df.to_csv('saidas/arq3.csv', index=False, sep=';')

In [45]:
df.to_csv('arq4.csv', index=False, sep=';', decimal=',')

#### XLSX

In [46]:
df.to_excel('arq5.xlsx')

Sem index

In [47]:
df.to_excel('arq5.xlsx', index=False)

Fazendo append

In [48]:
f = pd.ExcelWriter('arq5.xlsx', mode='a')
df.to_excel(f, sheet_name='abanova')
f.close()

https://github.com/samukweku/data-wrangling-blog/tree/master/notebooks

In [None]:
pd.read_sql

## Funções Pandas

A partir de um arquivo `dados_religiao_income.txt`

In [3]:
import pandas as pd

In [4]:
df = pd.read_table('datasets/dados_religiao_income.txt',
                   header=0, sep=' ')

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [5]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


In [51]:
list(df.columns)

['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [6]:
col = list(df.columns)

In [7]:
col

['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

In [8]:
new_df = pd.melt(df,
                 id_vars= col[0], # não vou despivotar
                 value_vars= col[1:], # o que despivotar
                 var_name='income', # Titulos das colunas
                 value_name='freq' # Valores das colunas
                 )

#new_df.sort_values(by=['religion', 'income']).reset_index(drop=True)
new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


### pivot_table

Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
Usamos o método pivot.

In [10]:
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [9]:
new_df.pivot_table(index='religion', 
                   columns='income', 
                   values='freq', 
                   aggfunc='mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34.0,60.0,81.0,76.0,137.0,27.0
Atheist,27.0,37.0,52.0,35.0,70.0,12.0
Buddhist,21.0,30.0,34.0,33.0,58.0,27.0
Catholic,617.0,732.0,670.0,638.0,1116.0,418.0
Don’t know/refused,14.0,15.0,11.0,10.0,35.0,15.0
Evangelical Prot,869.0,1064.0,982.0,881.0,1486.0,575.0
Hindu,9.0,7.0,9.0,11.0,34.0,1.0
Historically Black Prot,244.0,236.0,238.0,197.0,223.0,228.0
Jehovah’s Witness,27.0,24.0,24.0,21.0,30.0,20.0
Jewish,19.0,25.0,25.0,30.0,95.0,19.0


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [11]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])

In [12]:
df1

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


In [13]:
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [59]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


In [60]:
pd.concat([df1, df2]).reset_index()

Unnamed: 0,index,nome,val
0,0,eu,1
1,1,tu,1
2,2,ele/ela,1
3,0,nós,2
4,1,vós,2
5,2,eles/elas,2


In [61]:
pd.concat([df1, df2]).reset_index(drop=True)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
3,nós,2
4,vós,2
5,eles/elas,2


In [62]:
pd.concat([df1, df2[['nome']]]).reset_index(drop=True)

Unnamed: 0,nome,val
0,eu,1.0
1,tu,1.0
2,ele/ela,1.0
3,nós,
4,vós,
5,eles/elas,


In [63]:
pd.concat([df1, df2]).reset_index(drop=True)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
3,nós,2
4,vós,2
5,eles/elas,2


In [64]:
pd.concat([df1, df2[['val','nome']]]).reset_index(drop=True)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
3,nós,2
4,vós,2
5,eles/elas,2


In [65]:
df22 = df2.copy()
df22.columns = ['nome', 'v2']

In [66]:
pd.concat([df1, df22]).reset_index(drop=True)

Unnamed: 0,nome,val,v2
0,eu,1.0,
1,tu,1.0,
2,ele/ela,1.0,
3,nós,,2.0
4,vós,,2.0
5,eles/elas,,2.0


In [67]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [68]:
new_df2

Unnamed: 0,nome,val
4,nós,2
5,vós,2
6,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

 Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge

In [69]:
pd.concat([df1, df2], axis=1) #index

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1,nós,2
1,tu,1,vós,2
2,ele/ela,1,eles/elas,2


In [70]:
pd.concat([df1, new_df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1.0,,
1,tu,1.0,,
2,ele/ela,1.0,,
4,,,nós,2.0
5,,,vós,2.0
6,,,eles/elas,2.0


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [71]:
df1

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


In [72]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [73]:
df1.rename(columns={'nome': 'nome_alterado'}, inplace=True)

In [74]:
df1

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [75]:
df1.columns = ['nome_modificado', 'valor']
df1.head()

Unnamed: 0,nome_modificado,valor
0,eu,1
1,tu,1
2,ele/ela,1


In [76]:
df1.head(1)

Unnamed: 0,nome_modificado,valor
0,eu,1


In [77]:
df1.head(2)

Unnamed: 0,nome_modificado,valor
0,eu,1
1,tu,1


## Exploração de dados: Estatísticas

`dados_parciais.txt`

In [14]:
df = pd.read_table('datasets/dados_parciais.txt', sep=';', decimal=',')

In [79]:
df

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


### Head

O head é utilizado para observarmos o início de um dataframe

In [80]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


### Tail

O tail é utilizado para observarmos o final de um dataframe

In [81]:
df.tail(6)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
23,Sul,RS,282062,7581230.0,2056452.0,9637682.0
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


In [15]:
df.sample(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0


### Describe

# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.

In [16]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [83]:
stats = df.describe()
type(stats)

pandas.core.frame.DataFrame

In [84]:
stats['pop_urbana']['mean']

4558598.666666667

### Outras estatísticas

Calculando uma estatística por vez

In [85]:
# calculando uma estatística por vez
df.mean()

  df.mean()


superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [86]:
df['pop_rural'].mean()

1259163.1851851852

In [87]:
df.median()

  df.median()


superficie     199709.0
pop_urbana    2176006.0
pop_rural      715174.0
total         2802707.0
dtype: float64

In [88]:
df.quantile([0.25, 0.3, 0.75])

  df.quantile([0.25, 0.3, 0.75])


Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.25,53307.0,1580216.5,475874.5,1874890.0
0.3,72128.2,1650394.8,528948.4,2174232.4
0.75,333366.0,5095113.0,2024133.0,7104462.5


In [89]:
df.min()

  df.min()


uf                  AC
superficie          10
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: object

In [90]:
df.min(numeric_only=True)

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

Se quisermos estatísticas separadas por região (agrupada)

In [91]:
df.groupby('regiao').mean()

  df.groupby('regiao').mean()


Unnamed: 0_level_0,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,1170921.0,2216459.0,408911.0,2625370.0
Nordeste,156117.8,3243633.0,1730612.0,4974245.0
Norte,552805.6,1005618.0,607252.3,1612870.0
Sudeste,231821.8,14956490.0,1794278.0,16750770.0
Sul,192404.7,6052783.0,1786127.0,7838910.0


In [92]:
df.groupby('regiao').mean().reset_index()

  df.groupby('regiao').mean().reset_index()


Unnamed: 0,regiao,superficie,pop_urbana,pop_rural,total
0,Centro-Oeste,1170921.0,2216459.0,408911.0,2625370.0
1,Nordeste,156117.8,3243633.0,1730612.0,4974245.0
2,Norte,552805.6,1005618.0,607252.3,1612870.0
3,Sudeste,231821.8,14956490.0,1794278.0,16750770.0
4,Sul,192404.7,6052783.0,1786127.0,7838910.0


In [93]:
df.groupby('regiao').mean().reset_index(drop=True)

  df.groupby('regiao').mean().reset_index(drop=True)


Unnamed: 0,superficie,pop_urbana,pop_rural,total
0,1170921.0,2216459.0,408911.0,2625370.0
1,156117.8,3243633.0,1730612.0,4974245.0
2,552805.6,1005618.0,607252.3,1612870.0
3,231821.8,14956490.0,1794278.0,16750770.0
4,192404.7,6052783.0,1786127.0,7838910.0


Importando novo Dataframe `populacao_brasileira_por_municipio.txt`

In [94]:
# importando o dataframe de municípios
df_muni = pd.read_table('dados/populacao_brasileira_por_municipio.txt',
                        sep=';', thousands='.')

In [95]:
df_muni

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
...,...,...,...,...,...
5565,GO,52,22005,Vianópolis,14088
5566,GO,52,22054,Vicentinópolis,9002
5567,GO,52,22203,Vila Boa,6451
5568,GO,52,22302,Vila Propício,5941


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [96]:
df['uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [97]:
df.uf

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [98]:
df_muni[['UF', 'COD. UF']]

Unnamed: 0,UF,COD. UF
0,RO,11
1,RO,11
2,RO,11
3,RO,11
4,RO,11
...,...,...
5565,GO,52
5566,GO,52
5567,GO,52
5568,GO,52


In [99]:
df_muni[df_muni.columns[-3:]]

Unnamed: 0,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,15,Alta Floresta D'Oeste,22516
1,23,Ariquemes,111148
2,31,Cabixi,5067
3,49,Cacoal,86416
4,56,Cerejeiras,16088
...,...,...,...
5565,22005,Vianópolis,14088
5566,22054,Vicentinópolis,9002
5567,22203,Vila Boa,6451
5568,22302,Vila Propício,5941


In [100]:
df_muni.columns

Index(['UF', 'COD. UF', 'COD. MUNIC', 'NOME DO MUNICÍPIO',
       'POPULAÇÃO ESTIMADA'],
      dtype='object')

In [101]:
df_muni[df_muni.columns[:3]]

Unnamed: 0,UF,COD. UF,COD. MUNIC
0,RO,11,15
1,RO,11,23
2,RO,11,31
3,RO,11,49
4,RO,11,56
...,...,...,...
5565,GO,52,22005
5566,GO,52,22054
5567,GO,52,22203
5568,GO,52,22302


### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

quero saber quais cidades tem população urbana > 500000

In [102]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


In [103]:
%%timeit
query = df['pop_urbana']  > 500000
df[query]

536 µs ± 177 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [104]:
%%timeit
df.query('pop_urbana > 500000')

1.57 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [105]:
limite = 500000

In [106]:
df.query(f'pop_urbana > {limite}')

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0


In [107]:
df.query('pop_urbana > @limite')

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0


### .loc e .iloc

In [108]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset

df.loc[1, 'pop_urbana']

315401.0

In [109]:
%%timeit
df.loc[1, 'pop_urbana'] = 1234

221 µs ± 23.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [110]:
df['pop_urbana'].loc[1]

1234.0

In [111]:
%%timeit
df['pop_urbana'].loc[1] = 4653

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


524 µs ± 58.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [112]:
# qual estado corresponde à segunda linha do dataset

df.loc[1, :]

regiao           Norte
uf                  AC
superficie      153150
pop_urbana      4653.0
pop_rural     168322.0
total         483726.0
Name: 1, dtype: object

In [113]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?


df.loc[df.regiao == 'Nordeste', 'uf']

7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

e (and) => &
ou (or) => |
não (not) => ~

In [114]:
# quais estados pertencem à região NE ou N?

df.loc[ (df.regiao == 'Nordeste') \
       |(df.regiao == 'Norte'), 'uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
Name: uf, dtype: object

iloc faz a referência aos índices e colunas de forma implícita

In [115]:
df.iloc[2, 2]

1577820

definir a coluna uf como a coluna de índice

In [116]:
df = df.set_index(['superficie', 'total'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,regiao,uf,pop_urbana,pop_rural
superficie,total,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
238513,1231007.0,Norte,RO,762864.0,468143.0
153150,483726.0,Norte,AC,4653.0,168322.0
1577820,2389279.0,Norte,AM,1766166.0,623113.0
225116,247131.0,Norte,RR,174277.0,72854.0
1253165,5510849.0,Norte,PA,2949017.0,2561832.0


In [117]:
df.loc[(238513, 1231007.0), 'pop_urbana']

762864.0

In [118]:
df.reset_index(inplace=True)

In [119]:
df = df.set_index(['uf'])
df.head()

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0
AC,153150,483726.0,Norte,4653.0,168322.0
AM,1577820,2389279.0,Norte,1766166.0,623113.0
RR,225116,247131.0,Norte,174277.0,72854.0
PA,1253165,5510849.0,Norte,2949017.0,2561832.0


desejo obter a população rural do AC

In [120]:
# loc (explícito)

print('Valor desejado', df.loc['AC', 'pop_rural'])

Valor desejado 168322.0


In [121]:
# iloc (implícito)

print('Valor desejado', df.iloc[1, 3])

Valor desejado 4653.0


Queremos as cidades que têm menos de 500000 habitantes (total)

In [122]:
%%timeit
df.loc[df.total < 500000, :]

577 µs ± 85.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [123]:
%%timeit
df[df.total < 500000]

547 µs ± 99.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


### Operações matemáticas

Quero saber a razão entre as população urbana e a população rural

In [124]:
df['razao_urbana_rural'] = df['pop_urbana'] / df.pop_rural
df.head()

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553
AC,153150,483726.0,Norte,4653.0,168322.0,0.027643
AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423
RR,225116,247131.0,Norte,174277.0,72854.0,2.39214
PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136


Calcular a fração da população urbana sobre a geral

In [125]:
df['frac_urbana'] = df['pop_urbana'] / df['total']

Iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

In [126]:
%%timeit

for uf in df.index:
    if df.loc[uf, 'frac_urbana'] > 0.7:
        df.loc[uf, 'indicador'] = 1
    else:
        df.loc[uf, 'indicador'] = 0

10.1 ms ± 2.92 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


https://pythonacademy.com.br/blog/list-comprehensions-no-python

In [127]:
%%timeit
df['indicador'] = [1 if i > 0.7 else 0 for i in df.frac_urbana]

217 µs ± 36.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [128]:
%%timeit

df['indicador'] = np.where(df.frac_urbana > 0.7, 1, 0)

338 µs ± 44 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [129]:
%%timeit

df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

449 µs ± 60.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [130]:
df

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0
AC,153150,483726.0,Norte,4653.0,168322.0,0.027643,0.009619,0
AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423,0.739205,1
RR,225116,247131.0,Norte,174277.0,72854.0,2.39214,0.705201,1
PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136,0.535129,0
AP,143454,379459.0,Norte,330590.0,48869.0,6.76482,0.871214,1
TO,278421,1048642.0,Norte,741009.0,307633.0,2.408744,0.706637,1
MA,333366,5222565.0,Nordeste,2711557.0,2511008.0,1.079868,0.5192,0
PI,252379,2673176.0,Nordeste,1556115.0,1117061.0,1.393044,0.582122,0
Litígio*,2977,,Nordeste,,,,,0


Podemos fazer transformações com dicionários

https://www.analyticsvidhya.com/blog/2021/07/python-most-powerful-functions-map-filter-and-reduce-in-5-minutes/



In [131]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

df['regiao_pc'] = df['regiao'].map(ponto_cardeal)
df

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,
AC,153150,483726.0,Norte,4653.0,168322.0,0.027643,0.009619,0,
AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423,0.739205,1,
RR,225116,247131.0,Norte,174277.0,72854.0,2.39214,0.705201,1,
PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136,0.535129,0,
AP,143454,379459.0,Norte,330590.0,48869.0,6.76482,0.871214,1,
TO,278421,1048642.0,Norte,741009.0,307633.0,2.408744,0.706637,1,
MA,333366,5222565.0,Nordeste,2711557.0,2511008.0,1.079868,0.5192,0,NE
PI,252379,2673176.0,Nordeste,1556115.0,1117061.0,1.393044,0.582122,0,NE
Litígio*,2977,,Nordeste,,,,,0,NE


Usando o apply em múltiplas colunas

In [132]:
def soma_quadrados(row):

  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [133]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1)
df

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.52866
AC,153150,483726.0,Norte,4653.0,168322.0,0.027643,0.009619,0,,0.121175
AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423,0.739205,1,,0.614438
RR,225116,247131.0,Norte,174277.0,72854.0,2.39214,0.705201,1,,0.584215
PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136,0.535129,0,,0.502468
AP,143454,379459.0,Norte,330590.0,48869.0,6.76482,0.871214,1,,0.7756
TO,278421,1048642.0,Norte,741009.0,307633.0,2.408744,0.706637,1,,0.585398
MA,333366,5222565.0,Nordeste,2711557.0,2511008.0,1.079868,0.5192,0,NE,0.500737
PI,252379,2673176.0,Nordeste,1556115.0,1117061.0,1.393044,0.582122,0,NE,0.513488
Litígio*,2977,,Nordeste,,,,,0,NE,


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [134]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

dict_left = {'coluna_on': lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_direita': lista_on_right}

In [135]:
df_left = pd.DataFrame(dict_left)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [136]:
df_right = pd.DataFrame(dict_right)
df_right

Unnamed: 0,coluna_on,valores_direita
0,1,1
1,3,3
2,5,5
3,7,7
4,9,9
5,11,11


In [137]:
df_left.merge(df_right, how='outer', left_on='coluna_on', right_on='coluna_on')

Unnamed: 0,coluna_on,valores_esquerda,valores_direita
0,1,1.0,1.0
1,2,2.0,
2,3,3.0,3.0
3,4,4.0,
4,5,5.0,5.0
5,6,6.0,
6,7,7.0,7.0
7,8,8.0,
8,9,9.0,9.0
9,10,10.0,


In [138]:
df_left.merge(df_right, how='inner', left_on='coluna_on', right_on='coluna_on')

Unnamed: 0,coluna_on,valores_esquerda,valores_direita
0,1,1,1
1,3,3,3
2,5,5,5
3,7,7,7
4,9,9,9


In [139]:
df_right.merge(df_left, how='left', left_on='coluna_on', right_on='coluna_on')

Unnamed: 0,coluna_on,valores_direita,valores_esquerda
0,1,1,1.0
1,3,3,3.0
2,5,5,5.0
3,7,7,7.0
4,9,9,9.0
5,11,11,


In [140]:
df_muni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [141]:
df.head()

Unnamed: 0_level_0,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.52866
AC,153150,483726.0,Norte,4653.0,168322.0,0.027643,0.009619,0,,0.121175
AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423,0.739205,1,,0.614438
RR,225116,247131.0,Norte,174277.0,72854.0,2.39214,0.705201,1,,0.584215
PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136,0.535129,0,,0.502468


retirar o uf dos índices

In [142]:
df = df.reset_index()
df.head()

Unnamed: 0,uf,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.52866
1,AC,153150,483726.0,Norte,4653.0,168322.0,0.027643,0.009619,0,,0.121175
2,AM,1577820,2389279.0,Norte,1766166.0,623113.0,2.834423,0.739205,1,,0.614438
3,RR,225116,247131.0,Norte,174277.0,72854.0,2.39214,0.705201,1,,0.584215
4,PA,1253165,5510849.0,Norte,2949017.0,2561832.0,1.151136,0.535129,0,,0.502468


quero a média e o desvio padrão da população estimada por região

In [143]:
df_muni.merge(df, how='inner', left_on='UF', right_on='uf')

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,uf,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,11,15,Alta Floresta D'Oeste,22516,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.528660
1,RO,11,23,Ariquemes,111148,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.528660
2,RO,11,31,Cabixi,5067,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.528660
3,RO,11,49,Cacoal,86416,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.528660
4,RO,11,56,Cerejeiras,16088,RO,238513,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0,,0.528660
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5380,GO,52,22005,Vianópolis,14088,GO,3412895,4515868.0,Centro-Oeste,3873722.0,642146.0,6.032463,0.857802,1,CO,0.756045
5381,GO,52,22054,Vicentinópolis,9002,GO,3412895,4515868.0,Centro-Oeste,3873722.0,642146.0,6.032463,0.857802,1,CO,0.756045
5382,GO,52,22203,Vila Boa,6451,GO,3412895,4515868.0,Centro-Oeste,3873722.0,642146.0,6.032463,0.857802,1,CO,0.756045
5383,GO,52,22302,Vila Propício,5941,GO,3412895,4515868.0,Centro-Oeste,3873722.0,642146.0,6.032463,0.857802,1,CO,0.756045


In [144]:
df_reg = df_muni.merge(df, how='left', left_on='UF', right_on='uf')

In [145]:
df_reg.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,uf,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
0,RO,11,15,Alta Floresta D'Oeste,22516,RO,238513.0,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0.0,,0.52866
1,RO,11,23,Ariquemes,111148,RO,238513.0,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0.0,,0.52866
2,RO,11,31,Cabixi,5067,RO,238513.0,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0.0,,0.52866
3,RO,11,49,Cacoal,86416,RO,238513.0,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0.0,,0.52866
4,RO,11,56,Cerejeiras,16088,RO,238513.0,1231007.0,Norte,762864.0,468143.0,1.629553,0.619707,0.0,,0.52866


In [146]:
df_reg[df_reg.total.isna()]

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,uf,superficie,total,regiao,pop_urbana,pop_rural,razao_urbana_rural,frac_urbana,indicador,regiao_pc,indicador2
1465,PE,26,54,Abreu e Lima,100698,,,,,,,,,,,
1466,PE,26,104,Afogados da Ingazeira,37546,,,,,,,,,,,
1467,PE,26,203,Afrânio,19981,,,,,,,,,,,
1468,PE,26,302,Agrestina,25240,,,,,,,,,,,
1469,PE,26,401,Água Preta,37386,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1645,PE,26,16183,Vertente do Lério,7526,,,,,,,,,,,
1646,PE,26,16209,Vertentes,21172,,,,,,,,,,,
1647,PE,26,16308,Vicência,32897,,,,,,,,,,,
1648,PE,26,16407,Vitória de Santo Antão,140389,,,,,,,,,,,


In [147]:
df['uf']

0           RO
1           AC
2           AM
3           RR
4           PA
5           AP
6           TO
7           MA
8           PI
9     Litígio*
10          CE
11          RN
12          PB
13        PE**
14          AL
15          SE
16          BA
17          MG
18          ES
19          RJ
20          SP
21          PR
22          SC
23          RS
24          MS
25          MT
26          GO
27          DF
28    Ilhas***
Name: uf, dtype: object

In [148]:
# quero a média e o desvio padrão da população estimada por região
df_reg\
    .groupby('regiao')\
    .agg({'POPULAÇÃO ESTIMADA': ['mean', 
                                 'std', 
                                 'median']})

Unnamed: 0_level_0,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA
Unnamed: 0_level_1,mean,std,median
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Centro-Oeste,35775.880086,172714.901533,9399.0
Nordeste,29827.873835,117781.50581,13876.0
Norte,42015.471111,140141.406672,16921.0
Sudeste,53736.757794,364442.832617,11504.5
Sul,25526.941226,88461.904412,7213.0


In [149]:
# quero a média e o desvio padrão da população estimada por região
df_reg\
    .groupby('regiao')\
    .agg({'POPULAÇÃO ESTIMADA': ['mean']})

Unnamed: 0_level_0,POPULAÇÃO ESTIMADA
Unnamed: 0_level_1,mean
regiao,Unnamed: 1_level_2
Centro-Oeste,35775.880086
Nordeste,29827.873835
Norte,42015.471111
Sudeste,53736.757794
Sul,25526.941226


https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html

https://pandas.pydata.org/docs/user_guide/gotchas.html#gotchas-udf-mutation

https://stackoverflow.com/questions/14246817/python-pandas-custom-agg-function

In [150]:
def max2(x):
    return np.max(x)

In [151]:
df_agg = df_reg\
    .groupby('regiao')\
    .agg({'POPULAÇÃO ESTIMADA': ['mean', 
                                 'std', 
                                 'median'],
         'COD. MUNIC': ['mean', 
                                 'std', 
                                 'median',
                                 'max',
                                 max2]})

In [152]:
df_agg

Unnamed: 0_level_0,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA,POPULAÇÃO ESTIMADA,COD. MUNIC,COD. MUNIC,COD. MUNIC,COD. MUNIC,COD. MUNIC
Unnamed: 0_level_1,mean,std,median,mean,std,median,max,max2
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Centro-Oeste,35775.880086,172714.901533,9399.0,8316.194861,6010.108682,6778.0,22302,22302
Nordeste,29827.873835,117781.50581,13876.0,9401.460534,7671.22918,7507.0,33604,33604
Norte,42015.471111,140141.406672,16921.0,5415.753333,5977.285203,3205.5,22107,22107
Sudeste,53736.757794,364442.832617,11504.5,30317.767386,20668.528265,29450.5,72202,72202
Sul,25526.941226,88461.904412,7213.0,12223.498741,7309.325366,12005.0,28807,28807


In [153]:
df_agg[('POPULAÇÃO ESTIMADA','mean')]

regiao
Centro-Oeste    35775.880086
Nordeste        29827.873835
Norte           42015.471111
Sudeste         53736.757794
Sul             25526.941226
Name: (POPULAÇÃO ESTIMADA, mean), dtype: float64