<a href="https://colab.research.google.com/github/robertosgpontes/tec_prog_1/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Review

Vamos criar uma matriz com os dados do arquivo `alunos.csv`. Use Numpy!

# Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science. Fornece estruturas e funções de dados de alto nível projetadas para tornar o trabalho com dados estruturados ou tabulares rápido, fácil e expressivo. Desde seu surgimento em 2010, ele ajudou a permitir que o Python fosse um ambiente de análise de dados poderoso e produtivo. 

O Pandas combina as ideias de computação de matriz de alto desempenho do NumPy com os recursos flexíveis de manipulação de dados de planilhas e bancos de dados relacionais (como SQL). Ele fornece uma funcionalidade de indexação sofisticada para facilitar a reformulação, o slice and dice, a execução de agregações e a seleção de subconjuntos de dados.

[Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython - by Wes McKinney, creator of pandas.](https://www.oreilly.com/library/view/python-for-data/9781491957653/)


## Instalação

In [1]:
!pip install pandas



## Import

In [2]:
import pandas as pd
import numpy as np

___

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

O objeto Series é um objeto de matriz rotulado unidimensional.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [3]:
lista = [4, 6, 3, 7, 25]

pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [4]:
dic = {"a": 50, "b" : 42}

pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [7]:
indices = ["a", "b", "c", "d", "e"]
lista = [4, 6, 3, 7, 25]

serie_pandas = pd.Series(data=lista, index=indices,  name="coluna1")

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [9]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [10]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32


In [11]:
# Máscara booleana simples
notas[notas >= 5]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
16    10
17     8
19     7
21     8
22    11
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)

In [16]:
notas[((notas >= 5) & (notas <= 8))]

1     6
3     7
5     5
8     7
9     6
12    5
13    8
14    7
17    8
19    7
21    8
24    5
26    6
28    5
29    7
dtype: int32

Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)

In [14]:
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

E também fazer o inverso

In [17]:
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int32

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [20]:
print(notas)

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32


In [21]:
# cria uma nova Serie ordenada
notas.sort_values()

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int32

In [22]:
# cria uma nova Serie ordenada descrescente
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int32

In [23]:
# Ordenada Serie
notas.sort_values(inplace=True) 

In [24]:
print(notas)

23     3
20     3
18     4
15     4
24     5
5      5
28     5
12     5
1      6
26     6
9      6
14     7
19     7
29     7
8      7
3      7
17     8
21     8
13     8
6      9
4      9
25     9
0      9
11    10
10    10
16    10
7     10
2     10
22    11
27    11
dtype: int32


Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [25]:
notas.unique()

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [26]:
notas.value_counts()

7     5
10    5
5     4
9     4
6     3
8     3
3     2
4     2
11    2
dtype: int64

frequencia relativa

In [27]:
notas.value_counts(normalize=True)

7     0.166667
10    0.166667
5     0.133333
9     0.133333
6     0.100000
8     0.100000
3     0.066667
4     0.066667
11    0.066667
dtype: float64

___

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

O DataFrame é uma estrutura de dados tabular orientada a colunas com rótulos de linha e coluna.

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [30]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [31]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [32]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


## Lendo e Escrevendo os dados de Arquivos

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

[pandas.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

In [35]:
pd.read_csv('dados/alunos.csv')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [38]:
pd.read_csv('dados/alunos2.csv', sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [39]:
pd.read_csv('https://raw.githubusercontent.com/robertosgpontes/tec_prog_1/main/dados/alunos2.csv', sep=';', decimal='.')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


#### XLS ou XLSX

[pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


In [None]:
!pip install openpyxl

![Pasta de Trabalho Base](dados/sample_xlsx.png)

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [40]:
pd.read_excel('dados/sample.xlsx')

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


In [41]:
pd.read_excel('https://github.com/robertosgpontes/tec_prog_1/blob/main/dados/sample.xlsx?raw=true')

Unnamed: 0,ds,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.90,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
...,...,...,...,...,...,...,...,...,...,...,...
129,0.72,94,137,20,130,850,49,6,31,68,15.1
130,0.78,137,190,20,130,860,50,5,17,51,8.1
131,0.73,0,15,30,150,820,47,37,27,80,27.9
132,0.95,0,20,80,110,810,48,3,19,89,22.3


##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

In [48]:
pd.read_excel('dados/sample.xlsx', sheet_name='p2')

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


In [49]:
pd.read_excel('dados/sample.xlsx', sheet_name='p2', usecols='A:C')

Unnamed: 0,ds2,hzdepup,hzdeplow
0,0.9,24,60
1,0.91,60,135
2,0.89,135,165
3,0.83,165,192
4,1.53,15,40
5,1.44,40,65


Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx` 

In [52]:
pd.read_excel('dados/sample.xlsx', sheet_name='p3')

Unnamed: 0,Cabeçalho inútil,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
1,0.9,24,60,110,70,820,54,1,1,49,13.7
2,0.91,60,135,110,60,830,57,1,0,30,9
3,0.89,135,165,100,120,780,57,1,0,18,7.3
4,0.83,165,192,110,80,810,59,1,0,13,6
5,1.53,15,40,840,10,150,46,1,2,18,3.5
6,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [51]:
pd.read_excel('dados/sample.xlsx', sheet_name='p3', header=1)

Unnamed: 0,ds2,hzdepup,hzdeplow,sand,silt,clay,phh2o,sb,al,h,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [53]:
a = pd.read_excel('dados/sample.xlsx', sheet_name='p3', 
                header=1,
                names=['densidade', 'hzdepup', 'hzdeplow', 'areia', 
                        'silte', 'argila', 'phh2o', 'antimonio', 
                        'alunimio', 'hidrogenio', 'corg']
    )

In [55]:
a

Unnamed: 0,densidade,hzdepup,hzdeplow,areia,silte,argila,phh2o,antimonio,alunimio,hidrogenio,corg
0,0.9,24,60,110,70,820,54,1,1,49,13.7
1,0.91,60,135,110,60,830,57,1,0,30,9.0
2,0.89,135,165,100,120,780,57,1,0,18,7.3
3,0.83,165,192,110,80,810,59,1,0,13,6.0
4,1.53,15,40,840,10,150,46,1,2,18,3.5
5,1.44,40,65,820,20,160,46,1,2,12,2.5


##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [59]:
pd.read_excel('https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx')

Unnamed: 0,Nº DO PEDIDO,DIVISÃO TÉCNICA DE ORIGEM,DATA DO DEPÓSITO,DESPACHO DE ENTRADA NA 2ª INSTÂNCIA,DATA DO DESPACHO,ATUALIZAÇÃO
0,PI0200936,DITEM,2002-03-07,17.1,2011-08-23,2022-07-20
1,PI9816506,DIMEC,1998-02-20,17.1,2016-03-15,NaT
2,MU8800678,DIMUT,2008-03-26,17.1,2017-11-21,NaT
3,PI0610654,DIALP,2006-05-26,17.1,2017-11-21,NaT
4,MU8900777,DIMUT,2009-05-28,17.1,2017-11-28,NaT
...,...,...,...,...,...,...
6843,BR102015011767,DITEX,2015-05-21,2022-02-12 00:00:00,2022-06-28,NaT
6844,BR112016009929,DITEX,2014-11-10,2022-02-12 00:00:00,2022-07-05,NaT
6845,BR112016012529,DITEX,2014-12-09,2022-02-12 00:00:00,2022-07-12,NaT
6846,BR112015026098,DITEX,2014-04-11,2022-02-12 00:00:00,2022-07-12,NaT


#### JSON

[pandas.read_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

In [57]:
pd.read_json('dados/selic.json')

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
411,01/09/2020,0.16
412,01/10/2020,0.16
413,01/11/2020,0.15
414,01/12/2020,0.16


Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [58]:
pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
436,01/10/2022,1.02
437,01/11/2022,1.02
438,01/12/2022,1.12
439,01/01/2023,1.12


#### TXT de tamanho fixo

[pandas.read_fwf](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html)

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://dadosabertos.bcb.gov.br/dataset/precos-de-titulos-publicos-para-redesconto/resource/0bdd030d-ddf3-447c-92ee-437f3c695f4d?inner_span=True


https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [60]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT')

Unnamed: 0,0ASPB000420230206202302031811
0,1210100202303010000012789624781620000000000000...
1,1210100202309010000012783753625170000000000000...
2,1210100202403010000012778663561060000000000000...
3,1210100202409010000012772854609740000000000000...
4,1210100202503010000012764647281200000000000000...
...,...
171,1950199202701010000000900544523340000000000000...
172,1950199202901010000000858462556600000000000000...
173,1950199203101010000000824960251630000000000000...
174,1950199203301010000000799056793720000000000000...


In [61]:
pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT', widths=[1, 6, 8, 10, 8, 10, 8] )

Unnamed: 0,0,ASPB00,04202302,0620230203,1811,Unnamed: 5,Unnamed: 6
0,1,210100,20230301.0,12789.0,62478162.0,0.0,0.0
1,1,210100,20230901.0,12783.0,75362517.0,0.0,0.0
2,1,210100,20240301.0,12778.0,66356106.0,0.0,0.0
3,1,210100,20240901.0,12772.0,85460974.0,0.0,0.0
4,1,210100,20250301.0,12764.0,64728120.0,0.0,0.0
...,...,...,...,...,...,...,...
171,1,950199,20270101.0,900.0,54452334.0,0.0,0.0
172,1,950199,20290101.0,858.0,46255660.0,0.0,0.0
173,1,950199,20310101.0,824.0,96025163.0,0.0,0.0
174,1,950199,20330101.0,799.0,5679372.0,0.0,0.0


_________
### Escrevendo dados de um arquivo

Vamos utilizar os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [62]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [63]:
df

Unnamed: 0,data,valor
0,01/06/1986,1.27
1,01/07/1986,1.95
2,01/08/1986,2.57
3,01/09/1986,2.94
4,01/10/1986,1.96
...,...,...
436,01/10/2022,1.02
437,01/11/2022,1.02
438,01/12/2022,1.12
439,01/01/2023,1.12


#### CSV

Separado por virgula

In [64]:
df.to_csv('arq1.csv')

Separado por virgula e sem index

In [67]:
df.to_csv('arq2.csv', index=False)

Separado por ponto e virgula ou um separador qualquer

In [68]:
df.to_csv('arq3.csv', index=False, sep=';')

In [69]:
df.to_csv('arq4.csv', index=False, sep=';', decimal=',')

#### XLSX

In [70]:
df.to_excel('arq5.xlsx')

Sem index

In [71]:
df.to_excel('arq5.xlsx', index=False)

Fazendo append

In [72]:
f = pd.ExcelWriter('arq5.xlsx', mode='a')
df.to_excel(f, sheet_name='abanova')
f.close()

https://github.com/samukweku/data-wrangling-blog/blob/master/_notebooks/2020-05-19-Access-Tables-In-Excel.ipynb

## Funções Pandas

A partir de um arquivo `dados_religiao_income.txt`

In [73]:
df = pd.read_table('dados/dados_religiao_income.txt',
                   header=0, sep=' ')

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [74]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


In [76]:
list(df.columns)

['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [78]:
col = list(df.columns)

In [90]:
new_df = pd.melt(df,
                 id_vars= col[0], # não vou despivotar
                 value_vars= col[1:], # o que despivotar
                 var_name='income', # Titulos das colunas
                 value_name='freq' # Valores das colunas
                 )

new_df.sort_values(by=['religion', 'income']).reset_index(drop=True)


Unnamed: 0,religion,income,freq
0,Agnostic,$10-20k,34
1,Agnostic,$20-30k,60
2,Agnostic,$30-40k,81
3,Agnostic,$40-50k,76
4,Agnostic,$50-75k,137
5,Agnostic,<$10k,27
6,Atheist,$10-20k,27
7,Atheist,$20-30k,37
8,Atheist,$30-40k,52
9,Atheist,$40-50k,35


### pivot_table

Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
Usamos o método pivot.

In [91]:
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [96]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

 Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [5]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo

## Exploração de dados: Estatísticas

`dados_parciais.txt`

### Head

O head é utilizado para observarmos o início de um dataframe

### Tail

O tail é utilizado para observarmos o final de um dataframe

### Describe

# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.

### Outras estatísticas

Calculando uma estatística por vez


Se quisermos estatísticas separadas por região (agrupada)

Importando novo Dataframe `populacao_brasileira_por_municipio.txt`

### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

quero saber quais cidades tem população urbana > 500000

### .loc e .iloc

In [6]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset



In [7]:
# qual estado corresponde à segunda linha do dataset



In [8]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?




In [9]:
# quais estados pertencem à região NE e N?




iloc faz a referência aos índices e colunas de forma implícita

definir a coluna uf como a coluna de índice

desejo obter a população rural do AC

In [10]:
# loc (explícito)



In [11]:
# iloc (implícito)



Queremos as cidades que têm menos de 500000 habitantes (total)

### Operações matemáticas

Quero saber a razão entre as população urbana e a população rural

Calcular a fração da população urbana sobre a geral

Iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

Podemos fazer transformações com dicionários


Usando o apply em múltiplas colunas

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

retirar o uf dos índices

quero a média e o desvio padrão da população estimada por região