# Pandas

In [2]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [3]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [4]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [12]:
indices = ["a", "b", "c", "d", "e"]
serie_pandas = pd.Series(data=lista, index=indices, name="coluna1")
serie_pandas

a     4
b     6
c     3
d     7
e    25
Name: coluna1, dtype: int64

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [13]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [16]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

# Máscara booleana simples
notas[notas >= 5]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
16    10
17     8
19     7
21     8
22    11
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

In [18]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[((notas >= 5) & (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
16    10
17     8
19     7
21     8
24     5
25     9
26     6
28     5
29     7
dtype: int32

In [19]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[((notas >= 0) | (notas <= 10))]

0      9
1      6
2     10
3      7
4      9
5      5
6      9
7     10
8      7
9      6
10    10
11    10
12     5
13     8
14     7
15     4
16    10
17     8
18     4
19     7
20     3
21     8
22    11
23     3
24     5
25     9
26     6
27    11
28     5
29     7
dtype: int32

In [20]:
# E também fazer o inverso
notas[~((notas >= 0) & (notas <= 10))]

22    11
27    11
dtype: int32

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [22]:
notas.sort_values(ascending=False)

27    11
22    11
16    10
2     10
7     10
10    10
11    10
0      9
4      9
25     9
6      9
21     8
13     8
17     8
19     7
29     7
14     7
8      7
3      7
1      6
9      6
26     6
12     5
24     5
5      5
28     5
18     4
15     4
20     3
23     3
dtype: int32

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [24]:
notas.unique()

array([ 9,  6, 10,  7,  5,  8,  4,  3, 11])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [25]:
notas.value_counts()

10    5
7     5
9     4
5     4
6     3
8     3
4     2
3     2
11    2
dtype: int64

In [26]:
# frequencia relativa
notas.value_counts(normalize=True)

10    0.166667
7     0.166667
9     0.133333
5     0.133333
6     0.100000
8     0.100000
4     0.066667
3     0.066667
11    0.066667
dtype: float64

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [27]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [28]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [29]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

Unnamed: 0,variável 1,variável 2,variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


A partir de um arquivo

In [30]:
df = pd.read_table('dados/dados_religiao_income.txt',
                   header=0, sep=' ')

In [31]:
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [32]:
df.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [33]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [35]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


### pivot_table

In [36]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [37]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [38]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})
display(df1)
# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
display(df2)

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [39]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1
0,nós,2
1,vós,2
2,eles/elas,2


In [41]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [42]:
new_df2

Unnamed: 0,nome,val
4,nós,2
5,vós,2
6,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [44]:
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [43]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1,nós,2
1,tu,1,vós,2
2,ele/ela,1,eles/elas,2


In [45]:
pd.concat([df1, new_df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1.0,,
1,tu,1.0,,
2,ele/ela,1.0,,
4,,,nós,2.0
5,,,vós,2.0
6,,,eles/elas,2.0


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [46]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ele/ela,1


In [47]:
df1

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ele/ela,1


## Exploração de dados: Estatísticas

In [48]:
df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')
df

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


### Head

In [53]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


### Tail

In [51]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


### Info

In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   regiao      28 non-null     object 
 1   uf          29 non-null     object 
 2   superficie  29 non-null     int64  
 3   pop_urbana  27 non-null     float64
 4   pop_rural   27 non-null     float64
 5   total       27 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.5+ KB


### Describe

In [55]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


### Outras estatísticas

In [None]:
# Também podemos fazer uma estatística de cada vez.
df.mean()

In [None]:
df.quantile([0.25, 0.75])

In [None]:
df.min(numeric_only=True)

In [None]:
# Se quisermos estatísticas separadas para cada UF, podemos usar o groupby.
df.groupby('regiao').mean(numeric_only=True)

### Importando novo Dataframe

In [None]:
# Importando o dataframe de municípios
df_muni = pd.read_table('./dados/populacao_brasileira_por_municipio.txt',
                        sep=';',
                        thousands='.')

In [None]:
df_muni.head(10)

### Colunas
  
Podemos acessar os dados de uma colunas de dois métodos

In [None]:
# Vamos colocar a região de cada UF na tabela acima, e 
# encontrar a população média por município para cada região.
df.uf

In [None]:
df['uf']

Perceba que temos Ilhas, Litígio e que tem duas estrelas em pernambuco. Vamos limpar isso primeiro.

In [None]:
df2 = df.loc[~df.uf.isin(['Ilhas***', 'Litígio*'])].copy()

In [None]:
df.head()

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
df.query("pop_urbana < 500000")

In [None]:
# Podemos utilizar variáveis também
limite = 500000
df.query("`total` < @limite")

### Operações matemáticas

In [None]:
df['total dois'] = df['pop_urbana'] + df['pop_rural']

In [None]:
df.head()

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
# Nós também podemos juntar tabelas diferentes, usando o método "merge"
df_reg = df_muni.merge(df, left_on=['UF'], right_on=['uf'], how='left')
df_reg

In [None]:
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA':['mean', 'std']})

**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual o média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?