# [Prof. Dalvan Griebler](mailto:dalvan.griebler@pucrs.br)

## Programação Orientada a Dados (POD) - Turma 10 (POD_98H04-06)

**Atualizado**: 29/10/2021

**Descrição**: Material de apoio as aulas sobre Python para POD

**Copyright &copy;**: Este documento está sob a licensa da Criative Commons [BY-NC-ND 4.0](https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode)

# Biblioteca Pandas do Python

In [1]:
import numpy as np
import pandas as pd

## Limpeza e Preparação de Dados

### Lidando com Dados Ausentes

### Filtrando Dados Ausentes

### Preenchendo Dados Ausentes

## Transformação de Dados

### Removendo Dados Duplicados

### Transformando Dados com Map

### Substituindo Valores

### Renomeando Índices de um Eixo

### Discretização e Binning (compartimentos)

### Detecção de Valores Descrepantes/Outiliers

### Permutação e Amostragem Aleatória

### DataFrames com Valores Dummy

### Manipulação de Strings

## Tratamento e Manipulação de Dados

### Indexação Hierárquica

### Combinação e Mesclagem de dados

In [9]:
df1 = pd.DataFrame( {'chave': ['a', 'b', 'c', 'd', 'a', 'b'], 
                     'dados': range(6)})

df2 = pd.DataFrame( {'chave': ['a', 'b', 'c'], 
                     'dados': range(3)})


display(df1)
display(df2)

df_m = pd.merge(df1,df2, on='chave')

display(df_m)

Unnamed: 0,chave,dados
0,a,0
1,b,1
2,c,2
3,d,3
4,a,4
5,b,5


Unnamed: 0,chave,dados
0,a,0
1,b,1
2,c,2


Unnamed: 0,chave,dados_x,dados_y
0,a,0,0
1,a,4,0
2,b,1,1
3,b,5,1
4,c,2,2


In [30]:
df1 = pd.DataFrame( {'chave1': ['a', 'b', 'c', 'd', 'a', 'b'], 
                     'dados': range(1,7)})

df2 = pd.DataFrame( {'chave2': ['a', 'b', 'c'], 
                     'dados': range(1,4)})

display(df1)
display(df2)

df_m = pd.merge(df1,df2, left_on='chave1', right_on='chave2', suffixes=('_esq', '_dir'))

display(df_m)

Unnamed: 0,chave1,dados
0,a,1
1,b,2
2,c,3
3,d,4
4,a,5
5,b,6


Unnamed: 0,chave2,dados
0,a,1
1,b,2
2,c,3


Unnamed: 0,chave1,dados_esq,chave2,dados_dir
0,a,1,a,1
1,a,5,a,1
2,b,2,b,2
3,b,6,b,2
4,c,3,c,3


In [31]:
df1 = pd.DataFrame( {'chave': ['a', 'b', 'c', 'd', 'a', 'b'], 
                     'dados': range(1,7)})

df2 = pd.DataFrame( {'chave': ['a', 'b', 'c'], 
                     'dados': range(1,4)})

display(df1)
display(df2)


df_m = pd.merge(df1,df2)
display(df_m)

df_m = pd.merge(df1,df2, how='outer')
display(df_m)

Unnamed: 0,chave,dados
0,a,1
1,b,2
2,c,3
3,d,4
4,a,5
5,b,6


Unnamed: 0,chave,dados
0,a,1
1,b,2
2,c,3


Unnamed: 0,chave,dados
0,a,1
1,b,2
2,c,3


Unnamed: 0,chave,dados
0,a,1
1,b,2
2,c,3
3,d,4
4,a,5
5,b,6


In [38]:
s1 = pd.Series(range(1,3), index=['a', 'b'])
s2 = pd.Series(range(3,6), index=['c', 'd', 'e'])
s3 = pd.Series(range(6,8), index=['f', 'g'])


print(s1)
print(s2)
print(s3)

display(pd.concat([s1, s2, s3]))

display(pd.concat([s1, s2, s3], axis=1))

a    1
b    2
dtype: int64
c    3
d    4
e    5
dtype: int64
f    6
g    7
dtype: int64


a    1
b    2
c    3
d    4
e    5
f    6
g    7
dtype: int64

Unnamed: 0,0,1,2
a,1.0,,
b,2.0,,
c,,3.0,
d,,4.0,
e,,5.0,
f,,,6.0
g,,,7.0


In [41]:
s4 = pd.concat([s1, s3])

print(s1)
print(s4)

display(pd.concat([s1,s4], axis=1, join='outer'))

a    1
b    2
dtype: int64
a    1
b    2
f    6
g    7
dtype: int64


Unnamed: 0,0,1
a,1.0,1
b,2.0,2
f,,6
g,,7


## Reformatação e Pivotamento

## Agregação e Operações em Grupo

### GroupBy

In [52]:
df = pd.DataFrame( {'chave1': ['a', 'b', 'c', 'd', 'a'], 
                     'chave2': ['um', 'dois', 'um', 'dois', 'um'],
                     'dados1': np.random.randn(5),
                     'dados2': np.random.randn(5)}                    
                     )

display(df)

G = df['dados1'].groupby(df['chave1'])

print(G.describe())

Unnamed: 0,chave1,chave2,dados1,dados2
0,a,um,-0.597786,1.055338
1,b,dois,-0.929035,-0.265041
2,c,um,0.224205,-0.701832
3,d,dois,0.094973,0.962521
4,a,um,-0.634746,0.432727


        count      mean       std       min       25%       50%       75%  \
chave1                                                                      
a         2.0 -0.616266  0.026134 -0.634746 -0.625506 -0.616266 -0.607026   
b         1.0 -0.929035       NaN -0.929035 -0.929035 -0.929035 -0.929035   
c         1.0  0.224205       NaN  0.224205  0.224205  0.224205  0.224205   
d         1.0  0.094973       NaN  0.094973  0.094973  0.094973  0.094973   

             max  
chave1            
a      -0.597786  
b      -0.929035  
c       0.224205  
d       0.094973  


In [57]:
display(df)

G = df.groupby(df.dtypes, axis=1)

print(G.describe())

Unnamed: 0,chave1,chave2,dados1,dados2
0,a,um,-0.597786,1.055338
1,b,dois,-0.929035,-0.265041
2,c,um,0.224205,-0.701832
3,d,dois,0.094973,0.962521
4,a,um,-0.634746,0.432727


       count      mean       std       min       25%       50%       75%  \
chave1     5       NaN       NaN       NaN       NaN       NaN       NaN   
chave2     5       NaN       NaN       NaN       NaN       NaN       NaN   
dados1   5.0 -0.368478   0.50094 -0.929035 -0.634746 -0.597786  0.094973   
dados2   5.0  0.296742  0.766481 -0.701832 -0.265041  0.432727  0.962521   

             max unique  top freq  
chave1       NaN      4    a    2  
chave2       NaN      2   um    3  
dados1  0.224205    NaN  NaN  NaN  
dados2  1.055338    NaN  NaN  NaN  


### Iteração

### Selecionando uma ou subconjunto de colunas

### Agrupamento com dicionários e series

### Agrupamento com funções

### Agrupamento por níveis de indices

## Agregação de Dados

### Método Apply

In [62]:
# realize um agrupamento por equipe Mandante para identificar as equipemes
# com o maior número de gols.

def top(df, n=5, Coluna='Mandante Placar'):
    return df.sort_values(by=Coluna)[-n:]


df = pd.read_csv('brasi2000-2021.csv')

display(top(df, n=10))

display(df.groupby('Mandante').apply(top).sort_values(by='Mandante Placar', ascending=False).head(10))

Unnamed: 0,ID,Rodada,Data,Horário,Dia,Mandante,Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Estado Mandante,Estado Visitante,Estado Vencedor
1480,1481,36,2003-10-12,16h00,Domingo,Goiás,Fluminense,Goiás,Serra Dourada,6,1,GO,RJ,GO
3222,3223,23,2007-09-01,18h10,Sábado,São Paulo,Paraná,São Paulo,Morumbi,6,0,SP,PR,SP
1122,1123,6,2003-04-27,16h00,Domingo,Goiás,Juventude,Goiás,Serra Dourada,7,0,GO,RS,GO
2557,2558,37,2005-11-06,16h00,Domingo,Corinthians,Santos,Corinthians,Pacaembu,7,1,SP,SP,SP
1671,1672,6,2004-05-16,16h00,Domingo,Criciúma,Goiás,Criciúma,Heriberto Hulse,7,2,SC,GO,SC
357,358,2,2001-08-05,14h30,Domingo,Vasco,Guarani,Vasco,São Januário,7,1,RJ,SP,RJ
2309,2310,15,2005-07-27,21h45,Quarta-feira,Athlético-PR,Vasco,Athlético-PR,Arena da Baixada,7,2,PR,RJ,PR
2055,2056,38,2004-10-27,20h30,Quarta-feira,Fluminense,Juventude,Fluminense,Raulino de Oliveira,7,1,RJ,RS,RJ
1992,1993,33,2004-09-28,20h30,Terça-feira,São Paulo,Paysandu,São Paulo,Morumbi,7,0,SP,PA,SP
693,694,26,2001-11-25,16h00,Domingo,Vasco,São Paulo,Vasco,São Januário,7,1,RJ,SP,RJ


Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Rodada,Data,Horário,Dia,Mandante,Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Estado Mandante,Estado Visitante,Estado Vencedor
Mandante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Corinthians,2557,2558,37,2005-11-06,16h00,Domingo,Corinthians,Santos,Corinthians,Pacaembu,7,1,SP,SP,SP
Criciúma,1671,1672,6,2004-05-16,16h00,Domingo,Criciúma,Goiás,Criciúma,Heriberto Hulse,7,2,SC,GO,SC
Goiás,1122,1123,6,2003-04-27,16h00,Domingo,Goiás,Juventude,Goiás,Serra Dourada,7,0,GO,RS,GO
Vasco,693,694,26,2001-11-25,16h00,Domingo,Vasco,São Paulo,Vasco,São Januário,7,1,RJ,SP,RJ
Vasco,357,358,2,2001-08-05,14h30,Domingo,Vasco,Guarani,Vasco,São Januário,7,1,RJ,SP,RJ
São Paulo,1992,1993,33,2004-09-28,20h30,Terça-feira,São Paulo,Paysandu,São Paulo,Morumbi,7,0,SP,PA,SP
Athlético-PR,2309,2310,15,2005-07-27,21h45,Quarta-feira,Athlético-PR,Vasco,Athlético-PR,Arena da Baixada,7,2,PR,RJ,PR
Fluminense,2055,2056,38,2004-10-27,20h30,Quarta-feira,Fluminense,Juventude,Fluminense,Raulino de Oliveira,7,1,RJ,RS,RJ
Goiás,5884,5885,23,2014-09-21,18h30,Domingo,Goiás,Palmeiras,Goiás,Serra Dourada,6,0,GO,SP,GO
Fluminense,232,233,27,2000-10-25,20h30,Quarta-feira,Fluminense,Santa Cruz,Fluminense,Maracanã,6,1,RJ,PE,RJ


### Pivot e Cross Table com Agregação