# Conceitos gerais

Pandas é uma biblioteca de código aberto implementada sobre a Numpy.

É de rápida visualização e processamento de dados, muito semelhante ao Excel.

Apesar de implementada sobre a Numpy, possui métodos próprios.

É possível trabalhar com praticamente qualquer tipo de dado, diferentemente da Numpy que 

# Series

Objeto básico do Pandas.

Análogo a um dicionário (índice/chaves e valores)

In [2]:
import numpy as np
import pandas as pd

In [4]:
índice = np.array(['a', 'b', 'c'])
dados = np.array([1,2,3])
series0 = pd.Series(dados, índice)
series0

a    1
b    2
c    3
dtype: int64

Aceita qualquer tipo de dados tanto como índice quanto como dado. Por exemplo, funções:

In [6]:
series1 = pd.Series([sum, max, print], [1,2,3])
series1

1      <built-in function sum>
2      <built-in function max>
3    <built-in function print>
dtype: object

## Operações aritméticas com series

In [10]:
matches0 = ['Liverpool vs Man City', 'Luton Town vs Burnley', 'Arsenal vs Tottenham']
xG0 = [5.76, 1.53, 3.89]
matches1 = ['Liverpool vs Man City', 'West Ham vs Man Utd', 'Arsenal vs Tottenham']
xG1 = [4.34, 1.98, 4.67]

season0 = pd.Series(xG0, matches0)
season1 = pd.Series(xG1, matches1)
season0 + season1

Arsenal vs Tottenham      8.56
Liverpool vs Man City    10.10
Luton Town vs Burnley      NaN
West Ham vs Man Utd        NaN
dtype: float64

Foram somados os valores de mesmo índice em ambos os operandos e, para os índices que não estavam presentem em todos os operandos, o resultado ficou NaN.

A principal ideia do Pandas é fazer operações baseadas nos índices, como essa.

# Data Frames

Principal objeto do Pandas.

Basicamente um conjunto de series.

Muito semelhante à uma tabela do Excel.

In [39]:
dados = np.random.randn(6,7)
linhas = np.arange(1, 7)
colunas = 'A B C D E F G'.split()

df0 = pd.DataFrame(dados, linhas, colunas)
df0

Unnamed: 0,A,B,C,D,E,F,G
1,-0.513578,-2.280642,0.176946,-0.885264,-0.240493,0.296436,-0.512543
2,0.664333,0.41444,1.096201,-0.390138,-0.461409,-0.456621,-0.524396
3,0.72942,0.291071,-0.233774,0.347071,-1.023211,1.174574,-1.42617
4,-1.140624,0.327971,-0.196065,-0.511918,-0.960672,0.869374,-0.052482
5,-0.986853,-0.183727,-0.353851,1.158218,-0.439221,0.004605,-1.548726
6,0.443604,-1.381404,0.376131,-0.258115,0.965624,-1.808706,-0.42638


### Acessando as linhas e colunas

In [40]:
df0['D'] #irá retornar a coluna D

1   -0.885264
2   -0.390138
3    0.347071
4   -0.511918
5    1.158218
6   -0.258115
Name: D, dtype: float64

In [41]:
type(df0['B'])

pandas.core.series.Series

Repare que as colunas são series, assim como as linhas.

In [42]:
df0[['B', 'D', 'G']] #acesso a múltiplas colunas

Unnamed: 0,B,D,G
1,-2.280642,-0.885264,-0.512543
2,0.41444,-0.390138,-0.524396
3,0.291071,0.347071,-1.42617
4,0.327971,-0.511918,-0.052482
5,-0.183727,1.158218,-1.548726
6,-1.381404,-0.258115,-0.42638


In [43]:
df0['A'][5] #acesso a um valor específico

-0.9868525553788156

In [44]:
df0.loc[3, 'B'] #forma alternativa

0.2910707572337753

In [46]:
df0.loc[[1, 3, 5], 'C D G'.split()] #seleção de uma fração do DF

Unnamed: 0,C,D,G
1,0.176946,-0.885264,-0.512543
3,-0.233774,0.347071,-1.42617
5,-0.353851,1.158218,-1.548726


In [47]:
df0.iloc[1:5, 0:2] #iloc permite-se usar índices posicionais

Unnamed: 0,A,B
2,0.664333,0.41444
3,0.72942,0.291071
4,-1.140624,0.327971
5,-0.986853,-0.183727


### Definição de uma nova coluna

In [27]:
df0['H'] = np.random.randint(0, 100, 6) #deve respeitar as dimensões do DF já existente
df0

Unnamed: 0,A,B,C,D,E,F,G,H
1,1.48159,1.969031,-1.562609,0.660918,-0.245025,-1.024508,0.69269,8
2,-1.410155,-0.862282,0.660701,1.364336,0.359741,0.182681,-1.206179,14
3,-0.402238,-0.999434,-1.575302,-0.445132,-0.509585,0.002012,-1.097855,4
4,-0.740087,-0.996299,-0.251916,-0.79756,0.997484,2.468255,-0.416426,34
5,0.652998,1.522702,1.008412,1.314283,-0.496594,-0.552968,-0.252362,28
6,-0.016693,0.609687,0.735745,-0.641789,0.636975,-1.856851,-0.914444,45


### Deletando linhas e colunas

In [36]:
df0.drop(4, inplace=True) #deleta a linha de índice 4
df0

Unnamed: 0,A,B,C,D,E,F,G
1,2.112972,-0.524794,0.378813,1.571393,0.484992,-0.06287,1.329515
2,-1.392032,1.749623,-1.797409,1.069238,1.846337,-0.649699,-0.836691
3,-0.565516,-0.897866,-2.0386,-0.116191,-1.566686,0.65069,0.70658
5,1.630562,-0.164614,0.340406,2.029252,-0.785929,-0.491308,-0.746148
6,0.64779,-0.408039,-0.633284,-1.221384,0.614792,-0.240898,-0.710083


Repare que o parâmetro inplace foi assinalado com True, para que a alteração fosse realizada no DF original em vez de só gerar uma cópia com a alteração.

In [37]:
df0.drop('C', axis=1, inplace=True) #deleta a coluna C
df0

Unnamed: 0,A,B,D,E,F,G
1,2.112972,-0.524794,1.571393,0.484992,-0.06287,1.329515
2,-1.392032,1.749623,1.069238,1.846337,-0.649699,-0.836691
3,-0.565516,-0.897866,-0.116191,-1.566686,0.65069,0.70658
5,1.630562,-0.164614,2.029252,-0.785929,-0.491308,-0.746148
6,0.64779,-0.408039,-1.221384,0.614792,-0.240898,-0.710083


Repare que o parâmetro axis foi ajustado para 1, indicando ao interpretador que a operação seria feita numa coluna.

### Seleção condicional

In [50]:
linhas = ['Liverpool', 'Arsenal', 'Tottenham', 'Man City']
colunas = ['Real Madrid', 'Valência', 'Barcelona']
xG = np.random.randint(50, 600, 12).reshape(4,3) / 100

matchesxG = pd.DataFrame(xG, linhas, colunas)
matchesxG

Unnamed: 0,Real Madrid,Valência,Barcelona
Liverpool,2.42,3.85,2.71
Arsenal,4.95,1.17,3.21
Tottenham,3.72,4.29,4.13
Man City,2.02,3.84,1.51


In [52]:
cond = df0 > 2
cond

Unnamed: 0,Real Madrid,Valência,Barcelona
Liverpool,False,False,True
Arsenal,True,False,True
Tottenham,False,True,True
Man City,False,True,True


É criado um Data Frame com dados booleanos indicando se o dado do DF original cumpre a condição.

In [53]:
matchesxG[cond]

Unnamed: 0,Real Madrid,Valência,Barcelona
Liverpool,,,2.71
Arsenal,4.95,,3.21
Tottenham,,4.29,4.13
Man City,,3.84,1.51


Os valores que não cumprem a condição ficam com valores nulos.

In [55]:
matchesxG[matchesxG['Barcelona'] > 2]

Unnamed: 0,Real Madrid,Valência,Barcelona
Liverpool,2.42,3.85,2.71
Arsenal,4.95,1.17,3.21
Tottenham,3.72,4.29,4.13


Retornou um DF apenas com a linhas onde a coluna Barcelona é > 2.

In [61]:
matchesxG[(matchesxG['Real Madrid'] > 3) & (matchesxG['Barcelona'] < 4)]

Unnamed: 0,Real Madrid,Valência,Barcelona
Arsenal,4.95,1.17,3.21


É possível utilizar mais de uma condição com operadores condicionais.

In [64]:
matchesxG[matchesxG['Valência'] < 2]['Barcelona'] #seleciona a linha em Barcelona na qual Valência < 2

Arsenal    3.21
Name: Barcelona, dtype: float64

In [73]:
matchesxG[(matchesxG['Real Madrid'] < 2.5) | (matchesxG['Barcelona'] < 3)] #condicional OU

Unnamed: 0,Real Madrid,Valência,Barcelona
Liverpool,2.42,3.85,2.71
Man City,2.02,3.84,1.51


### Set e Reset Índices

In [74]:
matchesxG.reset_index(inplace=True)
matchesxG

Unnamed: 0,index,Real Madrid,Valência,Barcelona
0,Liverpool,2.42,3.85,2.71
1,Arsenal,4.95,1.17,3.21
2,Tottenham,3.72,4.29,4.13
3,Man City,2.02,3.84,1.51


O índice é assinalado com o padrão e os antigos índices viram uma nova coluna.

In [76]:
matchesxG['new_index'] = 'A B C D'.split()
matchesxG.set_index('new_index', inplace=True)
matchesxG

Unnamed: 0_level_0,index,Real Madrid,Valência,Barcelona
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,Liverpool,2.42,3.85,2.71
B,Arsenal,4.95,1.17,3.21
C,Tottenham,3.72,4.29,4.13
D,Man City,2.02,3.84,1.51


É possível definir o índice como sendo uma das colunas

# Índices multiníveis

In [78]:
outside = ['G1','G1','G1', 'G2', 'G2', 'G2']
inside = [1,2,3,1,2,3]
mult_index = list(zip(outside, inside))
mult_index = pd.MultiIndex.from_tuples(mult_index)

In [79]:
dfm = pd.DataFrame(np.random.randn(6,4), mult_index, 'A B C D'.split())
dfm

Unnamed: 0,Unnamed: 1,A,B,C,D
G1,1,0.329978,-0.656507,0.730698,-0.20158
G1,2,1.248446,-0.769487,0.582923,1.359677
G1,3,1.341377,-0.825268,-0.874363,0.230298
G2,1,-0.12138,0.067832,-0.493369,0.190043
G2,2,0.898001,-1.251476,-0.07976,0.106813
G2,3,-1.641031,0.142648,-0.549596,0.864095


Gerou um Data Frame multinível (tem 2 níveis externos com 3 internos cada).

In [81]:
dfm.loc['G1'] #recorte com um dos índices externos, retorna outro DF

Unnamed: 0,A,B,C,D
1,0.329978,-0.656507,0.730698,-0.20158
2,1.248446,-0.769487,0.582923,1.359677
3,1.341377,-0.825268,-0.874363,0.230298


In [83]:
dfm.loc['G1'].loc[2] #como são dois níveis de índice, é necessário usar o loc em série para acessar uma linha

A    1.248446
B   -0.769487
C    0.582923
D    1.359677
Name: 2, dtype: float64

In [85]:
dfm.index.names = ['grupo', 'numero'] #define nomes para os níveis de índices
dfm

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
grupo,numero,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
G1,1,0.329978,-0.656507,0.730698,-0.20158
G1,2,1.248446,-0.769487,0.582923,1.359677
G1,3,1.341377,-0.825268,-0.874363,0.230298
G2,1,-0.12138,0.067832,-0.493369,0.190043
G2,2,0.898001,-1.251476,-0.07976,0.106813
G2,3,-1.641031,0.142648,-0.549596,0.864095


In [86]:
dfm.xs('G2') #forma alternativa de acessar elementos do DF multinível

Unnamed: 0_level_0,A,B,C,D
numero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,-0.12138,0.067832,-0.493369,0.190043
2,0.898001,-1.251476,-0.07976,0.106813
3,-1.641031,0.142648,-0.549596,0.864095


In [88]:
dfm.xs(2, level='numero') #com o xs (cross-section) é possível acessar diretamente o nível interno

Unnamed: 0_level_0,A,B,C,D
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
G1,1.248446,-0.769487,0.582923,1.359677
G2,0.898001,-1.251476,-0.07976,0.106813


Retornou todos os valores de índice interno 2 com seus respectivos grupos (níveis externos).

In [10]:
outside = ['PR', 'PR', 'PR', 'RS', 'RS', 'RS']
inside = ['IDH', 'População', 'PIB','IDH', 'População', 'PIB']
mult_index2 = list(zip(outside, inside))
mult_index2 = pd.MultiIndex.from_tuples(mult_index2)
IDHs0 = np.random.randint(500, 900, 3) / 1000
pop0 = np.random.randint(300000, 1000000, 3)
PIB0 = np.random.randint(1000000000, 3000000000, 3)
IDHs1 = np.random.randint(500, 900, 3) / 1000
pop1 = np.random.randint(300000, 1000000, 3)
PIB1 = np.random.randint(1000000000, 3000000000, 3)
dados = np.concatenate((IDHs0, pop0, PIB0, IDHs1, pop1, PIB1)).reshape(6,3)
pesquisa = pd.DataFrame(dados, mult_index2, ['Capital', 'Litoral', 'Fronteira'])
pesquisa.index.names = ['Estado', 'Métricas']
pesquisa

Unnamed: 0_level_0,Unnamed: 1_level_0,Capital,Litoral,Fronteira
Estado,Métricas,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,IDH,0.856,0.506,0.806
PR,População,375791.0,877312.0,769062.0
PR,PIB,2181807000.0,1531303000.0,2539823000.0
RS,IDH,0.686,0.538,0.612
RS,População,487782.0,351042.0,882391.0
RS,PIB,2805094000.0,1716979000.0,2271103000.0


In [12]:
pesquisa['Capital']

Estado  Métricas 
PR      IDH          8.560000e-01
        População    3.757910e+05
        PIB          2.181807e+09
RS      IDH          6.860000e-01
        População    4.877820e+05
        PIB          2.805094e+09
Name: Capital, dtype: float64

Exibe as métricas das capitais.

In [13]:
pesquisa.loc['PR']

Unnamed: 0_level_0,Capital,Litoral,Fronteira
Métricas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDH,0.856,0.506,0.806
População,375791.0,877312.0,769062.0
PIB,2181807000.0,1531303000.0,2539823000.0


Exibe as métricas das diferentes regiões e cidades do Paraná.

In [14]:
pesquisa.loc['RS'].loc['IDH']

Capital      0.686
Litoral      0.538
Fronteira    0.612
Name: IDH, dtype: float64

Exibe a linha de IDH do Rio Grande do Sul.

In [15]:
pesquisa.xs('RS')

Unnamed: 0_level_0,Capital,Litoral,Fronteira
Métricas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDH,0.686,0.538,0.612
População,487782.0,351042.0,882391.0
PIB,2805094000.0,1716979000.0,2271103000.0


In [16]:
pesquisa.xs('População', level='Métricas')

Unnamed: 0_level_0,Capital,Litoral,Fronteira
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PR,375791.0,877312.0,769062.0
RS,487782.0,351042.0,882391.0


Recorta as populações de ambos os estados.

# Dados Ausentes

In [23]:
dados = np.random.randint(0, 200, 20).reshape(4,5) / 100
unidade = np.arange(1, 5)
refris = 'CocaCola Água Pepsi Fanta CocaZero'.split()

gas_no_refri = pd.DataFrame(dados, unidade, refris)
gas_no_refri.index.names = ['Unidade']
gas_no_refri

Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,1.03,1.28,0.75,1.49,1.51
3,0.05,1.41,0.45,1.01,1.2
4,1.69,0.44,0.36,1.2,0.24


In [25]:
for i in range(0, 5):
    l = np.random.randint(0, 4)
    c = np.random.randint(0, 5)
    gas_no_refri.iloc[l, c] = np.nan
gas_no_refri

Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,,1.28,0.75,1.49,1.51
3,0.05,,0.45,,1.2
4,,0.44,0.36,,0.24


Um Data Frame que contém a quantidade em gramas de gás carbônico dentro de uma unidade de refrigerante. Algumas medidas foram falhas, ficaram com valor nulo, por qualquer motivo (como uma falha de sensor).

### dropna

O primeiro método que pode ser usado para lidar com os valores nulos é o dropna, que exclui linhas ou colunas com uma certa quantidade de valores nulos.

In [26]:
gas_no_refri.dropna()

Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76


In [27]:
gas_no_refri.dropna(axis=1)

Unnamed: 0_level_0,Pepsi,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.39,0.76
2,0.75,1.51
3,0.45,1.2
4,0.36,0.24


In [34]:
gas_no_refri.dropna(thresh=4)

Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,,1.28,0.75,1.49,1.51


O parâmetro thresh define a quantidade mínima de valores não nulos que uma linhas ou coluna deve ter para ser mantida.

OBS: repare que nenhuma das alterações foi feita no DF original, pois o parâmetro inplace não foi definido como True.

### fillna

Outro método que pode ser usado para lidar com os valores nulos de um DF é o fillna que, diferente do dropna, não exclui linhas ou colunas, mas preenche os valores nulos com algum outro.

In [35]:
gas_no_refri.fillna(value='read fail')

Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,read fail,1.28,0.75,1.49,1.51
3,0.05,read fail,0.45,read fail,1.2
4,read fail,0.44,0.36,read fail,0.24


In [41]:
gas_no_refri['CocaCola'].fillna(value=gas_no_refri['CocaCola'].mean())

Unidade
1    1.55
2    0.80
3    0.05
4    0.80
Name: CocaCola, dtype: float64

Aqui, os valores nulos da coluna CocaCola foram substituidos pela média dos valores da coluna.

In [38]:
gas_no_refri.fillna(method='ffill')

  gas_no_refri.fillna(method='ffill')


Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,1.55,1.28,0.75,1.49,1.51
3,0.05,1.28,0.45,1.49,1.2
4,0.05,0.44,0.36,1.49,0.24


O parâmetro method permite que você escolha um algoritmo de preechimento já implementado. Neste caso, foi usado o ffill (forward fill), que simplesmente preenche o valor nulo com o último valor lido na coluna.

In [40]:
gas_no_refri.fillna(method='ffill')

  gas_no_refri.fillna(method='ffill')


Unnamed: 0_level_0,CocaCola,Água,Pepsi,Fanta,CocaZero
Unidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.55,1.79,0.39,1.38,0.76
2,1.55,1.28,0.75,1.49,1.51
3,0.05,1.28,0.45,1.49,1.2
4,0.05,0.44,0.36,1.49,0.24


# Group By

Método que permite a execução de operações em colunas em relação a um grupo (formado a partir de uma coluna).

In [60]:
goals = np.random.randint(0, 10, 5)
xG = np.random.randint(0, 100, 5) / 10
assists = np.random.randint(0, 8, 5)
pre_assists = np.random.randint(0, 15, 5)
start_point = ['from bench', 'started', 'from bench', 'started', 'started']

stats = [list(row) for row in zip(goals, xG, assists, pre_assists, start_point)]
players = 'Salah KDB KDB Salah KDB'.split()

player_stats = pd.DataFrame(stats, players, 'goals xG assistis pre-assists start'.split())
player_stats.index.names = ['player']

player_stats

Unnamed: 0_level_0,goals,xG,assistis,pre-assists,start
player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Salah,9,8.6,7,12,from bench
KDB,1,8.2,4,11,started
KDB,5,8.4,5,2,from bench
Salah,0,6.7,1,11,started
KDB,9,4.7,7,0,started


In [61]:
player_stats.reset_index()

Unnamed: 0,player,goals,xG,assistis,pre-assists,start
0,Salah,9,8.6,7,12,from bench
1,KDB,1,8.2,4,11,started
2,KDB,5,8.4,5,2,from bench
3,Salah,0,6.7,1,11,started
4,KDB,9,4.7,7,0,started


In [62]:
player_group = player_stats.groupby('player')
player_group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe07a6fac50>

Foi criado um objeto de grupo com os valores da coluna player.

In [64]:
player_group.sum(numeric_only=True)

Unnamed: 0_level_0,goals,xG,assistis,pre-assists
player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KDB,15,21.3,16,13
Salah,9,15.3,8,23


Um novo Data Frame foi criado, em que a coluna agrupada virou o índice e todas os valores numéricos de outras colunas foram somados de acordo com o valor da coluna agrupada da mesma linha.

O default do parâmetro numeric_only é False, ou seja, a coluna de strings teria seus valores concatenados, o que geralmente não se quer.

In [65]:
player_group.describe()

Unnamed: 0_level_0,goals,goals,goals,goals,goals,goals,goals,goals,xG,xG,...,assistis,assistis,pre-assists,pre-assists,pre-assists,pre-assists,pre-assists,pre-assists,pre-assists,pre-assists
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
player,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
KDB,3.0,5.0,4.0,1.0,3.0,5.0,7.0,9.0,3.0,7.1,...,6.0,7.0,3.0,4.333333,5.859465,0.0,1.0,2.0,6.5,11.0
Salah,2.0,4.5,6.363961,0.0,2.25,4.5,6.75,9.0,2.0,7.65,...,5.5,7.0,2.0,11.5,0.707107,11.0,11.25,11.5,11.75,12.0


O método describe faz uma análise estatísca dos dados de cada índice.

In [66]:
player_group['goals'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
KDB,3.0,5.0,4.0,1.0,3.0,5.0,7.0,9.0
Salah,2.0,4.5,6.363961,0.0,2.25,4.5,6.75,9.0


É possível aplicar métodos de Group By em colunas específicas do grupo.

In [67]:
player_group['xG'].mean()

player
KDB      7.10
Salah    7.65
Name: xG, dtype: float64

Média de expected goals por jogador.

# Concatenar, mesclar e juntar

Há 3 essas 3 formas de unir Data Frames.

In [71]:
linhas0 = ['Brasileirao', 'Bundesliga', 'Erendivise']
linhas1 = ['Premier League', 'La Liga', 'Primera Divison']
linhas2 = ['Ligue One', 'Serie A', 'Primeira Liga']
colunas = ['gols', 'expulsoes', 'km percorridos', 'jogadores convocados']
league_data0 = [list(row) for row in zip(np.random.randint(400, 760, 3), np.random.randint(30, 95, 3), np.random.randint(50000, 64000, 3), np.random.randint(0, 40, 3))]
league_data1 = [list(row) for row in zip(np.random.randint(400, 760, 3), np.random.randint(30, 95, 3), np.random.randint(50000, 64000, 3), np.random.randint(0, 40, 3))]
league_data2 = [list(row) for row in zip(np.random.randint(400, 760, 3), np.random.randint(30, 95, 3), np.random.randint(50000, 64000, 3), np.random.randint(0, 40, 3))]

ld0 = pd.DataFrame(league_data0, linhas0, colunas)
ld1 = pd.DataFrame(league_data1, linhas1, colunas)
ld2 = pd.DataFrame(league_data2, linhas2, colunas)
ld0

Unnamed: 0,gols,expulsoes,km percorridos,jogadores convocados
Brasileirao,458,50,52844,11
Bundesliga,724,34,59846,36
Erendivise,550,36,61078,32


In [72]:
ld1

Unnamed: 0,gols,expulsoes,km percorridos,jogadores convocados
Premier League,415,72,51554,8
La Liga,596,81,52303,16
Primera Divison,644,88,55534,15


In [73]:
ld2

Unnamed: 0,gols,expulsoes,km percorridos,jogadores convocados
Ligue One,524,84,56874,14
Serie A,708,34,63703,4
Primeira Liga,757,72,57571,19


### Concat

Método de concatenação.

Método de união mais simples, apenas cola os Data Frames um no outro em ordem.

In [74]:
pd.concat([ld0, ld1, ld2])

Unnamed: 0,gols,expulsoes,km percorridos,jogadores convocados
Brasileirao,458,50,52844,11
Bundesliga,724,34,59846,36
Erendivise,550,36,61078,32
Premier League,415,72,51554,8
La Liga,596,81,52303,16
Primera Divison,644,88,55534,15
Ligue One,524,84,56874,14
Serie A,708,34,63703,4
Primeira Liga,757,72,57571,19


A concatenação ocorre por padrão através das linhas, ou seja, função procura colunas em comum entre as linhas e as encaixa.

In [76]:
pd.concat([ld0, ld1, ld2], axis=1)

Unnamed: 0,gols,expulsoes,km percorridos,jogadores convocados,gols.1,expulsoes.1,km percorridos.1,jogadores convocados.1,gols.2,expulsoes.2,km percorridos.2,jogadores convocados.2
Brasileirao,458.0,50.0,52844.0,11.0,,,,,,,,
Bundesliga,724.0,34.0,59846.0,36.0,,,,,,,,
Erendivise,550.0,36.0,61078.0,32.0,,,,,,,,
Premier League,,,,,415.0,72.0,51554.0,8.0,,,,
La Liga,,,,,596.0,81.0,52303.0,16.0,,,,
Primera Divison,,,,,644.0,88.0,55534.0,15.0,,,,
Ligue One,,,,,,,,,524.0,84.0,56874.0,14.0
Serie A,,,,,,,,,708.0,34.0,63703.0,4.0
Primeira Liga,,,,,,,,,757.0,72.0,57571.0,19.0


Aqui a concatenação ocorreu com base nas colunas, ou seja, procurou-se índices em comum entre as colunas e, como não havia nenhuma, todas as linhas ficaram com valores nulos nos slots que se referiam ao seu respectivo valor numa coluna de outro DF.

#### Contra-exemplo com concat

In [77]:
colunas0 = ['vitorias', 'derrotas', 'empates', 'saldo de gols']
colunas1 = ['xG', 'xA', 'gols marcados', 'tamanho do elenco']
colunas2 = ['titulos', 'media de publico', 'divida (em *10⁶)', 'receita']
linhas = ['Internacional', 'Palmeiras', 'Corinthians']

dados0 = [list(row) for row in zip(np.random.randint(35, 50, 3), np.random.randint(10, 15, 3), np.random.randint(10, 15, 3), np.random.randint(0, 40, 3))]
dados1 = [list(row) for row in zip(np.random.randint(800, 1400, 3) / 10, np.random.randint(300, 500, 3) / 10, np.random.randint(80, 140, 3), np.random.randint(0, 33, 3))]
dados2 = [list(row) for row in zip(np.random.randint(0, 4, 3), np.random.randint(20000, 60000, 3), np.random.randint(100, 500, 3), np.random.randint(400, 1000, 3))]

clube_stats0 = pd.DataFrame(dados0, linhas, colunas0)
clube_stats1 = pd.DataFrame(dados1, linhas, colunas1)
clube_stats2 = pd.DataFrame(dados2, linhas, colunas2)
clube_stats0

Unnamed: 0,vitorias,derrotas,empates,saldo de gols
Internacional,45,12,12,28
Palmeiras,41,14,12,25
Corinthians,43,12,12,11


In [78]:
clube_stats1

Unnamed: 0,xG,xA,gols marcados,tamanho do elenco
Internacional,101.5,47.0,128,16
Palmeiras,94.1,44.9,117,31
Corinthians,110.4,35.6,83,25


In [79]:
clube_stats2

Unnamed: 0,titulos,media de publico,divida (em *10⁶),receita
Internacional,1,26058,214,463
Palmeiras,1,57473,165,868
Corinthians,2,54973,447,647


In [80]:
pd.concat([clube_stats0, clube_stats1, clube_stats2])

Unnamed: 0,vitorias,derrotas,empates,saldo de gols,xG,xA,gols marcados,tamanho do elenco,titulos,media de publico,divida (em *10⁶),receita
Internacional,45.0,12.0,12.0,28.0,,,,,,,,
Palmeiras,41.0,14.0,12.0,25.0,,,,,,,,
Corinthians,43.0,12.0,12.0,11.0,,,,,,,,
Internacional,,,,,101.5,47.0,128.0,16.0,,,,
Palmeiras,,,,,94.1,44.9,117.0,31.0,,,,
Corinthians,,,,,110.4,35.6,83.0,25.0,,,,
Internacional,,,,,,,,,1.0,26058.0,214.0,463.0
Palmeiras,,,,,,,,,1.0,57473.0,165.0,868.0
Corinthians,,,,,,,,,2.0,54973.0,447.0,647.0


Aqui aconteceu o mesmo que com a concatenação por colunas do exemplo anterior, mas dessa vez por linhas. A função procurou colunas em comum entre os DFs e não encontrou, por isso as linhas ficaram com valores nulos nas colunas que vieram de outros DFs.

In [82]:
pd.concat([clube_stats0, clube_stats1, clube_stats2], axis=1)

Unnamed: 0,vitorias,derrotas,empates,saldo de gols,xG,xA,gols marcados,tamanho do elenco,titulos,media de publico,divida (em *10⁶),receita
Internacional,45,12,12,28,101.5,47.0,128,16,1,26058,214,463
Palmeiras,41,14,12,25,94.1,44.9,117,31,1,57473,165,868
Corinthians,43,12,12,11,110.4,35.6,83,25,2,54973,447,647


Aqui a concatenção ocorreu pelas colunas, com a função procurando linhas em comum entre elas, e encontrou.

### Merge

Mesclagem é um método que permite a combinação de DFs com base em semelhanças entre colunas ou linhas.

In [105]:
coluna0 = 'A B key'.split()
coluna1 = 'C D key'.split()
df0 = pd.DataFrame([list(row) for row in zip('A0 A1 A2 A3'.split(), 'B0 B1 B2 B3'.split(), 'K0 K1 K2 K3'.split())], columns=coluna0)
df1 = pd.DataFrame([list(row) for row in zip('C0 C1 C2 C3'.split(), 'D0 D1 D2 D3'.split(), 'K0 K1 K2 K3'.split())], columns=coluna1)
df0

Unnamed: 0,A,B,key
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [106]:
df1

Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K1
2,C2,D2,K2
3,C3,D3,K3


In [107]:
pd.merge(df0, df1, how='inner', on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3


df0 é passado como o DF da esquerda, df1 como o da direita.

O parâmetro how determina como se dará o processamento da coluna em comum entre os DFs, com o valor 'inner' ele pega a intersecção entre elas.

O parâmetro on determina em qual coluna será feita a intersecção.

In [108]:
coluna0 = 'A B key1 key2'.split()
coluna1 = 'C D key1 key2'.split()
df0 = pd.DataFrame([list(row) for row in zip('A0 A1 A2 A3'.split(), 'B0 B1 B2 B3'.split(), 'K0 K0 K1 K2'.split(), 'K0 K1 K0 K1'.split())], columns=coluna0)
df1 = pd.DataFrame([list(row) for row in zip('C0 C1 C2 C3'.split(), 'D0 D1 D2 D3'.split(), 'K0 K1 K1 K2'.split(), 'K0 K0 K0 K0'.split())], columns=coluna1)
df0

Unnamed: 0,A,B,key1,key2
0,A0,B0,K0,K0
1,A1,B1,K0,K1
2,A2,B2,K1,K0
3,A3,B3,K2,K1


In [109]:
df1

Unnamed: 0,C,D,key1,key2
0,C0,D0,K0,K0
1,C1,D1,K1,K0
2,C2,D2,K1,K0
3,C3,D3,K2,K0


In [110]:
pd.merge(df0, df1, on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


A intersecção aqui teve que levar em conta 2 colunas. Então foram mantidas as linhas de df0 e df1 tal qual a secção da linha em key1 e key2 têm os mesmos valores na mesma ordem.

### Join

Faz a junção de Data Frames com índices potencialmente diferentes, preenchendo os slots onde não há valor para a linha naquela coluna com NaN.

In [112]:
coluna0 = 'A B'.split()
coluna1 = 'C D'.split()
indice0 = 'K0 K1 K2'.split()
indice1 = 'K0 K2 K3'.split()

df0 = pd.DataFrame([list(row) for row in zip('A0 A1 A2'.split(), 'B0 B1 B2'.split())], indice0, coluna0)
df1 = pd.DataFrame([list(row) for row in zip('C0 C1 C2'.split(), 'D0 D1 D2'.split())], indice1, coluna1)
df0

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [113]:
df1

Unnamed: 0,C,D
K0,C0,D0
K2,C1,D1
K3,C2,D2


In [114]:
df0.join(df1)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C1,D1


A junção ocorreu mantendo apenas os índices comuns aos 2 DFs e, quando não havia correspondente na coluna, o valor foi preenchido com NaN.

In [115]:
df0.join(df1, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C1,D1
K3,,,C2,D2


Com o parâmetro how (que por padrão tem valor 'inner') for alterado para 'outer', ocorre a união dos índices em vez da intersecção.

# Operações com Data Frames

In [2]:
colunas = ['Modelo', 'Tamanho', 'Destino']
modelos = ['Premium', 'Premium', 'Comum', 'Plus']
tamanho = [3,2,4,2]
destino = ['MG', 'MG', 'SP', 'RJ']
dados = [list(row) for row in zip(modelos, tamanho, destino)]
peças = pd.DataFrame(dados, columns=colunas)
peças

Unnamed: 0,Modelo,Tamanho,Destino
0,Premium,3,MG
1,Premium,2,MG
2,Comum,4,SP
3,Plus,2,RJ


### Valores únicos

In [3]:
peças['Tamanho'].unique()

array([3, 2, 4])

In [4]:
peças['Modelo'].unique()

array(['Premium', 'Comum', 'Plus'], dtype=object)

Ou seja, método unique retorna um array com os valores únicos (sem as repetições) da coluna especificada.

In [5]:
peças['Destino'].nunique()

3

Método nunique retorna o número de valores únicos na coluna.

In [7]:
peças['Tamanho'].value_counts()

Tamanho
2    2
3    1
4    1
Name: count, dtype: int64

Método value_counts é uma junção do unique com o nunique. Retorna os valores únicos ao lado do número de vezes em que se repetem.

### Aplicando funções

Método apply permite a aplicação de funções em cada elementos de uma linha ou coluna do DF.

In [9]:
def times_sqrt(x):
    return x*(x**0.5)
peças['Tamanho'].apply(times_sqrt)

0    5.196152
1    2.828427
2    8.000000
3    2.828427
Name: Tamanho, dtype: float64

In [12]:
peças['Modelo'].apply(len) #retorna o tamanho das strings na coluna Modelo

0    7
1    7
2    5
3    4
Name: Modelo, dtype: int64

In [16]:
peças['Tamanho'].apply(lambda x: x**0.5) #aplica a função lambda que retorna a raiz quadrada de cada elemento na coluna Tamanho

0    1.732051
1    1.414214
2    2.000000
3    1.414214
Name: Tamanho, dtype: float64

### Método del

Além do dropna, já mostrado acima, há também o método del para deletar colunas.

In [17]:
del peças['Destino']
peças

Unnamed: 0,Modelo,Tamanho
0,Premium,3
1,Premium,2
2,Comum,4
3,Plus,2


### Atributos de índice e coluna

In [21]:
peças.columns

Index(['Modelo', 'Tamanho'], dtype='object')

In [22]:
peças.index

RangeIndex(start=0, stop=4, step=1)

### Ordenação

In [24]:
peças.sort_values(by='Tamanho', inplace=True)
peças

Unnamed: 0,Modelo,Tamanho
1,Premium,2
3,Plus,2
0,Premium,3
2,Comum,4


Ordenou as linhas de tal forma a obter uma ordem crescente na coluna Tamanho.

### Identificando valores nulos

In [25]:
peças.isnull()

Unnamed: 0,Modelo,Tamanho
1,False,False
3,False,False
0,False,False
2,False,False


In [28]:
peças[peças.isnull()] #pode ser usado para seleção condicional

Unnamed: 0,Modelo,Tamanho
1,,
3,,
0,,
2,,


### Pivot Table

Método usado para reestruturar o Data Frame (mudar a disposição dos dados entre linhas e colunas).

In [40]:
colunas = ['jogador', 'tipo', 'minuto', 'probabilidade']
jogadores = ['Salah', 'Bernardo', 'Bernardo', 'Salah', 'Bernardo', 'Salah']
tipo = ['gol', 'gol', 'falta', 'assistencia', 'assistencia', 'falta']
minuto = [4, 16, 19, 67, 78, 84]
prob = [0.05, 0.1, 0.4, 0.05, 0.1, 0.4]
dados = [list(row) for row in zip(jogadores, tipo, minuto, prob)]
match_evnts = pd.DataFrame(dados, columns=colunas)
match_evnts

Unnamed: 0,jogador,tipo,minuto,probabilidade
0,Salah,gol,4,0.05
1,Bernardo,gol,16,0.1
2,Bernardo,falta,19,0.4
3,Salah,assistencia,67,0.05
4,Bernardo,assistencia,78,0.1
5,Salah,falta,84,0.4


In [41]:
match_evnts.pivot_table(values='minuto', index=['jogador', 'tipo'], columns='probabilidade')

Unnamed: 0_level_0,probabilidade,0.05,0.10,0.40
jogador,tipo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bernardo,assistencia,,78.0,
Bernardo,falta,,,19.0
Bernardo,gol,,16.0,
Salah,assistencia,67.0,,
Salah,falta,,,84.0
Salah,gol,4.0,,


O Data Frame foi reestruturado mudando-se a função de linhas, colunas e valores do original.

# Entrada e saída de dados

### CSV (comma separated values)

In [34]:
df = pd.read_csv('exemplo.txt')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


O método read_csv leu o arquivo em texto e, baseado no delimitador padrão (vírgula), montou um Data Frame

In [35]:
df += 1
df

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [36]:
df.to_csv('exemplo1.txt')

Após fazer as operações no DF, o método to_csv permite a criação de um arquivo csv.

### xlsx (arquivos Excel)

In [41]:
df = pd.read_excel('exemplo_xl.xlsx')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


O método read_excel converteu os dados da tabela de excel para um Data Frame.

In [42]:
df = df[df % 2 == 0]
df

Unnamed: 0,a,b,c,d
0,0,,2,
1,4,,6,
2,8,,10,
3,12,,14,


In [43]:
df.to_excel('exemplo_xl1.xlsx')

Após feitas as operações com o DF, é possível salvar o DF como arquivo xlsx.

### HTML

In [66]:
df = pd.read_html('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/')
df

[                         Bank NameBank       CityCity StateSt  CertCert  \
 0                        Citizens Bank       Sac City      IA      8758   
 1             Heartland Tri-State Bank        Elkhart      KS     25851   
 2                  First Republic Bank  San Francisco      CA     59017   
 3                       Signature Bank       New York      NY     57053   
 4                  Silicon Valley Bank    Santa Clara      CA     24735   
 ..                                 ...            ...     ...       ...   
 563                 Superior Bank, FSB       Hinsdale      IL     32646   
 564                Malta National Bank          Malta      OH      6629   
 565    First Alliance Bank & Trust Co.     Manchester      NH     34264   
 566  National State Bank of Metropolis     Metropolis      IL      3815   
 567                   Bank of Honolulu       Honolulu      HI     21029   
 
                  Acquiring InstitutionAI Closing DateClosing  FundFund  
 0          

In [67]:
type(df)

list

In [68]:
df[0]

Unnamed: 0,Bank NameBank,CityCity,StateSt,CertCert,Acquiring InstitutionAI,Closing DateClosing,FundFund
0,Citizens Bank,Sac City,IA,8758,Iowa Trust & Savings Bank,"November 3, 2023",10545
1,Heartland Tri-State Bank,Elkhart,KS,25851,"Dream First Bank, N.A.","July 28, 2023",10544
2,First Republic Bank,San Francisco,CA,59017,"JPMorgan Chase Bank, N.A.","May 1, 2023",10543
3,Signature Bank,New York,NY,57053,"Flagstar Bank, N.A.","March 12, 2023",10540
4,Silicon Valley Bank,Santa Clara,CA,24735,First–Citizens Bank & Trust Company,"March 10, 2023",10539
...,...,...,...,...,...,...,...
563,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001",6004
564,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001",4648
565,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001",4647
566,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000",4646


Ou seja, o arquivo gerado pelo método read_html é uma lista com Data Frames, com cada um representando um elementos encontrado na url passada.

In [69]:
df[0]['CertCert'].mean()

31660.663732394365

É possível trabalhar com os dados da tabela do site dentro do DF, nesse caso foi encontrada a média dos valores de Cert.

# Bônus: método corr

Uma maneira simples de calcular a correlação entre 2 Series é com o método corr da Pandas.

In [3]:
colunas = 'A B C D'.split()
dados = np.random.randint(0, 1000, 2000).reshape(500, 4) / 100
df = pd.DataFrame(dados, columns=colunas)
df

Unnamed: 0,A,B,C,D
0,0.23,5.85,6.68,3.09
1,9.28,4.21,2.35,0.34
2,0.44,4.72,6.87,0.81
3,4.78,5.90,6.70,3.36
4,0.88,2.72,1.25,7.62
...,...,...,...,...
495,1.41,4.39,0.76,0.63
496,0.06,0.63,6.83,8.00
497,9.62,6.90,2.41,7.63
498,8.28,3.58,3.54,1.89


In [4]:
df[['B', 'D']].corr()

Unnamed: 0,B,D
B,1.0,-0.02689
D,-0.02689,1.0


Coeficiente de Correlação (por padrão é o de Pearson) entre os dados das colunas B e D.

In [7]:
df[['A', 'C', 'D']].corr(method='kendall')

Unnamed: 0,A,C,D
A,1.0,0.066185,0.019956
C,0.066185,1.0,0.020542
D,0.019956,0.020542,1.0


Matriz de correlação entre os dados das colunas A,C e D com os coeficientes de Kendall.