### Indexação, seleção e filtragem

Uma vez que criamos um DataFrame podemos trabalhar alguns conceito importantes para manipulação dos dados: indexação, seleção e filtragem.

In [2]:
import numpy as np
import pandas as pd

Desta vez, vou utilizar o numpy para gerar números aleatórios e então criar o nosso DataFrame de exemplo. Vamos primeiro estabelecer a seed a ser usada pelo numpy

In [16]:
np.random.seed(42)

In [17]:
df = pd.DataFrame(np.random.randn(10,4), columns=['col1', 'col2', 'col3', 'col4'])

In [18]:
df.head()

Unnamed: 0,col1,col2,col3,col4
0,0.496714,-0.138264,0.647689,1.52303
1,-0.234153,-0.234137,1.579213,0.767435
2,-0.469474,0.54256,-0.463418,-0.46573
3,0.241962,-1.91328,-1.724918,-0.562288
4,-1.012831,0.314247,-0.908024,-1.412304


Como nosso index é numérico podemos selecionar linhas da seguinte forma:

In [37]:
df[1:3]

Unnamed: 0,col1,col2,col3,col4
1,-0.234153,-0.234137,1.579213,0.767435
2,-0.469474,0.54256,-0.463418,-0.46573


In [38]:
df[:4]

Unnamed: 0,col1,col2,col3,col4
0,0.496714,-0.138264,0.647689,1.52303
1,-0.234153,-0.234137,1.579213,0.767435
2,-0.469474,0.54256,-0.463418,-0.46573
3,0.241962,-1.91328,-1.724918,-0.562288


In [39]:
df[-2:]

Unnamed: 0,col1,col2,col3,col4
8,-0.013497,-1.057711,0.822545,-1.220844
9,0.208864,-1.95967,-1.328186,0.196861


Podemos fazer as seguintes indexações sobre as colunas:

In [32]:
df['col1'] # retorna uma Serie

0    0.496714
1   -0.234153
2   -0.469474
3    0.241962
4   -1.012831
5    1.465649
6   -0.544383
7   -0.600639
8   -0.013497
9    0.208864
Name: col1, dtype: float64

In [33]:
df[['col1']] # retorna um DataFrame

Unnamed: 0,col1
0,0.496714
1,-0.234153
2,-0.469474
3,0.241962
4,-1.012831
5,1.465649
6,-0.544383
7,-0.600639
8,-0.013497
9,0.208864


In [34]:
df[['col1', 'col4']]

Unnamed: 0,col1,col4
0,0.496714,1.52303
1,-0.234153,0.767435
2,-0.469474,-0.46573
3,0.241962,-0.562288
4,-1.012831,-1.412304
5,1.465649,-1.424748
6,-0.544383,0.375698
7,-0.600639,1.852278
8,-0.013497,-1.220844
9,0.208864,0.196861


Podemos fazer filtragens no DataFrame a partir de operações booleanas, por exemplo no código abaixo queremos todas as linhas da coluna 'col2' que contém valores abaixo de 0. Essa operação retornará valores booleanos:

In [35]:
df['col2'] < 0

0     True
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8     True
9     True
Name: col2, dtype: bool

Ok, podemos então passar esse resultado para o DataFrame e então ele exibirá todas as linhas com valor True:

In [36]:
df[df['col2'] < 0]

Unnamed: 0,col1,col2,col3,col4
0,0.496714,-0.138264,0.647689,1.52303
1,-0.234153,-0.234137,1.579213,0.767435
3,0.241962,-1.91328,-1.724918,-0.562288
5,1.465649,-0.225776,0.067528,-1.424748
7,-0.600639,-0.291694,-0.601707,1.852278
8,-0.013497,-1.057711,0.822545,-1.220844
9,0.208864,-1.95967,-1.328186,0.196861


O DataFrame possui funções interessantes para análise de dados, como a média, mediana, desvio padrão, entre outras. Por exemplo, vamos encontrar a média dos valores da col2:

In [40]:
df['col2'].mean()

-0.48528026400025465

Vamos usar esse valor para fazer uma filtragem das linhas com valores abaixo da média:

In [41]:
df[df['col2'] < df['col2'].mean()]

Unnamed: 0,col1,col2,col3,col4
3,0.241962,-1.91328,-1.724918,-0.562288
8,-0.013497,-1.057711,0.822545,-1.220844
9,0.208864,-1.95967,-1.328186,0.196861


Podemos fazer seleções usando o **loc** e **iloc**. A diferença entre eles é que o iloc seleciona os valores baseado na posição com um inteiro enquanto que o loc seleciona baseado no rótulo.

In [42]:
np.random.seed(0)

In [43]:
df2 = pd.DataFrame(np.random.randn(6, 3), index=['a', 'b', 'c', 'd', 'e', 'f'], columns=['col1', 'col2', 'col3'])

In [45]:
df2.head(3)

Unnamed: 0,col1,col2,col3
a,1.764052,0.400157,0.978738
b,2.240893,1.867558,-0.977278
c,0.950088,-0.151357,-0.103219


Como o iloc trabalha a posição temos então:

In [47]:
df2.iloc[1:3]

Unnamed: 0,col1,col2,col3
b,2.240893,1.867558,-0.977278
c,0.950088,-0.151357,-0.103219


In [48]:
df2.iloc[0]

col1    1.764052
col2    0.400157
col3    0.978738
Name: a, dtype: float64

In [49]:
df2.iloc[-2:]

Unnamed: 0,col1,col2,col3
e,0.761038,0.121675,0.443863
f,0.333674,1.494079,-0.205158


In [59]:
# linha e coluna
df2.iloc[:4, :2]

Unnamed: 0,col1,col2
a,1.764052,0.400157
b,2.240893,1.867558
c,0.950088,-0.151357
d,0.410599,0.144044


Com o loc para chegar no resultado anterior teríamos:

In [55]:
df2.loc['b':'c']

Unnamed: 0,col1,col2,col3
b,2.240893,1.867558,-0.977278
c,0.950088,-0.151357,-0.103219


In [56]:
df2.loc['a']

col1    1.764052
col2    0.400157
col3    0.978738
Name: a, dtype: float64

In [57]:
df2.loc['e':]

Unnamed: 0,col1,col2,col3
e,0.761038,0.121675,0.443863
f,0.333674,1.494079,-0.205158


In [58]:
df2.loc[:'d', :'col2']

Unnamed: 0,col1,col2
a,1.764052,0.400157
b,2.240893,1.867558
c,0.950088,-0.151357
d,0.410599,0.144044
