In [3]:
import numpy as np
import pandas as pd

In [4]:
data = [[1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12],
        [13, 14, 15, 16],
        [17, 18, 19, 20]]

index = ['A', 'B', 'C', 'D', 'E']
columns = ['W', 'X', 'Y', 'Z']
df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


## Conditional Selection

A Seleção Condicional, funciona de forma semelhante ao `WHERE` do SQL, funcionando como um filtro  
E possui a seguinte sintaxe:  

`dataframe[condição]`

<u>Exemplo:</u>

`df[df['W'] >= 9]`

Isso ocorre, pois todas as informações são transformadas em Booleanas variando de acordo com a condição.

<u>Exemplos:</u>

In [5]:
df4 = df.copy()
df4

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [6]:
df4 > 10

Unnamed: 0,W,X,Y,Z
A,False,False,False,False
B,False,False,False,False
C,False,False,True,True
D,True,True,True,True
E,True,True,True,True


In [7]:
df4[['X']] > 10

Unnamed: 0,X
A,False
B,False
C,False
D,True
E,True


Sendo assim, quando uma condição gera um resultado verdadeiro, então determinada informação será exibida

In [8]:
df4[df4['X'] > 10]

Unnamed: 0,W,X,Y,Z
D,13,14,15,16
E,17,18,19,20


Podemos exibir apenas uma coluna ou mais

In [9]:
df4[df4['X'] > 10][['X']]

Unnamed: 0,X
D,14
E,18


Podemos guardar o resultado desse filtro em um outro dataframe

In [10]:
df4_filtered = df4[df4['Y'] < 10]
df4_filtered

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8


É possível armazenar a condição em uma _Series_, visto que a condição nada mais é que o resultado em Booleano do nosso _dataframe_ ou _series_

Posteriormente podemos usar essa condição, para filtrar os dados de um _dataframe_ e armazenar em outro

In [11]:
df4_condition = df4['Z'] > 10
df4_condition

A    False
B    False
C     True
D     True
E     True
Name: Z, dtype: bool

In [12]:
df4_Z_greater_10 = df4[df4_condition]
df4_Z_greater_10

Unnamed: 0,W,X,Y,Z
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [13]:
df4_Z_greater_10[['W', 'Z']]

Unnamed: 0,W,Z
C,9,12
D,13,16
E,17,20


Existem casos onde os filtros têm mais de uma condição, para representar isso na seleção condicional, temos os operadores **E** e **OU**, representados respectivamente por `&` e `|`.

Sempre que esse caso for abordado, cada condição deve ficar dentro de um paretese isolado, sendo escrito da seguinte forma:

`dataframe[(cond1) & (cond2)]`

<u>Exemplo:</u>

`df[(df['W' >= 5]) & (df['Z'] <= 16)]`

In [14]:
df4[(df4['W'] >= 5) & (df4['Z'] <= 16)]


Unnamed: 0,W,X,Y,Z
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16


Caso a condição esteja armazenada em uma variável / _dataframe_ / _series_, não é necessário usar os parenteses na condição

In [15]:
df4_cond1 = df4['W'] >= 5
df4_cond2 = df4['Z'] <= 16
df4[df4_cond1 & df4_cond2]

Unnamed: 0,W,X,Y,Z
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16


In [16]:
df4_cond3 = df4['X'] == 10
df4_cond4 = df4['Y'] < 19
df4[df4_cond3 | df4_cond4]

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16


## Index Hierarchy

Nos exemplos anteriores, nossos _dataframes_ tinham o index determinado por labels **A, B, C, D e E**, e o index numérico

Esse index de labels, é o principal index, sendo usado nas condições, no loc entre outros momentos

Caso seja necessário alterar o index principal do _dataframe_, para que ele seja o index numérico, podemos usar o comando `reset_index()`

Ele transformará o index anterior em uma coluna, e passará a usar o index numérico como principal. O `reset_index()` faz as alterações só no momento que é executado, fazendo-se necessário o uso do parâmetro `inplace=True`

In [17]:
df5 = df.copy()

In [18]:
df5.index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [19]:
df5.reset_index(inplace=True)
df5

Unnamed: 0,index,W,X,Y,Z
0,A,1,2,3,4
1,B,5,6,7,8
2,C,9,10,11,12
3,D,13,14,15,16
4,E,17,18,19,20


In [20]:
df5.index

RangeIndex(start=0, stop=5, step=1)

In [21]:
df5.loc[1]

index    B
W        5
X        6
Y        7
Z        8
Name: 1, dtype: object

Também é possível usar outra coluna como index principal, com o comando `set_index('nome_da_coluna')`.

O `set_index()` também realiza as alterações apenas no momento em que é executado, sendo assim é necessário usar o parâmetro `inplace=True`.

Diferente do `reset_index()` que transforma o index anterior em uma coluna, o `set_index()` simplesmente sobrepõe o index anterior.

In [22]:
df6 = df.copy()
df6

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [23]:
new_index = 'I1 I2 I3 I4 I5'.split()
df6['Code'] = new_index
df6

Unnamed: 0,W,X,Y,Z,Code
A,1,2,3,4,I1
B,5,6,7,8,I2
C,9,10,11,12,I3
D,13,14,15,16,I4
E,17,18,19,20,I5


In [24]:
df6.index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [25]:
df6.set_index('Code', inplace=True)
df6

Unnamed: 0_level_0,W,X,Y,Z
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
I1,1,2,3,4
I2,5,6,7,8
I3,9,10,11,12
I4,13,14,15,16
I5,17,18,19,20
