# Capítulo 4: Indexação booleana de dataframes

### Introdução

Acessando linhas em um dataframe usando os objetos do indexador DataFrame .ix, .loc, .iloc e como ele se diferencia do uso de uma máscara booleana.

### Exemplos

Acessando um DataFrame com um índice booleano

___

Este será nosso exemplo de quadro de dados:

In [30]:
import pandas as pd

In [31]:
df = pd.DataFrame({"color": ['red', 'blue', 'red', 'blue']},
                  index=[True, False, True, False])

In [32]:
df

Unnamed: 0,color
True,red
False,blue
True,red
False,blue


Acessando com **.loc**

In [33]:
df.loc[True]           # observações indexadas como True

Unnamed: 0,color
True,red
True,red


Acessando com **.iloc**

In [34]:
df.iloc[True]

TypeError: Cannot index by location index with a non-integer key

In [35]:
df.iloc[1]

color    blue
dtype: object

É importante observar que as versões mais antigas do pandas não distinguiam entre a entrada booleana e inteira, portanto **.iloc[True]** retornaria o mesmo que **.iloc[1]**

Acessando com **.ix** - **A PARTIR DE 0.20.0, O INDEXADOR .ix FOI DESCONTINUADO EM FAVOR DOS INDEXADORES .iloc E .loc**



In [36]:
print(f"Pandas: {pd.__version__}")

Pandas: 1.1.3


Nesta versão, o indexador **.ix** não existe

### Aplicar uma máscara booleana a um dataframe

Este será nosso exemplo de quadro de dados:

In [37]:
obj = {"color": ['red', 'blue', 'red', 'blue'], 
       'name': ['rose', 'violet', 'tulip', 'harebell'],
       'size': ["big", "big", "small", "small"]}

df1 = pd.DataFrame(data=obj)
df1                
                  

Unnamed: 0,color,name,size
0,red,rose,big
1,blue,violet,big
2,red,tulip,small
3,blue,harebell,small


Usando o acessor mágico **__ getitem __** ou **[]**. Fornecer a ele uma lista de True e False do mesmo tamanho que o dataframe fornecerá a você:

In [38]:
df1[[True, False, True, False]] # mostre 0, não mostre 1, mostre 2, não mostre 3

Unnamed: 0,color,name,size
0,red,rose,big
2,red,tulip,small


### Mascarando dados com base no valor da coluna

Este será nosso exemplo de quadro de dados:

___

Acessando uma única coluna de um quadro de dados, podemos usar uma comparação simples **==** para comparar cada elemento na coluna com a variável fornecida, produzindo um **pd.Series** de **True** e **False**

In [39]:
df1['size'] == 'small'

0    False
1    False
2     True
3     True
Name: size, dtype: bool

Este **pd.Series** é uma extensão de um **np.array** que é uma extensão de uma lista simples, portanto, podemos passar isso para o acessador **__ getitem __** ou **[]** como no exemplo acima.

In [40]:
size_small_mask = df1['size'] == 'small' # Primeiro cria a máscara booleana

df1[size_small_mask]                     # depois aplica a másccara no dataframe

Unnamed: 0,color,name,size
2,red,tulip,small
3,blue,harebell,small


### Mascarando dados com base no valor do índice

Este será nosso exemplo de quadro de dados:

In [42]:
# primeiro, vamos indexar nos nomes

df1 = df1.set_index('name')
df1.head()

Unnamed: 0_level_0,color,size
name,Unnamed: 1_level_1,Unnamed: 2_level_1
rose,red,big
violet,blue,big
tulip,red,small
harebell,blue,small


In [43]:
rose_mask = df1.index == 'rose'

df[rose_mask]

Unnamed: 0,color
True,red


Mas fazer isso é quase o mesmo que:

In [45]:
df1.loc['rose']

color    red
size     big
Name: rose, dtype: object

A diferença importante é que, quando **.loc** encontra apenas uma linha no índice que corresponde, ele retornará um **pd.Series**; se encontrar mais linhas que correspondam, ele retornará um **pd.DataFrame**. Isso torna esse método bastante instável.

Esse comportamento pode ser controlado fornecendo ao **.loc** uma lista de uma única entrada. Isso o forçará a retornar um quadro de dados.

In [46]:
df1.loc[['rose']]

Unnamed: 0_level_0,color,size
name,Unnamed: 1_level_1,Unnamed: 2_level_1
rose,red,big


Leia a [indexação booleana de dataframes](https://riptutorial.com/pandas/topic/9589/booleanindexing-of-dataframes) online.