Boolean masking: "Boolean masking" é o coração da eficiente e rápida consulta em numpy e Pandas, e é análogo ao 'bit masking' usado em outras áreas de ciência da computação.

Uma 'boolean mask' é um array que pode ser unidimensional como uma série ou bidimensional como um dataFrame, onde cada um dos valores do array é 'true' ou 'false'.Esse array é sobreposta à estrutura de dados que estamos consultando.
E então, qualquer célula alinhada com 'true' será mantida no resltado final, enquanto as células que não estão alinhadas com 'true' serão excluídas

In [4]:
import pandas as pd

df=pd.read_csv('datasets/Admission_Predict.csv',index_col=0)

#Podemos limpar algumas colunas, tirando o espaços em brancos e colocando em letras mínusculas
df.columns = [x.lower().strip() for x in df.columns]
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [7]:
# Boolean masks são criados aplicando operadores diretamente à Series ou ao DataFrame
# Por exemplo, no nosso dataset, estamos interessados naqueles estudantes que possuem uma chance de
# passar maior do que 0.7

# Para criar uma boolean mask para essa consulta, nós queremos projetar a coluna 'chance of admit'
# utilizando o operador de indexação e aplicar o operador 'maior do que'.
# O resultado é uma Series no qual o valor de cada célula é 'True' ou 'False'.

admit_mask = df['chance of admit'] > 0.7

In [13]:
# Então o que fazer com essa máscara depois? Podemos colocar sobre os dados para 'esconder' os dados que não queremos
# Ou seja, nesse caso queremos esconder os alunos que não possuem uma chance de passar maior do que 0.7,
# que são representados pelos valores 'False'.

#MÉTODO 1: não muito comum.
# Fazemos isso utilizando a função where() sobre o dataFrame original passando a máscara como parâmetro.
# O resultado é que todas as células se mantém, mas as linhas que não satisfazem a condição passada, tem
# as suas células com o valor 'NaN'.
# Se não quisermos os dados 'NaN', utilizamos a função dropna()

# MÉTODO 2: mais comum
# Combinação do where() com dropna()
# Só utilizar a máscara dentro de um operador de indexação.


In [12]:
df.where(admit_mask).head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
5,,,,,,,,


In [14]:
# Podemos ver que os índices se mantém,e apenas as linhas com 'chance of admit' > 0.7 foram retornadas.
# Todas as linhas que não satisfazem a condição tem NaN como valor.

# Se não quisermos os dados 'NaN', utilizamos a função dropna().
df.where(admit_mask).dropna().head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
6,330.0,115.0,5.0,4.5,3.0,9.34,1.0,0.9


In [15]:
df[df['chance of admit'] > 0.7].head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


### Reviewing the indexing operator

In [17]:
# Pode ser chamado com uma string como parâmetro para projetar uma única coluna
df['gre score'].head()

Serial No.
1    337
2    324
3    316
4    322
5    314
Name: gre score, dtype: int64

In [18]:
# Pode ser chamado também sendo passado uma lista de strings como parâmetro 
df[['gre score','toefl score']].head()

Unnamed: 0_level_0,gre score,toefl score
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1
1,337,118
2,324,107
3,316,104
4,322,110
5,314,103


In [19]:
# Ou pode ser utilizado para criar uma máscara booleana
df[df['gre score']>320].head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9
7,321,109,3,3.0,4.0,8.2,1,0.75


In [None]:
### Todos esses jeitos são imitações das funções .loc() ou where().dropna()

### Combining multiple boolean masks
 | - 'ou'
 
 & - 'e'

In [22]:
# Exemplo
(df['chance of admit'] > 0.7) & (df['chance of admit'] < 0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [26]:
# Um outro jeito é utilizar funções 'built in' que simulam esses operadores.
df['chance of admit'].gt(0.7) & df['chance of admit'].lt(0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [28]:
df['chance of admit']

Serial No.
1      0.92
2      0.76
3      0.72
4      0.80
5      0.65
       ... 
396    0.82
397    0.84
398    0.91
399    0.67
400    0.95
Name: chance of admit, Length: 400, dtype: float64

In [30]:
# Ou, podemos fazer tudo junto
df['chance of admit'].gt(0.7).lt(0.9)

Serial No.
1      False
2      False
3      False
4      False
5       True
       ...  
396    False
397    False
398    False
399     True
400    False
Name: chance of admit, Length: 400, dtype: bool