# Exemplo de utilização da Máscara Boolena 

**Assunto**: Exploração e limpeza de dados

**Data**: 16/05/2023

**Contexto**: Para realizar a verificação da duplicidade de IDs no dataset do estudo de caso, usamos o conceito de máscara booleana, uma maneira de filtrar um array para compararmos os valores dos seus elementos. 

**Objetivo**: Compreender o conceito de máscara booleana e a sua  aplicação.

**Relacionado**:  <a href="./Lição_1_importação_de_dados.ipynb">1  Exploração e limpeza de dados de contas de crédito de titulares inadimplentes após seis meses</a>

Uma máscara booleana ou máscara lógica é uma forma de filrar uma array, ou série, obedencendo alguma condição. A saída dessa condição é uma array contendo um série de valore `True` e `False` onde cada elemento da saída corresponde a um elementos da entrada com resultado `True` se a condição é atendida.
(KLOSTERMAN, 2020, p 32 - Máscaras booleanas)

Para ilustrar esse conceito, podemos usar **dados sintéticos**, isto é, dados de teste que podemos descartar depois. 

Para gerarmos dadso sintéticos, usaremos NumPy e seu módulo `ramdom`: 


In [2]:
import numpy as np

In [4]:
np.random.seed(seed=24)

In [5]:
random_integers = np.random.randint(low=1, high=5, size=100)


Importamos o pacote NumPy com `np`. Depois "semeamos" 24 posições. Em seguida, armazenamos na variável `random_integers` um conjunto de 100 inteiros aleatóreos, selecionados de 1 à 5. Se examinarmos os primerios 5 elementos gerados teremos:

In [6]:
random_integers[:5]

array([3, 4, 1, 4, 2])

Para criar uma máscara booleana para conhecer todos os locais de todos os elementos de `random_integers` igual a 3: 

In [7]:
is_equal_to_3 = random_integers == 3

In [8]:
is_equal_to_3[:5]

array([ True, False, False, False, False])

A próxima coisa que queremos saber é quantos elementos são iguais a 3. Podemos somar uma máscara booleana para que os valores sejam interpretados como 1, para `True` e 0, para `False`.

In [9]:
sum(is_equal_to_3)

22

"Faz sentido, já que, com uma seleção aleatória igualmente provável de 5 valores possíveis, o esperado é que cada valor apareça 20% das vezes" (p 33) (Conceito fundamental da probilidade, essa passagem pode ser um lik para as notas de probalilidade)

Também podemos usar a máscara booleana para selecionar os elementos do array original que atendem a esa condição. A máscaras booleanas podem ser usadas diretamente para indexar arrays: 

In [10]:
random_integers[is_equal_to_3]

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

Embora entender o conceito da máscara booleana seja fundamental, já que ela é usada em diversas situações, especificamente, é possível usar o método `.loc` de DataFrames para indexar linhas por uma máscara booleana. 