# NumPy: Comparação, Mascaras e Lógica Booleana
Neste tópico, propomos o estudo do pacote `NumPy`, cujo objetivo é fornecer suporte para arrays multidimensionais, que possuem implementações prontas para operações básicas e funções de algebra linear extremamente úteis. Este pacote é a base de grande parte dos pacotes do Python que serão futuramente estudados. A implementação deste pacote é feita através de C, logo, ele é extremamente otimizado (devido a tipagém estática e uso de memória contigua), sendo ótimo para carregar, armazenear, e manipular dados dentro de memória no Python.

## Mascaras Booleanas
Neste tópico, analisamos como manipular valores do NumPy utilizando mascaras booleanas. Ou os de mascaras se torna útil quando se deseja extrair, modificar, contar, ou manipular valores em um array com base em algum critério, como por exemplo, contar todos valores acima de um certo valor, remover todos os valores que são ruídos, etc. 

### Operadores de Comparação como UFuncs
Há UFuncs especializadas para realizar comparações elemento a elemento, gerando um array de resultados.  Elas são semelhantes as operações aritméticas que vimos anteriomente. Listamos os pares de operação e as UFuncs que são chamadas ao utilizar a operação abaixo. 

| Operação | UFunc |
| --- | --- |
| `==` | 'np.equal' |
| `!=` | 'np.not_equal' |
| `<` | 'np.less' |
| `<=` | 'np.less_equal' |
| `>` | 'np.greater' |
| `<=` | 'np.greater_equal' |

Abaixo mostramos alguns exemplos da utilização dessas operações de comparação entre arrays.

In [123]:
x = np.random.randint(5,size=(3,4))
print(x)
y = np.random.randint(5,size=(3,4))
print(y)

[[3 1 2 2]
 [4 2 2 3]
 [0 4 2 0]]
[[0 2 3 1]
 [3 2 4 1]
 [1 2 2 4]]


In [124]:
x <= 1

array([[False,  True, False, False],
       [False, False, False, False],
       [ True, False, False,  True]])

In [125]:
x!=y

array([[ True,  True,  True,  True],
       [ True, False,  True,  True],
       [ True,  True, False,  True]])

### Exemplo de Contagem
Note que os resultados são arrays booleanos. Como sabemos, booleanos podem ser facilmente transformados em inteiros onde 1 é true e 0 é false. Logo podemos utilizar este retorno para contagem através da UFunc `count_nonzero()`, responsável por contabilizar a quantidade de valores diferente de zero.

In [126]:
np.count_nonzero(x <= 1)

3

Outra forma de realizar esta contagem é através da UFunc `sum()`, que transforma os valores booleanos em 0 e 1's. Uma vatangem deste método é a possibilidade de realizar esta operação por linhas ou colunas. 

In [127]:
np.sum(x >= 1, axis=0)

array([2, 3, 3, 2])

Para verificar se algum, ou todos os valores, são verdadeiros, pode se utilizar a UFunc `any()` e `all()`. Ambas podem ser utilizadas com o paramêtro `axis`.

In [128]:
print(np.any(x==5))
print(np.all(x>=0))

False
True


## Operadores Booleanos
Operadores booleanos permitem conferir se mais de um ou vários critérios de comparação são satisteitos ou insatisfeitos. Os operadores bitwise(bit a bit) do tipo `&` (`bitwise_and()`),`|` (`bitwise_or()`),`^`(`bitwise_xor()`) e `~`(`bitwise_not()`) são extendidos pelo NumPy para funcionar com os arrays. Note que os argumentos devem sempre estar entre paratêsis. 

In [129]:
(x<=1) & (x!=y)

array([[False,  True, False, False],
       [False, False, False, False],
       [ True, False, False,  True]])

> Obs: Vale ressaltar que para operadores booleanos de arrays, não podemos utilizar as palavras reservadas, já que estas tentam realizar a operação para os valores do objeto inteiro, e não há coerção válida para o objeto em booleano.

## Arrays Booleanos como Mascaras
Até então, analisamos os valores agregados somados diretamente  para os vetores booleanos. Outra forma mais poderosa de utilizar os Arrays Booleanos é como mascaras, para selecionar subconjuntos dos dados. Ao indexar arrays utilizando arrays booleanos de mesmo tamanho, selecionamos um subconjunto do array onde os indíces condizem com os indíces do array booleano que possuí true. 

Abaixo demonstramos isso. Primeiro, geramos um array booleano que diz se o valor é menor que 2 ou não. Então, utilizamos esse array para indexar o nosso array de valores, assim obtendo apenas os valores menores que 2.

In [130]:
aux = x < 2
x[aux]

array([1, 0, 0])

Também podemos fazer isto diretamente, tornando este mecânismo ainda mais poderoso. Este tipo de operação pode ser encadeada com as funções de agregação para calcular estátísticas interessantes para determinadas casos dos dados (exemplo: Média quando os valores são menor que x, valor máximo menor que y, etc).

In [131]:
x[x > 2]

array([3, 4, 3, 4])

### Exemplo
Abaixo, criamos um array preenchido com valores aleatórios, entre 0 e 7, e há diversas formas de explorar estes dados. Algo interessante é tentar utilizar as funções universais estudadas.

In [132]:
import numpy as np
np.random.seed(0)
x = np.random.exponential(1.0,365)
np.max(x)

6.7653937340397245

Por exemplo, vamos considerar que os dados dentro do array são milimetros de chuva ao longo do ano. Também vamos considerar que um dia é considerado chuvoso quando a quantidade de chuva é maior que 1mm. Podemos escrever algumas operações que resumem os dados. Cada posição no array é um dia de chuva, e consideramos que o ano inicia como verão até o dia 90, depois vem o outono até o dia 180, inverno até 270 e primavera até 365.

In [133]:
print("Chuva média durante o verão: ", np.median(x[np.arange(365) < 90]))
print("Chuva média durante o inverno: ", np.median(x[(np.arange(365) >= 180) & (np.arange(365) < 270)]))
print("Chuva máxima durante a primavera:", np.max(x[np.arange(365) >= 270]))
print("Chuva mínima fora do verão:", np.max(x[np.arange(365) >= 90]))

Chuva média durante o verão:  0.68508194048822
Chuva média durante o inverno:  0.6438185335437228
Chuva máxima durante a primavera: 4.007949815313653
Chuva mínima fora do verão: 6.7653937340397245
