# Comparaciones, Máscaras, y Lógica Booleana

Esta sección cubre el uso de máscaras Booleanas para examinar y manipular valores con arreglos de NumPy

Masking o máscaras se utiliza cuando se quiere extraer, modificar, contar, o manipular valores en un arreglo, por ejemplo:
- Contar todos los valores mayores a cierto valor.
- Quitar todos los valores por encima de algún parámetro.

Para estos ejemplos utilizaremos NumPy, Mabplotlib, Seaborn, y Pandas.

In [1]:
import numpy as np
import pandas as pd

(118218, 78)

## Operadores comparativos como Funciones Universales (ufuncs)
- Podemos utilizar los operadores `+`, `-`, `*`, `/`, así como también `<`, `>`, como operadores a nivel de elemento.
- El resultado de este tipo de operadores es siempre un arreglo con un tipo Booleano. Ejemplos:

In [7]:
x = np.array([1, 2, 3, 4, 5])

In [8]:
x
# evaluemos si x<3 y x>3

array([1, 2, 3, 4, 5])

In [9]:
x < 3

array([ True,  True, False, False, False])

In [10]:
x > 3

array([False, False, False,  True,  True])

In [11]:
x <= 3

array([ True,  True,  True, False, False])

In [12]:
x >= 3

array([False, False,  True,  True,  True])

In [13]:
x != 3

array([ True,  True, False,  True,  True])

In [14]:
x == 3

array([False, False,  True, False, False])

In [15]:
x

array([1, 2, 3, 4, 5])

In [16]:
# También podemos realizar comparación de dos arreglos para incluir expresiones compuestas
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

- Cuando hablamos de Funciones Universales nos referimos a los siguientes equivalentes en NumPy:
    - `==` `np.equal`
    - `<` `np.less`
    - `>` `np.greater`
    - `!=` `np.not_equal`
    - `<=` `np.less_equal`
    - `>=` `np.greater_equal`
- Estas funciones se pueden utilizar en arreglos de cualquier tamaño y forma. Veamos un ejemplo en un arreglo de dos dimensiones.

In [17]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [18]:
x < 6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False, False]])

In [19]:
x > 6 

array([[False, False, False, False],
       [ True,  True, False, False],
       [False, False,  True, False]])

In [20]:
# x mayor a 6 y menor que nueve
(x > 6) & (x < 9)

array([[False, False, False, False],
       [ True, False, False, False],
       [False, False,  True, False]])

In [21]:
# x mayor a 6 o menor que nueve
(x > 6) & (x < 9)

array([[False, False, False, False],
       [ True, False, False, False],
       [False, False,  True, False]])

## Operaciones con arreglos
- Realicemos operaciones utilizando nuestro arreglo X creado previamente

In [22]:
# Contar cuántos valores que son diferentes de 0
np.count_nonzero(x)

11

In [23]:
# Contar cuántos valores son menor a 6 y son diferentes de 0
np.count_nonzero(x < 6)

8

In [24]:
# También podemos utilizar sum. Que suma los verdaderos y falsos de la condición
np.sum(x < 6)

8

In [25]:
# ¿Qué valor va a devolver el siguiente código?
np.sum(x)

54

In [26]:
# Sum() también se puede ejecutar en filas o columnas. Ejemplo
# Retorna los valores menores a 6 en cada columna
np.sum(x < 6, axis = 1)

array([4, 2, 2])

In [27]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

También podemos averiguar si todos los valores corresponden a una condición con `np.all()`

In [28]:
np.all(x < 10)

True

Podemos buscar si una condición se cumple para por lo menos uno de los valores utilizando `np.any()`

In [29]:
np.any(x > 8)

True

In [30]:
# Existe algún valor menor a 0
np.any(x < 0)

False

`np.all()` y `np.any()` también se pueden utilizar en solo filas y columnas

In [31]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [32]:
# ¿Son todos los valores de las filas menor a 8?
np.all(x < 8, axis = 1)

array([ True, False,  True])

In [33]:
# ¿Existe algún valor menor a 8 en todas las columnas?
np.any(x < 8, axis = 1)

array([ True,  True,  True])

## Operadores boleanos
- Podemos utilizar los operadores booleanos para combinar diferentes condiciones.
- Los operadores bitwise lógicos son `&`, `|`, `^`, `~`
- Normalmente se utilizan en conjunto con paréntesis para darle el orden de las operaciones deseado.

In [34]:
# Operador & "AND"
# La suma de los números mayores a 3 y menores a 5
np.sum((x > 3) & (x < 5))

1

# Indexado (fancy indexing)

En las secciones anteriores vimos como acceder a partes del array utilizando índices simples. En esta sección veremos un tipo de indexado conocido como "fancy indexing".

Este tipo de indexado permite acceder a diferentes arreglos de elementos de una sola vez. Veamos un ejemplo

In [35]:
import numpy as np
rand = np.random.RandomState(42)

x = rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


Si quisieramos acceder a los índices de los elementos podríamos hacerlo de la siguiente manera

In [36]:
[x[2], x[4], x[6]]

[14, 60, 82]

In [37]:
# Alternativamente se puede acceder con una lista de indices para luego pasarla directamente al arreglo
ind = [3, 7, 4]
x[ind]

array([71, 86, 60])

Cuando utilizamos fancy indexing, el resultado representa la forma de los 'índices del arreglo', en lugar de 'el arreglo indexado'. Es decir, el resultado es un tipo de dato array/arreglo. Veamos otro ejemplo

In [38]:
ind = np.array([[3, 7], [4,5]])
x[ind]

array([[71, 86],
       [60, 20]])

El fancy indexing también funciona en arreglos de múltiples dimensiones, considere el siguiente arreglo

In [39]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [40]:
x = x.reshape((3,4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Como en un indexado estándar, el primer índice se refiere a la fila, y el segundo a la columna. Tendremos un par de índices, el cual corresponderá a un número dentro del arreglo

In [41]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
x[row, col]

array([ 2,  5, 11])

## Indexemos datos de ejemplo

Las reglas de indexado siguen el broadcasting que vimos en el notebook de arreglos y broadcasting. Por ejemplo, si combinamos un vector columna con un vector fila obtenemos un resultado de dos dimensiones.

In [49]:
row[:, np.newaxis]

array([[0],
       [1],
       [2]])

In [51]:
col

array([2, 1, 3])

In [52]:
# el resultado de esta operación es la combinación de cada fila del 0 al 2, con cada columna en indice 2,1, 3
x[row[:, np.newaxis], col]

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

Esta regla de broadcasting e indexado se entiende a operaciones aritméticas, por ejemplo

In [53]:
row[:, np.newaxis] * col

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])