# Comparaciones, Máscaras, y Lógica Booleana

Esta sección cubre el uso de máscaras Booleanas para examinar y manipular valores con arreglos de NumPy

Masking o máscaras se utiliza cuando se quiere extraer, modificar, contar, o manipular valores en un arreglo, por ejemplo:
- Contar todos los valores mayores a cierto valor.
- Quitar todos los valores por encima de algún parámetro.

Para estos ejemplos utilizaremos NumPy, Mabplotlib, Seaborn, y Pandas.

In [2]:
import numpy as np
import pandas as pd

## Operadores comparativos como Funciones Universales (ufuncs)
- Podemos utilizar los operadores `+`, `-`, `*`, `/`, así como también `<`, `>`, como operadores a nivel de elemento.
- El resultado de este tipo de operadores es siempre un arreglo con un tipo Booleano. Ejemplos:

In [3]:
x = np.array([1, 2, 3, 4, 5])

In [4]:
x
# evaluemos si x<3 y x>3

array([1, 2, 3, 4, 5])

In [5]:
x < 3

array([ True,  True, False, False, False])

In [6]:
x > 3

array([False, False, False,  True,  True])

In [7]:
x <= 3

array([ True,  True,  True, False, False])

In [8]:
x >= 3

array([False, False,  True,  True,  True])

In [9]:
x != 3

array([ True,  True, False,  True,  True])

In [10]:
x == 3

array([False, False,  True, False, False])

In [11]:
x

array([1, 2, 3, 4, 5])

In [12]:
# También podemos realizar comparación de dos arreglos para incluir expresiones compuestas
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

- Cuando hablamos de Funciones Universales nos referimos a los siguientes equivalentes en NumPy:
    - `==` `np.equal`
    - `<` `np.less`
    - `>` `np.greater`
    - `!=` `np.not_equal`
    - `<=` `np.less_equal`
    - `>=` `np.greater_equal`
- Estas funciones se pueden utilizar en arreglos de cualquier tamaño y forma. Veamos un ejemplo en un arreglo de dos dimensiones.

In [13]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [14]:
x < 6

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [ True,  True, False, False]])

In [15]:
x > 6 

array([[False, False, False, False],
       [ True,  True, False, False],
       [False, False,  True, False]])

In [16]:
# x mayor a 6 y menor que nueve
(x > 6) & (x < 9)

array([[False, False, False, False],
       [ True, False, False, False],
       [False, False,  True, False]])

In [17]:
# x mayor a 6 o menor que nueve
(x > 6) & (x < 9)

array([[False, False, False, False],
       [ True, False, False, False],
       [False, False,  True, False]])

## Operaciones con arreglos
- Realicemos operaciones utilizando nuestro arreglo X creado previamente

In [18]:
# Contar cuántos valores que son diferentes de 0
np.count_nonzero(x)

11

In [19]:
# Contar cuántos valores son menor a 6 y son diferentes de 0
np.count_nonzero(x < 6)

8

In [20]:
# También podemos utilizar sum. Que suma los verdaderos y falsos de la condición
np.sum(x < 6)

8

In [21]:
# ¿Qué valor va a devolver el siguiente código?
np.sum(x)

54

In [22]:
# Sum() también se puede ejecutar en filas o columnas. Ejemplo
# Retorna los valores menores a 6 en cada columna
np.sum(x < 6, axis = 1)

array([4, 2, 2])

In [23]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

También podemos averiguar si todos los valores corresponden a una condición con `np.all()`

In [24]:
np.all(x < 10)

True

Podemos buscar si una condición se cumple para por lo menos uno de los valores utilizando `np.any()`

In [25]:
np.any(x > 8)

True

In [26]:
# Existe algún valor menor a 0
np.any(x < 0)

False

`np.all()` y `np.any()` también se pueden utilizar en solo filas y columnas

In [27]:
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [28]:
# ¿Son todos los valores de las filas menor a 8?
np.all(x < 8, axis = 1)

array([ True, False,  True])

In [29]:
# ¿Existe algún valor menor a 8 en todas las columnas?
np.any(x < 8, axis = 1)

array([ True,  True,  True])

## Operadores boleanos
- Podemos utilizar los operadores booleanos para combinar diferentes condiciones.
- Los operadores bitwise lógicos son `&`, `|`, `^`, `~`
- Normalmente se utilizan en conjunto con paréntesis para darle el orden de las operaciones deseado.

In [30]:
# Operador & "AND"
# La suma de los números mayores a 3 y menores a 5
np.sum((x > 3) & (x < 5))

1

# Indexado (fancy indexing)

En las secciones anteriores vimos como acceder a partes del array utilizando índices simples. En esta sección veremos un tipo de indexado conocido como "fancy indexing".

Este tipo de indexado permite acceder a diferentes arreglos de elementos de una sola vez. Veamos un ejemplo

In [31]:
import numpy as np
rand = np.random.RandomState(42)

x = rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


Si quisieramos acceder a los índices de los elementos podríamos hacerlo de la siguiente manera

In [32]:
[x[2], x[4], x[6]]

[14, 60, 82]

In [33]:
# Alternativamente se puede acceder con una lista de indices para luego pasarla directamente al arreglo
ind = [3, 7, 4]
x[ind]

array([71, 86, 60])

Cuando utilizamos fancy indexing, el resultado representa la forma de los 'índices del arreglo', en lugar de 'el arreglo indexado'. Es decir, el resultado es un tipo de dato array/arreglo. Veamos otro ejemplo

In [34]:
ind = np.array([[3, 7], [4,5]])
x[ind]

array([[71, 86],
       [60, 20]])

El fancy indexing también funciona en arreglos de múltiples dimensiones, considere el siguiente arreglo

In [35]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [36]:
x = x.reshape((3,4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Como en un indexado estándar, el primer índice se refiere a la fila, y el segundo a la columna. Tendremos un par de índices, el cual corresponderá a un número dentro del arreglo

In [37]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
x[row, col]

array([ 2,  5, 11])

## Indexemos datos de ejemplo

Las reglas de indexado siguen el broadcasting que vimos en el notebook de arreglos y broadcasting. Por ejemplo, si combinamos un vector columna con un vector fila obtenemos un resultado de dos dimensiones.

In [38]:
row[:, np.newaxis]

array([[0],
       [1],
       [2]])

In [39]:
col

array([2, 1, 3])

In [40]:
# el resultado de esta operación es la combinación de cada fila del 0 al 2, con cada columna en indice 2,1, 3
x[row[:, np.newaxis], col]

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

Esta regla de broadcasting e indexado se entiende a operaciones aritméticas, por ejemplo

In [41]:
row[:, np.newaxis] * col

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])

## Broadcasting

- Las operaciones con matrices de la misma dimensión se realizan en base de elemento por elemento.

In [44]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [45]:
b = np.arange(5, 10)
b

array([5, 6, 7, 8, 9])

In [46]:
a + b

array([ 5,  7,  9, 11, 13])

Broadcasting permite realizar operaciones binarias en matrices de diferentes tamaños. Podemos pensar en esto como una operación que se lleva a cabo en todo el largo de la matriz. Esto aplica para matrices de diferentes dimensiones.

In [48]:
a + 7

array([ 7,  8,  9, 10, 11])

In [52]:
# Ejemplo con dos dimensiones
ceros = np.zeros((5,5))
ceros

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [53]:
ceros + b

array([[5., 6., 7., 8., 9.],
       [5., 6., 7., 8., 9.],
       [5., 6., 7., 8., 9.],
       [5., 6., 7., 8., 9.],
       [5., 6., 7., 8., 9.]])

Esto se complica cuando tenemos matrices de mayores dimensiones

In [57]:
c = np.arange(3)
d = np.arange(3)[:, np.newaxis]

print(c)
print(d)

[0 1 2]
[[0]
 [1]
 [2]]


In [58]:
c + d

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png">

## Ejercicio

Cree una matriz 3x4 de números aleatorios.
Cree un arreglo de 4 elementos
Sume las matrices e imprima el resultado ¿cuál es la dimensión de la matriz final?

## Reglas de broadcasting

- Regla 1: si dos arrays son diferentes en el número de dimensiones, la forma del array con menos dimensiones se rellena con ceros en su izquierda.
- Regla 2: si la forma de los arreglos no es equivalente en ninguna de sus dimensiones, el array con una forma igual a 1 en esa dimensión se estira para acomodarse a la forma del otro array.
- Regla 3: si en cualquier dimensión, las formas de los arreglos no calzan, y tampoco son iguales a 1, habrá un error.

In [72]:
# Ejemplo
M = np.ones((2,3))
M

array([[1., 1., 1.],
       [1., 1., 1.]])

In [73]:
a = np.arange(3)
a

array([0, 1, 2])

In [74]:
# las formas de los arreglos son (2,3) y 3, respectivamente
# Por regla 1, el segundo arreglo con menos dimensiones, se rellena con unos a su izq (1, 3)
# Por regla 2, vemos que el arreglo 2, en su segunda dimensión, es diferente, por lo que estiramos el arreglo para que sea igual

# La forma final del arreglo será (2,3)

M + a

array([[1., 2., 3.],
       [1., 2., 3.]])