<a href="https://colab.research.google.com/github/solozano0725/diplomadoMLNivel1/blob/main/DipMLsesion6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 6**

## **Contenido**

- <a href="#num"> NumPy</a><br>
  - <a href="#ope"> Operaciones vectorizadas</a><br>
  - <a href="#ind"> Indexación y segmentación</a><br>
  - <a href="#enm"> Enmascaramiento</a><br>
  - <a href="#sof"> Indexación sofisticada</a><br>







<p><a name="ope"></a></p>

# **Operaciones vectorizadas**

Es importante mencionar que el uso de operaciones vectorizadas no solo significa la utilización de funciones universales para la realización de las operaciones elemento a elemento. En el contexto de lenguajes de alto nivel como Python, el término **vectorización** representa el uso de código optimizado y precompilado escrito en lenguajes de bajo nivel (por ejemplo C) para realizar operaciones matemáticas en una secuencia de datos. Esto se realiza en lugar de una iteración explicita escrita en código nativo, como ya vimos en el ejemplo de la multiplicacion, que hace que las operaciones sean más eficientes. 

Veamos un ejemplo con el cual se ilustra la eficiencia computacional que se alcanza con las operaciones vectorizadas de NumPy: Construyamos una función que calcule el recíproco de una lista

In [None]:
def reciproco(lista):
  """retorna el reciproco de una lista"""
  rec = []
  for elemento in lista:
    rec.append(1.0 / elemento)
    
  return rec

In [None]:
%%timeit 
a = [*range(1,100000)]
reciproco(a)

100 loops, best of 5: 13.3 ms per loop


La operación equivalente en NumPy, utilizando ufuncs, será:

In [None]:
import numpy as np

In [None]:
%%timeit
a = np.arange(1,100000)
1/a

1000 loops, best of 5: 341 µs per loop


Note la diferencia en el orden de magnitud del tiempo de computo en ambas versiones. 

Resulta que el cuello de botella aquí no son las operaciones en sí mismas, sino la verificación de tipos y demás que Python debe hacer en cada ciclo. Cada vez que se calcula el recíproco, Python primero examina el tipo de objeto y realiza una búsqueda dinámica de la función correcta que se utilizará para ese tipo. Si estuviéramos trabajando en código compilado, esta especificación de tipo se conocería antes de que se ejecute el código y el resultado podría calcularse de manera mucho más eficiente.

Los cálculos que usan vectorización a través de ufuncs son casi siempre más eficientes que su contraparte implementada a través de ciclos, especialmente a medida que los arreglos crecen en tamaño. 

Cada vez que se vea un ciclo en Python, debe considerarse si este puede reemplazarse con una expresión vectorizada.

**Ejercicio 1:**  La serie de Leibniz  

$$\frac{\pi}{4}=1-\frac{1}{3}+\frac{1}{5}-\frac{1}{7}+\cdot \cdot \cdot=\sum_{n=0}^{\infty} \frac{(-1)^n}{2n+1}$$ 

permite obtener un valor aproximado para el número $\pi$. Escriba un programa en el que dado el número de términos de la sumatoria, se calcule y muestre el valor aproximado de $\pi$. 

In [None]:
# Python
def python_pi(N):
  return 4*sum([(-1)**n/(2*n+1) for n in range(N)])

In [None]:
# NumPy
def numpy_pi(N):
  n = np.arange(N)
  return 4*np.sum((-1)**n/(2*n+1))

<p><a name="ind"></a></p>

# **Indexación y segmentación**

Los arreglos de NumPy tienen la misma semántica de indexación y segmentación que las listas de Python cuando se trata de acceder a elementos o subarreglos. 




In [None]:
a = np.arange(8)
a

array([0, 1, 2, 3, 4, 5, 6, 7])

In [None]:
# indexación
a[3]

3

In [None]:
# segmentacion
a[2:6]

array([2, 3, 4, 5])

Adicionalmente, los arreglos de NumPy pueden ser segmentados a lo largo de cada uno de los ejes. Consideremos la siguiente lista de listas en Python

In [None]:
# definiendo una lista de listas de forma (3,3)
L = [[1, 2, 3], 
     [4, 5, 6], 
     [7, 8, 9]]

Por ejemplo, si queremos crear una lista de Python que contenga todas las filas y las primeras dos columnas de `L` podríamos escribir

In [None]:
[fila[:2] for fila in L]

[[1, 2], [4, 5], [7, 8]]

El número de ciclos `for` anidados que se necesita para segmentar listas de listas es igual al número de dimensiones menos uno (en este caso $2-1=1$). 

En NumPy, en lugar de indexar por un segmento, podemos indexar por una tupla de segmentos, cada uno de los cuales actúa en sus propias dimensiones. 

Redefinamos el arreglo `L` como un arreglo de NumPy 




In [None]:
L = np.array(L)
L

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

y realicemos la segmentación anterior:

In [None]:
L[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

Los ciclos `for` para la segmentación multidimensional son manejados implícitamente por NumPy, esto hace que realizar segmentaciones complejas sea mucho más rápido y simple que escribir los ciclos `for` explícitamente en Python. 

Veamos algunos ejemplos:

In [None]:
#creamos un arreglo de forma (4,4)
a = np.arange(16).reshape(4, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
#seleccionar la primer fila (equivalente a a[0,:])
a[0]

array([0, 1, 2, 3])

In [None]:
# seleccionar la primera columna
a[:,0]

array([ 0,  4,  8, 12])

In [None]:
# segmentar las filas pares y las columnas impares.
a[::2, 1::2]

array([[ 1,  3],
       [ 9, 11]])

In [None]:
# segmentar la matriz interna de 2x2.
a[1:3, 1:3]

array([[ 5,  6],
       [ 9, 10]])

In [None]:
# invertir las primeras 3 filas, tomando las primeras 3 columnas
a[2::-1, :3]

array([[ 8,  9, 10],
       [ 4,  5,  6],
       [ 0,  1,  2]])

<p><a name="enm"></a></p>

## **Enmascaramiento**

El enmascaramiento aparece cuando deseamos extraer, modificar, o manipular valores en un arreglo de acuerdo con algún criterio o condición. Como es natural, estos se suelen expresar en términos de operadores de comparación. NumPy implementa también operadores de comparación como ufuncs. 

Consideremos el siguiente arreglo

In [None]:
x = np.arange(9).reshape(3,3)
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Utilicemos un operador de comparacion. Por ejemplo, supongamos que queremos saber cuáles elementos del arreglo son menores a 6

In [None]:
x < 6

array([[ True,  True,  True],
       [ True,  True,  True],
       [False, False, False]])

Vemos que el resultado es un arreglo booleano. Dado un arreglo booleano, hay una serie de operaciones útiles que podemos implementar. 

Por ejemplo, podemos utilizar la función de agregación `sum` sobre este arreglo booleano para realizar el conteo de elementos que cumplen la condición

In [None]:
# numero de elementos en x menores a 6
np.sum(x < 6)

6

podemos realizar este tipo de conteos a lo largo de las filas o columnas, utilizando el argumento por palabra clave `axis` como ya hemos visto

In [None]:
# numero de elementos en x menores a 6 por columna
np.sum(x < 6, axis=0)

array([2, 2, 2])

In [None]:
# numero de elementos en x menores a 6 por fila
np.sum(x < 6, axis=1)

array([3, 3, 0])

Podemos también tener múltiples condiciones en un conteo, utilizando los operadores lógicos `&` (and) y `|` (or)

In [None]:
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
# verdadero si ambos verdaderos
np.sum((x > 1) & (x < 5))

3

In [None]:
# verdadero en caso en que alguno de los dos sea verdadero
np.sum((x > 6) | (x < 2))

4

Una herramienta muy poderosa en Numpy es la de usar arreglos booleanos como *máscaras*, para seleccionar subconjuntos particulares de los datos mismos. Esto es lo que se conoce como *enmascaramiento*. 

Volviendo a nuestra arreglo `x` anterior, supongamos que queremos un arreglo de todos los valores en `x` que sean menores que, digamos, 5. Para seleccionar estos valores del arreglo, simplemente podemos indexar con este arreglo booleano

In [None]:
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
x[x < 5]

array([0, 1, 2, 3, 4])

Lo que obtenemos es un arreglo unidimensional con todos los valores del arreglo `x` que cumplen la condición; en otras palabras, todos los valores en las posiciones en las que el arreglo de máscara es `True`.

**Ejercicio 2:** Escriba una función que, dado un número entero $n$, retorne un arreglo con los primeros $n$ números múltiplos de tres.

In [None]:
def multiplos_tres(n):
  """
  retorna los primeros n numeros multiplos de tres
  """
  a = np.arange(1, 3*n+1)
  return a[a%3 == 0]

multiplos_tres(3)

array([3, 6, 9])

**Ejercicio 3:** Escriba un programa que lea $n$ números enteros, calcule y muestre la suma de los pares y el producto de los impares.

<p><a name="sof"></a></p>

# **Indexación sofisticada**

Ya vimos cómo acceder y modificar arreglos usando índices simples (por ejemplo, `arr[0]`), segmentos (por ejemplo, `arr[: 5]`) y máscaras booleanas (por ejemplo, `arr[arr> 0]`).

La indexación sofisticada es conceptualmente simple: significa pasar una lista de índices en lugar de un entero, para acceder a múltiples elementos del arreglo a la vez.

Consideremos el siguiente arreglo


In [None]:
a = np.arange(10,20)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

Supongamos que queremos seleccionar los elementos correspondientes a los índices 1,3 y 7. Podríamos escribir

In [None]:
[a[1], a[3], a[7]]

[11, 13, 17]

Utilizando indexación sofisticada escribiriamos

In [None]:
# creamos lista con los indices
indices = [1, 3, 7]

# accedemos a los valores del arreglo
a[indices]

array([11, 13, 17])

Con el indexado sofisticado, **la forma del resultado refleja la forma del arreglo de índices** más que la forma del arreglo que se está indexando:

In [None]:
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [None]:
# creamos arreglo de indices con forma (2,2)
ind = np.array([[3, 7],
                [4, 5]]) 

# seleccionamos los elementos del arreglo
a[ind]

array([[13, 17],
       [14, 15]])

El indexado sofisticado funciona también en múltiples dimensiones. Como en la indexación estándar, el primer índice hace referencia a las filas y el segundo a las columnas:

Veámoslo en el siguiente ejemplo

In [None]:
a = np.arange(12).reshape((3, 4))
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Supongamos que queremos seleccionar los elementos con índices (0,2), (1,1) y (2,3)

In [None]:
[a[0,2], a[1,1], a[2,3]]

[2, 5, 11]

Con el indexado sofisticado podemos pasar dos listas que correspondan a los indices de las filas y columnas

In [None]:
fil = [0, 1, 2]
col = [2, 1, 3]

a[fil, col] 

array([ 2,  5, 11])

Podemos aprovecharnos de esta funcionalidad para intercambiar o añadir filas o columnas fácilmente:

In [None]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
# intercambiando columnas (1 <-> 0)
a[:,[1,0,2,3]]

array([[ 1,  0,  2,  3],
       [ 5,  4,  6,  7],
       [ 9,  8, 10, 11]])

In [None]:
# intercambiando y añadiendo columnas
a[:,[1,0,2,3,0]]

array([[ 1,  0,  2,  3,  0],
       [ 5,  4,  6,  7,  4],
       [ 9,  8, 10, 11,  8]])

In [None]:
# intercambiando filas
a[[2,1,0],:]

array([[ 8,  9, 10, 11],
       [ 4,  5,  6,  7],
       [ 0,  1,  2,  3]])

Note que podemos utilizar también valores booleanos para la selección con indexado sofisticado:



In [None]:
mask = np.array([True, False, True, False])
mask

array([ True, False,  True, False])

In [None]:
a[:,mask]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

Podemos combinar el indexado sofisticado con las otras técnicas de indexación que hemos visto para tener expresiones más complejas