<a target="_blank" href="https://colab.research.google.com/github/wakusoftware/curso-ml-espanol/blob/master/C1%20-%20Aprendizaje%20Supervisado/W2/C1_W2_Lab01_Numpy_Vectorizacion.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## Setup para Colab
Si estás corriendo este Notebook en Google Colab corre la celda de abajo, de lo contrario ignórala.

In [None]:
!git clone https://github.com/wakusoftware/curso-ml-espanol.git

%cd curso-ml-espanol/C1 - Aprendizaje Supervisado/W2/

!cp lab_utils_common.py /content/

!cp lab_utils_multi.py /content/

!cp -r data /content/

!cp -r images /content/

%cd /content/

!rm -rf curso-ml-espanol/

# Lab: Python, NumPy y Vectorización
Una breve introducción a algunos de los cálculos científicos utilizados en este curso. En particular, el paquete de cálculo científico NumPy y su uso con Python.

# Contenido
- [&nbsp;&nbsp;1.1 Objetivos](#toc_40015_1.1)
- [&nbsp;&nbsp;1.2 Referencias Útiles](#toc_40015_1.2)
- [2 Python y NumPy <a name='Python y NumPy'></a>](#toc_40015_2)
- [3 Vectores](#toc_40015_3)
- [&nbsp;&nbsp;3.1 Resumen](#toc_40015_3.1)
- [&nbsp;&nbsp;3.2 Arreglos NumPy](#toc_40015_3.2)
- [&nbsp;&nbsp;3.3 Creación de Vectores](#toc_40015_3.3)
- [&nbsp;&nbsp;3.4 Operaciones con Vectores](#toc_40015_3.4)
- [4 Matrices](#toc_40015_4)
- [&nbsp;&nbsp;4.1 Resumen](#toc_40015_4.1)
- [&nbsp;&nbsp;4.2 Arreglos NumPy](#toc_40015_4.2)
- [&nbsp;&nbsp;4.3 Creación de Matrices](#toc_40015_4.3)
- [&nbsp;&nbsp;4.4 Operaciones con Matrices](#toc_40015_4.4)

In [None]:
import numpy as np    # es una forma estandarizada no oficial de importar NumPy
import time

<a name="toc_40015_1.1"></a>
## 1.1 Objetivos
En este laboratorio, harás lo siguiente:
- Revisar las características de NumPy y Python que se utilizan en el Curso 1

<a name="toc_40015_1.2"></a>
## 1.2 Referencias Útiles
- Documentación de NumPy incluyendo una introducción básica: [NumPy.org](https://NumPy.org/doc/stable/)
- Un tema desafiante: [Difusión de NumPy (Broadcasting)](https://NumPy.org/doc/stable/user/basics.broadcasting.html)

<a name="toc_40015_2"></a>
# 2 Python y NumPy <a name='Python y NumPy'></a>
Python es el lenguaje de programación que utilizaremos en este curso. Cuenta con un conjunto de tipos de datos numéricos y operaciones aritméticas. NumPy es una biblioteca que extiende las capacidades básicas de Python para añadir un conjunto de datos más rico que incluye más tipos numéricos, vectores, matrices y muchas funciones matriciales. NumPy y Python trabajan juntos de manera bastante fluida. Los operadores aritméticos de Python funcionan con los tipos de datos de NumPy y muchas funciones de NumPy aceptarán tipos de datos de Python.

<a name="toc_40015_3"></a>
# 3 Vectores
<a name="toc_40015_3.1"></a>
## 3.1 Resumen
<img align="right" src="./images/C1_W2_Lab04_Vectors.jpg" style="width:340px;" >Los vectores, tal como los utilizarás en este curso, son arreglos ordenados de números. En notación, los vectores se denotan con letras en negrita minúsculas, como $\mathbf{x}$. Los elementos de un vector son todos del mismo tipo. Un vector no contiene, por ejemplo, tanto caracteres como números. El número de elementos en el arreglo a menudo se refiere como la *dimensión*, aunque los matemáticos puedan preferir *rango*. El vector mostrado tiene una dimensión de $n$. Los elementos de un vector pueden referenciarse con un índice. En contextos matemáticos, los índices típicamente van del 1 al n. En ciencias de la computación y en estos laboratorios, la indexación normalmente va de 0 a n-1. En notación, los elementos de un vector, cuando se referencian individualmente, indicarán el índice en un subíndice, por ejemplo, el elemento $0^{th}$ del vector $\mathbf{x}$ es $x_0$. Nota, la x no está en negrita en este caso.

<a name="toc_40015_3.2"></a>
## 3.2 NumPy Arrays

NumPy's basic data structure is an indexable, n-dimensional *array* containing elements of the same type (`dtype`). Right away, you may notice we have overloaded the term 'dimension'. Above, it was the number of elements in the vector, here, dimension refers to the number of indexes of an array. A one-dimensional or 1-D array has one index. In Course 1, we will represent vectors as NumPy 1-D arrays. 

 - 1-D array, shape (n,): n elements indexed [0] through [n-1]
 

<a name="toc_40015_3.3"></a>
## 3.3 Creación de Vectores


Las rutinas de creación de datos en NumPy generalmente tienen un primer parámetro que es la forma del objeto. Esto puede ser un valor único para un resultado 1-D o una tupla (n, m, ...) que especifica la forma del resultado. A continuación, se presentan ejemplos de cómo crear vectores utilizando estas rutinas.

In [None]:
# Rutinas de NumPy que asignan memoria y llenan arreglos con un valor
a = np.zeros(4);                print(f"np.zeros(4) :   a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")
a = np.zeros((4,));             print(f"np.zeros(4,) :  a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")
a = np.random.random_sample(4); print(f"np.random.random_sample(4): a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")

Algunas rutinas de creación de datos no requieren una tupla de forma:

In [None]:
# Rutinas de NumPy que asignan memoria y llenan arreglos con valores pero no aceptan forma como argumento de entrada
a = np.arange(4.);              print(f"np.arange(4.):     a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")
a = np.random.rand(4);          print(f"np.random.rand(4): a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")

los valores pueden ser especificados manualmente también:

In [None]:
# Rutinas de NumPy que asignan memoria y se llenan con valores especificados por el usuario
a = np.array([5,4,3,2]);  print(f"np.array([5,4,3,2]):  a = {a},     forma de a = {a.shape}, tipo de datos de a = {a.dtype}")
a = np.array([5.,4,3,2]); print(f"np.array([5.,4,3,2]): a = {a}, forma de a = {a.shape}, tipo de datos de a = {a.dtype}")

Todos estos han creado un vector unidimensional `a` con cuatro elementos. `a.shape` devuelve las dimensiones. Aquí vemos que a.shape = `(4,)` indica un arreglo 1-D con 4 elementos.

<a name="toc_40015_3.4"></a>
## 3.4 Operaciones con Vectores
Exploremos algunas operaciones utilizando vectores.
<a name="toc_40015_3.4.1"></a>
### 3.4.1 Indexación
Los elementos de los vectores pueden ser accedidos mediante indexación y segmentación (slicing). NumPy proporciona un conjunto muy completo de capacidades de indexación y segmentación. Aquí solo exploraremos los conceptos básicos necesarios para el curso. Consulta [Segmentación e Indexación](https://NumPy.org/doc/stable/reference/arrays.indexing.html) para más detalles.  
**Indexación** significa referirse a *un elemento* de un arreglo por su posición dentro del arreglo.  
**Segmentación** significa obtener un *subconjunto* de elementos de un arreglo basado en sus índices.  
NumPy comienza la indexación en cero, por lo que el tercer elemento de un vector $\mathbf{a}$ es `a[2]`.

In [None]:
# operaciones de indexación de vectores en vectores 1-D
a = np.arange(10)
print(a)

# acceder a un elemento
print(f"a[2].shape: {a[2].shape} a[2]  = {a[2]}, Acceder a un elemento devuelve un escalar")

# acceder al último elemento, los índices negativos cuentan desde el final
print(f"a[-1] = {a[-1]}")

# los índices deben estar dentro del rango del vector o producirán un error
try:
    c = a[10]
except Exception as e:
    print("El mensaje de error que verás es:")
    print(e)

<a name="toc_40015_3.4.2"></a>
### 3.4.2 Segmentación (slicing)
La segmentación crea un arreglo de índices utilizando un conjunto de tres valores (`inicio:fin:paso`). También es válido usar un subconjunto de valores. Su uso se explica mejor con un ejemplo:

In [None]:
# operaciones de segmentación de vectores
a = np.arange(10)
print(f"a         = {a}")

# acceder a 5 elementos consecutivos (inicio:fin:paso)
c = a[2:7:1];     print("a[2:7:1] = ", c)

# acceder a 3 elementos separados por dos
c = a[2:7:2];     print("a[2:7:2] = ", c)

# acceder a todos los elementos desde el índice 3 en adelante
c = a[3:];        print("a[3:]    = ", c)

# acceder a todos los elementos por debajo del índice 3
c = a[:3];        print("a[:3]    = ", c)

# acceder a todos los elementos
c = a[:];         print("a[:]     = ", c)

<a name="toc_40015_3.4.3"></a>
### 3.4.3 Operaciones en un solo vector
Existen varias operaciones útiles que implican operaciones en un solo vector.

In [None]:
a = np.array([1,2,3,4])
print(f"a             : {a}")
# negar elementos de a
b = -a 
print(f"b = -a        : {b}")

# sumar todos los elementos de a, devuelve un escalar
b = np.sum(a) 
print(f"b = np.sum(a) : {b}")

b = np.mean(a)
print(f"b = np.mean(a): {b}")

b = a**2
print(f"b = a**2      : {b}")

<a name="toc_40015_3.4.4"></a>
### 3.4.4 Operaciones elemento a elemento entre vectores
La mayoría de las operaciones aritméticas, lógicas y de comparación de NumPy también se aplican a vectores. Estos operadores trabajan sobre una base de elemento por elemento. Por ejemplo:
$$ \mathbf{a} + \mathbf{b} = \sum_{i=0}^{n-1} a_i + b_i $$

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([-1, -2, 3, 4])
print(f"Los operadores binarios funcionan elemento a elemento: {a + b}")

Por supuesto, para que esto funcione correctamente, los vectores deben ser del mismo tamaño:

In [None]:
#try a mismatched vector operation
c = np.array([1, 2])
try:
    d = a + c
except Exception as e:
    print("El mensaje de error que veras es:")
    print(e)

<a name="toc_40015_3.4.5"></a>
### 3.4.5 Operaciones de escalar con vector
Los vectores pueden ser 'escalados' por valores escalares. Un valor escalar es simplemente un número. El escalar multiplica todos los elementos del vector.

In [None]:
a = np.array([1, 2, 3, 4])

# multiplicar a por un escalar
b = 5 * a 
print(f"b = 5 * a : {b}")

<a name="toc_40015_3.4.6"></a>
### 3.4.6 Producto punto entre vectores
El producto punto es un pilar del Álgebra Lineal y de NumPy. Esta operación se utiliza extensamente en este curso y debe ser bien comprendida. El producto punto se muestra a continuación.

<img src="./images/C1_W2_Lab04_dot_notrans.gif" width=800> 

El producto punto multiplica los valores en dos vectores elemento por elemento y luego suma el resultado.
El producto punto entre vectores requiere que las dimensiones de los dos vectores sean iguales.

Implementemos nuestra propia versión del producto punto a continuación:

**Usando un bucle for**, implementa una función que devuelva el producto punto de dos vectores. La función debe retornar, dados los vectores de entrada $a$ y $b$:
$$ x = \sum_{i=0}^{n-1} a_i b_i $$
Asume que tanto `a` como `b` tienen la misma forma.

In [None]:
def my_dot(a, b):
    """
    Calcular el producto punto de dos vectores

    Argumentos:
      a (ndarray (n,)): vector de entrada
      b (ndarray (n,)): vector de entrada con la misma dimensión que a

    Devuelve:
      x (escalar):
    """
    x = 0
    for i in range(a.shape[0]):
        x = x + a[i] * b[i]
    return x


In [None]:
# test 1-D
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
print(f"my_dot(a, b) = {my_dot(a, b)}")

Ten en cuenta que se espera que el producto punto devuelva un valor escalar.

Probemos las mismas operaciones usando `np.dot`.

In [None]:
# prueba 1-D
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
c = np.dot(a, b)
print(f"NumPy 1-D np.dot(a, b) = {c}, np.dot(a, b).shape = {c.shape}") 
c = np.dot(b, a)
print(f"NumPy 1-D np.dot(b, a) = {c}, np.dot(a, b).shape = {c.shape}")


Arriba, notarás que los resultados para 1-D coinciden con nuestra implementación.

<a name="toc_40015_3.4.7"></a>
### 3.4.7 La necesidad de velocidad: vector vs bucle for
Utilizamos la biblioteca NumPy porque mejora la velocidad y la eficiencia de la memoria. Vamos a demostrarlo:

In [None]:
np.random.seed(1)
a = np.random.rand(10000000)  # arreglos muy grandes
b = np.random.rand(10000000)

tic = time.time()  # capturar tiempo de inicio
c = np.dot(a, b)
toc = time.time()  # capturar tiempo de finalización

print(f"np.dot(a, b) =  {c:.4f}")
print(f"Duración de la versión vectorizada: {1000*(toc-tic):.4f} ms ")

tic = time.time()  # capturar tiempo de inicio
c = my_dot(a, b)
toc = time.time()  # capturar tiempo de finalización

print(f"mi_producto_punto(a, b) =  {c:.4f}")
print(f"Duración de la versión con bucle: {1000*(toc-tic):.4f} ms ")

del(a); del(b)  # eliminar estos grandes arreglos de la memoria

Por lo tanto, la vectorización proporciona una gran aceleración en este ejemplo. Esto se debe a que NumPy aprovecha mejor el paralelismo de datos disponible en el hardware subyacente. Las GPU y las CPU modernas implementan tuberías SIMD (Instrucción Única, Datos Múltiples) que permiten emitir múltiples operaciones en paralelo. Esto es crítico en el aprendizaje automático, donde los conjuntos de datos suelen ser muy grandes.

<a name="toc_12345_3.4.8"></a>
### 3.4.8 Operaciones de vector con vector en el Curso 1
Las operaciones de vector con vector aparecerán frecuentemente en el curso 1. Aquí está el porqué:
- En adelante, nuestros ejemplos se almacenarán en un arreglo, `X_train` de dimensión (m,n). Esto se explicará más en contexto, pero aquí es importante señalar que es un arreglo de 2 dimensiones o matriz (ver la siguiente sección sobre matrices).
- `w` será un vector unidimensional de forma (n,).
- Realizaremos operaciones recorriendo los ejemplos, extrayendo cada ejemplo individualmente mediante indexación de X. Por ejemplo: `X[i]`
- `X[i]` devuelve un valor de forma (n,), un vector unidimensional. Por lo tanto, las operaciones que involucran `X[i]` son a menudo de vector con vector.

Esa es una explicación algo extensa, pero alinear y entender las formas de tus operandos es importante al realizar operaciones vectoriales.

In [None]:
# mostrar un ejemplo común del Curso 1
X = np.array([[1],[2],[3],[4]])
w = np.array([2])
c = np.dot(X[1], w)

print(f"X[1] tiene forma {X[1].shape}")
print(f"w tiene forma {w.shape}")
print(f"c tiene forma {c.shape}")


<a name="toc_40015_4"></a>
# 4 Matrices


<a name="toc_40015_4.1"></a>
## 4.1 Resumen
Las matrices son arreglos bidimensionales. Los elementos de una matriz son todos del mismo tipo. En notación, las matrices se denotan con letras mayúsculas y en negrita, como $\mathbf{X}$. En este y otros laboratorios, `m` es a menudo el número de filas y `n` el número de columnas. Los elementos de una matriz pueden referenciarse con un índice bidimensional. En contextos matemáticos, los números en el índice típicamente van del 1 al n. En ciencias de la computación y en estos laboratorios, la indexación irá de 0 a n-1.
<figure>
    <center> <img src="./images/C1_W2_Lab04_Matrices.jpg"  alt='missing'  width=900><center/>
    <figcaption> Notación genérica de matrices, el 1er índice es la fila, el 2do es la columna </figcaption>
<figure/>

<a name="toc_40015_4.2"></a>
## 4.2 Arreglos NumPy

La estructura básica de datos de NumPy es un *arreglo* indexable y n-dimensional que contiene elementos del mismo tipo (`dtype`). Estos ya fueron descritos anteriormente. Las matrices tienen un índice bidimensional (2-D) [m,n].

En el Curso 1, las matrices 2-D se utilizan para almacenar datos de entrenamiento. Los datos de entrenamiento consisten en $m$ ejemplos por $n$ características, creando un arreglo (m,n). El Curso 1 no realiza operaciones directamente sobre matrices, sino que típicamente extrae un ejemplo como un vector y opera sobre ese. A continuación, revisarás:
- creación de datos
- segmentación e indexación

<a name="toc_40015_4.3"></a>
## 4.3 Creación de Matrices
Las mismas funciones que crearon vectores 1-D crearán arreglos 2-D o n-D. Aquí algunos ejemplos

A continuación, se proporciona la tupla de forma para obtener un resultado 2-D. Observa cómo NumPy utiliza corchetes para denotar cada dimensión. Observa además que NumPy, al imprimir, imprimirá una fila por línea.

In [None]:
a = np.zeros((1, 5))                                       
print(f"a shape = {a.shape}, a = {a}")                     

a = np.zeros((2, 1))                                                                   
print(f"a shape = {a.shape}, a = {a}") 

a = np.random.random_sample((1, 1))  
print(f"a shape = {a.shape}, a = {a}") 


También se puede especificar manualmente los datos. Las dimensiones se especifican con corchetes adicionales que coinciden con el formato mostrado en la impresión anterior.

In [None]:
# Rutinas de NumPy que asignan memoria y se llenan con valores especificados por el usuario
a = np.array([[5], [4], [3]]);   print(f" a shape = {a.shape}, np.array: a = {a}")
a = np.array([[5],   # También se pueden
              [4],   # separar los valores
              [3]]); # en filas separadas
print(f" a shape = {a.shape}, np.array: a = {a}")


<a name="toc_40015_4.4"></a>
## 4.4 Operaciones con Matrices
Explore algunas operaciones utilizando matrices.

<a name="toc_40015_4.4.1"></a>
### 4.4.1 Índices


Las matrices incluyen un segundo índice. Los dos índices describen [fila, columna]. El acceso puede devolver un elemento o una fila/columna. Vea a continuación:

In [None]:
# operaciones de indexación de vectores en matrices
a = np.arange(6).reshape(-1, 2)   # reshape es una forma conveniente de crear matrices
print(f"a.shape: {a.shape}, \na= {a}")

# acceder a un elemento
print(f"\na[2,0].shape:   {a[2, 0].shape}, a[2,0] = {a[2, 0]},     type(a[2,0]) = {type(a[2, 0])} Acceder a un elemento devuelve un escalar\n")

# acceder a una fila
print(f"a[2].shape:   {a[2].shape}, a[2]   = {a[2]}, type(a[2])   = {type(a[2])}")


Vale la pena prestar atención al último ejemplo. Acceder a una matriz especificando solo la fila devolverá un *vector 1-D*.

**Redimensionar**  
El ejemplo anterior utilizó [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) para dar forma al arreglo.  
`a = np.arange(6).reshape(-1, 2)`   
Esta línea de código primero creó un *Vector 1-D* de seis elementos. Luego, redimensionó ese vector en un arreglo *2-D* usando el comando reshape. Esto podría haberse escrito:  
`a = np.arange(6).reshape(3, 2)`  
Para llegar al mismo arreglo de 3 filas y 2 columnas.
El argumento -1 le dice a la rutina que calcule el número de filas dado el tamaño del arreglo y el número de columnas.

<a name="toc_40015_4.4.2"></a>
### 4.4.2 Segmentación
La segmentación crea un arreglo de índices utilizando un conjunto de tres valores (`inicio:fin:paso`). Un subconjunto de valores también es válido. Su uso se explica mejor con un ejemplo:

In [None]:
# operaciones de segmentación 2-D en vectores
a = np.arange(20).reshape(-1, 10)
print(f"a = \n{a}")

# acceder a 5 elementos consecutivos (inicio:fin:paso)
print("a[0, 2:7:1] = ", a[0, 2:7:1], ",  a[0, 2:7:1].shape =", a[0, 2:7:1].shape, "un arreglo 1-D")

# acceder a 5 elementos consecutivos (inicio:fin:paso) en dos filas
print("a[:, 2:7:1] = \n", a[:, 2:7:1], ",  a[:, 2:7:1].shape =", a[:, 2:7:1].shape, "un arreglo 2-D")

# acceder a todos los elementos
print("a[:,:] = \n", a[:,:], ",  a[:,:].shape =", a[:,:].shape)

# acceder a todos los elementos en una fila (uso muy común)
print("a[1,:] = ", a[1,:], ",  a[1,:].shape =", a[1,:].shape, "un arreglo 1-D")
# igual que
print("a[1]   = ", a[1],   ",  a[1].shape   =", a[1].shape, "un arreglo 1-D")


<a name="toc_40015_5.0"></a>
## ¡Felicidades!
En este laboratorio dominaste las características de Python y NumPy que son necesarias para el Curso 1.