# Ejercicio: Python, NumPy y Vectorización
Una breve introducción a algunos de los conceptos de computación científica utilizados en este curso. En particular, el paquete de computación científica NumPy y su uso con Python.

# Contenido
- [&nbsp;&nbsp;1.1 Objetivos](#toc_40015_1.1)
- [&nbsp;&nbsp;1.2 Referencias Útiles](#toc_40015_1.2)
- [2 Python y NumPy <a name='Python and NumPy'></a>](#toc_40015_2)
- [3 Vectores](#toc_40015_3)
- [&nbsp;&nbsp;3.1 Resumen](#toc_40015_3.1)
- [&nbsp;&nbsp;3.2 Arreglos de NumPy](#toc_40015_3.2)
- [&nbsp;&nbsp;3.3 Creación de Vectores](#toc_40015_3.3)
- [&nbsp;&nbsp;3.4 Operaciones con Vectores](#toc_40015_3.4)
- [4 Matrices](#toc_40015_4)
- [&nbsp;&nbsp;4.1 Resumen](#toc_40015_4.1)
- [&nbsp;&nbsp;4.2 Arreglos de NumPy](#toc_40015_4.2)
- [&nbsp;&nbsp;4.3 Creación de Matrices](#toc_40015_4.3)
- [&nbsp;&nbsp;4.4 Operaciones con Matrices](#toc_40015_4.4)


In [None]:
import numpy as np    # es un estándar no oficial usar np para numpy
import time

<a name="toc_40015_1.1"></a>
## 1.1 Objetivos
En este ejercicio, usted:
- Repasará las características de NumPy y Python que se utilizan en el Curso 1

<a name="toc_40015_1.2"></a>
## 1.2 Referencias Útiles
- Documentación de NumPy incluyendo una introducción básica: [NumPy.org](https://NumPy.org/doc/stable/)
- Un tema desafiante: [NumPy Broadcasting](https://NumPy.org/doc/stable/user/basics.broadcasting.html)


<a name="toc_40015_2"></a>
# 2 Python y NumPy <a name='Python and NumPy'></a>
Python es el lenguaje de programación que utilizaremos en este curso. Tiene un conjunto de tipos de datos numéricos y operaciones aritméticas. NumPy es una biblioteca que extiende las capacidades básicas de Python para agregar un conjunto más rico de tipos numéricos, vectores, matrices y muchas funciones de matrices. NumPy y Python trabajan juntos de manera bastante fluida. Los operadores aritméticos de Python funcionan con los tipos de datos de NumPy y muchas funciones de NumPy aceptan tipos de datos de Python.


<a name="toc_40015_3"></a>
# 3 Vectores
<a name="toc_40015_3.1"></a>
## 3.1 Resumen
![C1_W2_Lab04_Vectors.PNG](attachment:a644cb7b-d1d5-44c0-9d87-5187d7781d3b.PNG)Los vectores, como los usará en este curso, son arreglos ordenados de números. En notación, los vectores se denotan con letras minúsculas en negrita como $\mathbf{x}$. Los elementos de un vector son todos del mismo tipo. Un vector no contiene, por ejemplo, tanto caracteres como números. El número de elementos en el arreglo a menudo se denomina *dimensión*, aunque los matemáticos pueden preferir *rango*. El vector mostrado tiene una dimensión de $n$. Los elementos de un vector pueden ser referenciados con un índice. En matemáticas, los índices suelen ir de 1 a n. En ciencias de la computación y en estos ejercicios, la indexación suele ir de 0 a n-1. En notación, los elementos de un vector, cuando se referencian individualmente, indicarán el índice en un subíndice, por ejemplo, el elemento $0^{th}$ del vector $\mathbf{x}$ es $x_0$. Nota, la x no está en negrita en este caso.


<a name="toc_40015_3.2"></a>
## 3.2 Arreglos de NumPy

La estructura de datos básica de NumPy es un *arreglo* indexable y n-dimensional que contiene elementos del mismo tipo (`dtype`). De inmediato, puede notar que hemos sobrecargado el término 'dimensión'. Arriba, era el número de elementos en el vector, aquí, dimensión se refiere al número de índices de un arreglo. Un arreglo unidimensional o 1-D tiene un índice. En el Curso 1, representaremos los vectores como arreglos 1-D de NumPy.

 - Arreglo 1-D, forma (n,): n elementos indexados de [0] a [n-1]
 

<a name="toc_40015_3.3"></a>
## 3.3 Creación de Vectores


Las rutinas de creación de datos en NumPy generalmente tienen como primer parámetro la forma del objeto. Esto puede ser un solo valor para un resultado 1-D o una tupla (n,m,...) especificando la forma del resultado. A continuación se muestran ejemplos de cómo crear vectores usando estas rutinas.

In [None]:
# Rutinas de NumPy que asignan memoria y llenan arreglos con un valor
# forma = shape
a = np.zeros(4);                print(f"np.zeros(4) :   a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")
a = np.zeros((4,));             print(f"np.zeros(4,) :  a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")
a = np.random.random_sample(4); print(f"np.random.random_sample(4): a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")

Algunas rutinas de creación de datos no aceptan una tupla de forma:

In [None]:
# Rutinas de NumPy que asignan memoria y llenan arreglos con un valor pero no aceptan la forma como argumento de entrada
# forma = shape
a = np.arange(4.);              print(f"np.arange(4.):     a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")
a = np.random.rand(4);          print(f"np.random.rand(4): a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")

Los valores también pueden ser especificados manualmente. 

In [None]:
# Rutinas de NumPy que asignan memoria y llenan con valores especificados por el usuario
# forma = shape
a = np.array([5,4,3,2]);  print(f"np.array([5,4,3,2]):  a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")
a = np.array([5.,4,3,2]); print(f"np.array([5.,4,3,2]): a = {a}, forma de a = {a.shape}, Tipo(type) de dato a = {a.dtype}")

Todos estos han creado un vector unidimensional `a` con cuatro elementos. `a.shape` devuelve las dimensiones. Aquí vemos a.shape = `(4,)` indicando un arreglo 1-D con 4 elementos.  

<a name="toc_40015_3.4"></a>
## 3.4 Operaciones con Vectores
Exploremos algunas operaciones usando vectores.
<a name="toc_40015_3.4.1"></a>
### 3.4.1 Indexación
Los elementos de los vectores pueden ser accedidos mediante indexación y segmentación (slicing). NumPy proporciona un conjunto muy completo de capacidades de indexación y segmentación. Aquí exploraremos solo lo básico necesario para el curso. Consulte [Slicing and Indexing](https://NumPy.org/doc/stable/reference/arrays.indexing.html) para más detalles.
**Indexación** significa referirse a *un elemento* de un arreglo por su posición dentro del arreglo.
**Segmentación** significa obtener un *subconjunto* de elementos de un arreglo según sus índices.
NumPy comienza la indexación en cero, así que el tercer elemento de un vector $\mathbf{a}$ es `a[2]`.

In [None]:
# operaciones de indexación de vectores en vectores 1-D
a = np.arange(10)
print(a)

# acceder a un elemento
print(f"a[2].shape: {a[2].shape} a[2]  = {a[2]}, Accediendo un elemento retorna un scalar")

# acceder al último elemento, los índices negativos cuentan desde el final
print(f"a[-1] = {a[-1]}")

# los índices deben estar dentro del rango del vector o producirán un error
try:
    c = a[10]
except Exception as e:
    print("El mensaje de error que verá es:")
    print(e)

<a name="toc_40015_3.4.2"></a>
### 3.4.2 Segmentación (Slicing)
La segmentación crea un arreglo de índices usando un conjunto de tres valores (`inicio:fin:paso`). También es válido un subconjunto de valores. Su uso se explica mejor con ejemplos:

In [None]:
# operaciones de segmentación de vectores
a = np.arange(10)
print(f"a         = {a}")

# acceder a 5 elementos consecutivos (inicio:fin:paso)
c = a[2:7:1];     print("a[2:7:1] = ", c)

# acceder a 3 elementos separados por dos
c = a[2:7:2];     print("a[2:7:2] = ", c)

# acceder a todos los elementos desde el índice 3 en adelante
c = a[3:];        print("a[3:]    = ", c)

# acceder a todos los elementos antes del índice 3
c = a[:3];        print("a[:3]    = ", c)

# acceder a todos los elementos
c = a[:];         print("a[:]     = ", c)

<a name="toc_40015_3.4.3"></a>
### 3.4.3 Operaciones sobre un solo vector
Hay varias operaciones útiles que involucran operaciones sobre un solo vector.

In [None]:
a = np.array([1,2,3,4])
print(f"a             : {a}")
# negar los elementos de a
b = -a 
print(f"b = -a        : {b}")

# sumar todos los elementos de a, devuelve un escalar
b = np.sum(a) 
print(f"b = np.sum(a) : {b}")

b = np.mean(a)
print(f"b = np.mean(a): {b}")

b = a**2
print(f"b = a**2      : {b}")

<a name="toc_40015_3.4.4"></a>
### 3.4.4 Operaciones elemento a elemento entre vectores
La mayoría de las operaciones aritméticas, lógicas y de comparación de NumPy también se aplican a los vectores. Estos operadores funcionan elemento a elemento. Por ejemplo 
$$ c_i = a_i + b_i $$

In [None]:
a = np.array([ 1, 2, 3, 4])
b = np.array([-1,-2, 3, 4])
print(f"Los operadores binarios funcionan elemento por elemento: {a + b}")

Por supuesto, para que esto funcione correctamente, los vectores deben ser del mismo tamaño:

In [None]:
# probar una operación de vectores con tamaños diferentes
c = np.array([1, 2])
try:
    d = a + c
except Exception as e:
    print("El mensaje de error que verá es:")
    print(e)

<a name="toc_40015_3.4.5"></a>
### 3.4.5 Operaciones escalar-vector
Los vectores pueden ser 'escalados' por valores escalares. Un valor escalar es simplemente un número. El escalar multiplica todos los elementos del vector.

In [None]:
a = np.array([1, 2, 3, 4])

# multiplicar a por un escalar
b = 5 * a 
print(f"b = 5 * a : {b}")

<a name="toc_40015_3.4.6"></a>
### 3.4.6 Producto punto entre vectores
El producto punto es fundamental en Álgebra Lineal y en NumPy. Es una operación utilizada extensamente en este curso y debe ser bien comprendida. El producto punto se muestra a continuación.

![C1_W2_Lab04_dot_notrans.gif](attachment:109bff40-d003-4099-9c08-378f28ae3710.gif) 

El producto punto multiplica los valores de dos vectores elemento a elemento y luego suma el resultado.
El producto punto de vectores requiere que las dimensiones de ambos vectores sean iguales. 

Implementemos nuestra propia versión del producto punto a continuación:

**Usando un ciclo for**, implemente una función que retorne el producto punto de dos vectores. La función debe retornar, dados los insumos $a$ y $b$:
$$ x = \sum_{i=0}^{n-1} a_i b_i $$
Suponga que tanto `a` como `b` tienen la misma forma.

In [None]:
def my_dot(a, b): 
    """
   Calcule el producto entre dos vectores
 
    Argumentos:
      a (ndarray (n,)):  Vector de entrada 
      b (ndarray (n,)):  Vector de entrada con la misma dimensión de 'a'
    
    Retorna:
      x (scalar): 
    """
    x=0
    for i in range(a.shape[0]):
        x = x + a[i] * b[i]
    return x

In [None]:
# test 1-D
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
print(f"my_dot(a, b) = {my_dot(a, b)}")

Nota, se espera que el producto punto retorne un valor escalar. 

Probemos las mismas operaciones usando `np.dot`.  

In [None]:
# test 1-D
# shape = forma
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
c = np.dot(a, b)
print(f"NumPy 1-D np.dot(a, b) = {c}, np.dot(a, b).shape = {c.shape} ") 
c = np.dot(b, a)
print(f"NumPy 1-D np.dot(b, a) = {c}, np.dot(a, b).shape = {c.shape} ")


Arriba, notará que los resultados para 1-D coinciden con nuestra implementación.

<a name="toc_40015_3.4.7"></a>
### 3.4.7 La necesidad de velocidad: vectorización vs ciclo for
Utilizamos la biblioteca NumPy porque mejora la velocidad y la eficiencia de memoria. Demostremos esto:

In [None]:
np.random.seed(1)
a = np.random.rand(10000000)  # arreglos muy grandes
b = np.random.rand(10000000)

tic = time.time()  # capturar tiempo de inicio
c = np.dot(a, b)
toc = time.time()  # capturar tiempo de fin

print(f"np.dot(a, b) =  {c:.4f}")
print(f"Duración de la versión vectorizada: {1000*(toc-tic):.4f} ms ")

tic = time.time()  # capturar tiempo de inicio
c = my_dot(a,b)
toc = time.time()  # capturar tiempo de fin

print(f"my_dot(a, b) =  {c:.4f}")
print(f"Duración de la versión en bucle: {1000*(toc-tic):.4f} ms ")

del(a);del(b)  # eliminar estos grandes arreglos de la memoria

Así, la vectorización proporciona una gran aceleración en este ejemplo. Esto se debe a que NumPy hace mejor uso del paralelismo de datos disponible en el hardware subyacente. Las GPU y las CPU modernas implementan canalizaciones SIMD (Single Instruction, Multiple Data) que permiten emitir múltiples operaciones en paralelo. Esto es fundamental en Machine Learning donde los conjuntos de datos suelen ser muy grandes.

<a name="toc_12345_3.4.8"></a>
### 3.4.8 Operaciones vector-vector en el Curso 1
Las operaciones vector-vector aparecerán frecuentemente en el curso 1. Aquí está el porqué:
- En adelante, nuestros ejemplos se almacenarán en un arreglo, `X_train` de dimensión (m,n). Esto se explicará más adelante en contexto, pero aquí es importante notar que es un arreglo o matriz bidimensional (ver la siguiente sección sobre matrices).
- `w` será un vector unidimensional de forma (n,).
- realizaremos operaciones recorriendo los ejemplos, extrayendo cada ejemplo para trabajar individualmente mediante la indexación de X. Por ejemplo: `X[i]`
- `X[i]` retorna un valor de forma (n,), un vector unidimensional. Por lo tanto, las operaciones que involucran `X[i]` suelen ser vector-vector.  

Esa es una explicación algo extensa, pero alinear y entender las formas de sus operandos es importante al realizar operaciones vectoriales.

In [None]:
# mostrar ejemplo común del Curso 1
X = np.array([[1],[2],[3],[4]])
w = np.array([2])
c = np.dot(X[1], w)

print(f"X[1] tiene forma/shape {X[1].shape}")
print(f"w tiene forma/shape {w.shape}")
print(f"c tiene forma/shape {c.shape}")

<a name="toc_40015_4"></a>
# 4 Matrices


<a name="toc_40015_4.1"></a>
## 4.1 Resumen
Las matrices son arreglos bidimensionales. Los elementos de una matriz son todos del mismo tipo. En notación, las matrices se denotan con letras mayúsculas en negrita como $\mathbf{X}$. En este y otros ejercicios, `m` suele ser el número de filas y `n` el número de columnas. Los elementos de una matriz pueden ser referenciados con un índice bidimensional. En matemáticas, los números en el índice suelen ir de 1 a n. En ciencias de la computación y en estos ejercicios, la indexación irá de 0 a n-1.  
![C1_W2_Lab04_Matrices.PNG](attachment:a41b2450-76ac-4f49-9a7b-c34b296fc9b7.PNG)

Notación genérica de matrices, el primer índice es la fila, el segundo es la columna

<a name="toc_40015_4.2"></a>
## 4.2 Arreglos de NumPy

La estructura de datos básica de NumPy es un *arreglo* indexable y n-dimensional que contiene elementos del mismo tipo (`dtype`). Esto se describió anteriormente. Las matrices tienen un índice bidimensional (2-D) [m,n].

En el Curso 1, las matrices 2-D se usan para almacenar datos de entrenamiento. Los datos de entrenamiento son $m$ ejemplos por $n$ características, creando un arreglo (m,n). El Curso 1 no realiza operaciones directamente sobre matrices, sino que típicamente extrae un ejemplo como vector y opera sobre él. A continuación revisará: 
- creación de datos
- segmentación e indexación

<a name="toc_40015_4.3"></a>
## 4.3 Creación de Matrices
Las mismas funciones que crearon vectores 1-D crearán arreglos 2-D o n-D. Aquí algunos ejemplos


A continuación, se proporciona la tupla de forma para lograr un resultado 2-D. Observe cómo NumPy usa corchetes para denotar cada dimensión. Además, observe que NumPy, al imprimir, mostrará una fila por línea.


In [None]:
# shape = forma
a = np.zeros((1, 5))                                       
print(f"a shape = {a.shape}, a = {a}")                     

a = np.zeros((2, 1))                                                                   
print(f"a shape = {a.shape}, a = {a}") 

a = np.random.random_sample((1, 1))  
print(f"a shape = {a.shape}, a = {a}") 

También se pueden especificar los datos manualmente. Las dimensiones se especifican con corchetes adicionales que coinciden con el formato mostrado al imprimir arriba.

In [None]:
# Rutinas de NumPy que asignan memoria y llenan con valores especificados por el usuario
# shape = forma
a = np.array([[5], [4], [3]]);   print(f" a shape = {a.shape}, np.array: a = {a}")
a = np.array([[5],   # También se puede
              [4],   # separar los valores
              [3]]); # en filas separadas
print(f" a shape = {a.shape}, np.array: a = {a}")

<a name="toc_40015_4.4"></a>
## 4.4 Operaciones con Matrices
Exploremos algunas operaciones usando matrices.

<a name="toc_40015_4.4.1"></a>
### 4.4.1 Indexación


Las matrices incluyen un segundo índice. Los dos índices describen [fila, columna]. El acceso puede devolver un elemento o una fila/columna. Vea abajo:

In [None]:
# operaciones de indexación de vectores en matrices
a = np.arange(6).reshape(-1, 2)   # reshape es una forma conveniente de crear matrices
print(f"a.shape: {a.shape}, \na= {a}")

# acceder a un elemento
print(f"\na[2,0].shape:   {a[2, 0].shape}, a[2,0] = {a[2, 0]},     type(a[2,0]) = {type(a[2, 0])} Acceder a un elemento retorna un escalar\n")

# acceder a una fila
print(f"a[2].shape:   {a[2].shape}, a[2]   = {a[2]}, type(a[2])   = {type(a[2])}")

Vale la pena destacar el último ejemplo. Acceder a una matriz especificando solo la fila retornará un *vector 1-D*.

**Reshape/dar forma**  
El ejemplo anterior usó [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) para dar forma al arreglo.  
`a = np.arange(6).reshape(-1, 2) `   
Esta línea de código primero creó un *vector 1-D* de seis elementos. Luego reconfiguró ese vector en un arreglo *2-D* usando el comando reshape. Esto también podría haberse escrito:  
`a = np.arange(6).reshape(3, 2) `  
Para obtener el mismo arreglo de 3 filas y 2 columnas.
El argumento -1 le indica a la rutina que calcule el número de filas dado el tamaño del arreglo y el número de columnas.


<a name="toc_40015_4.4.2"></a>
### 4.4.2 Segmentación (Slicing)
La segmentación crea un arreglo de índices usando un conjunto de tres valores (`inicio:fin:paso`). También es válido un subconjunto de valores. Su uso se explica mejor con ejemplos:

In [None]:
# operaciones de segmentación 2-D de vectores
a = np.arange(20).reshape(-1, 10)
print(f"a = \n{a}")

# shape = forma
# acceder a 5 elementos consecutivos (inicio:fin:paso)
print("a[0, 2:7:1] = ", a[0, 2:7:1], ",  a[0, 2:7:1].shape =", a[0, 2:7:1].shape, "un arreglo 1-D")

# acceder a 5 elementos consecutivos (inicio:fin:paso) en dos filas
print("a[:, 2:7:1] = \n", a[:, 2:7:1], ",  a[:, 2:7:1].shape =", a[:, 2:7:1].shape, "un arreglo 2-D")

# acceder a todos los elementos
print("a[:,:] = \n", a[:,:], ",  a[:,:].shape =", a[:,:].shape)

# acceder a todos los elementos en una fila (uso muy común)
print("a[1,:] = ", a[1,:], ",  a[1,:].shape =", a[1,:].shape, "un arreglo 1-D")
# igual que
print("a[1]   = ", a[1],   ",  a[1].shape   =", a[1].shape, "un arreglo 1-D")


<a name="toc_40015_5.0"></a>
## ¡Felicitaciones!
En este ejercicio dominó las características de Python y NumPy que se necesitan para la semana 2 en adelante.