#**Práctica 2: Herramientas para Machine Learning**

Curso: Inteligencia Artificial para Ingenieros

Prof. Carlos Toro N. (carlos.toro.ing@gmail.com)

2022

* En estas prácticas introductorias veremos algunas de las librerías más usadas en temas de machine learning, entre estas: Numpy, Pandas, Matplotlib y Sci-kit Learn.

* Estas librerías serán importanes para los procesos de lectura de datos, exploración inicial de los datos, limpieza de datos, pre-procesamiento de datos, generación y evaluación de modelos, visualización etc.

Sobre librerías en python:

- Para importar librerías se usa la palabra reservada import
- Cada librería contiene una colección de paquetes los cuales a su ves traen diferentes modulos
- En cada módulo (archivo *.py*) vivirán clases, funciones, variables, definiciones, etc. que podremos llamar usando la notación con el operador punto "."

##**1. Numpy**

Esta librearía es una de las más usadas para el cálculo numérico científico en python. Proporciona la definición de objetos tipo array para realizar operaciones de una forma muy similar a Matlab. [Aquí](https://numpy.org/) se puede encontrar la documentación de la misma.

<img src=https://www.freecodecamp.org/espanol/news/content/images/size/w2000/2021/04/numpy-1-1-.png width="500">

[fuente](https://www.freecodecamp.org/espanol/news/curso-intensivo-de-python-numpy-como-construir-arreglos-n-dimensionales-para-aprendizaje-automatico/)

### Introducción

In [None]:
# import numpy     # en caso de que sea muy largo el nombre, se puede agregar un alias
import numpy as np # le agregamos un alias al paquete

np.array([1,2,3])

In [None]:
# si solo necesitamos un módulo del paquete podemos escribir lo siguiente
from numpy import array # esto no es una buena práctica, cuando el código es muy largo, una buena práctica
                        # es importar todos los paquetes al inicio del archivo, es mejor dejarlo con el alias
array([1,2,3])

In [None]:
import numpy as np
pesos   = [65.54,78.53,99.89]
alturas = [1.94,1.78,1.50]

print(pesos)
print(alturas)

Ejemplo, podemos calcular el indice de masa corporal como:

$$IMC = peso/altura^2$$

In [None]:
# si lo hacemos directamente usando listas nos dará un error
imc = pesos/alturas**2

In [None]:
# transoformando las listas a array
np_pesos = np.array(pesos)
np_alturas = np.array(alturas)

imc = np_pesos / np_alturas ** 2 # notar que en este caso el operador / realiza una división elemento a elemento
imc

### Subajustes

In [None]:
print(imc)
n_imc = np.round(imc,2)
print(n_imc)# redondeamos

In [None]:
#indexación
print(n_imc[1])
print(n_imc[2])

In [None]:
print(n_imc>20)#comparaciones lógicas

In [None]:
n_imc[n_imc>20]#indexación lógica

Los numpy array pueden ser de diferentes dimensiones y para acceder a la forma que tienen estos se puede usar el atributo .shape de los array
<img src=https://aprendepython.es/_images/numpy-arrays.png width="600">

[fuente](https://aprendepython.es/pypi/datascience/numpy/)

Accediendo al tamaño y dimensiones de un array:

In [None]:
arrayA = np.array([[5.2,3.0,4.5],[9.1,0.1,0.3]])

print(f"Arreglo A: \n{arrayA}")
print(f"Forma arreglo A: {arrayA.shape}")#equivalente a usar la función np.shape()
print(f"N° elementos arreglo A: {arrayA.size}")#equivalente a usar la función np.size()
print(f"Dimensión arreglo A: {arrayA.ndim}")
print(f"Tamaño de la primera dimensión del arreglo A: {len(arrayA)}") # es equivalente a arrayA.shape[0]

### Operaciones Matemáticas sobre arrays y tratamiento matrices

Todas las operaciones aritméticas estandar y otras complementarias pueden ser usadas:

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 3 =", x + 3)
print("x - 3 =", x - 3)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x ^ 2 =", x **2)    # exponenciación
print("x % 2 =", x % 2)    # operación modulo: retorna el resto de la división, útil por ejemplo para saber si un número es par
print("x // 2 =", x // 2)  # division de piso o division entera, retorna el entero más próximo (hacia menos infinito) luego de dividir.

Valor absoluto de números reales o magnitud de números complejos usando `np.abs`:

In [None]:
x = np.array([-2,-1,0,1,2])
xc= np.array([3-4j,4-3j,2+0j,0+1j])

print(f"Array original: {x}, valor absoluto: {np.abs(x)}")
print(f"Array original: {xc}, magnitud: {np.abs(xc)}")

**Funciones trigonométricas:**

Numpy proporciona un gran número de funciones matemáticas útiles como las trigonométricas. Partamos por definir un arreglo de ángulos en radianes (recordar, $\pi$ radianes equivale 180°):


In [None]:
theta = np.array([0, np.pi/2, np.pi, 1.5*np.pi, 2*np.pi])
theta

Notar el atributo reservado `np.pi` para el valor de $ \pi$

In [None]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

**Funciones exponenciales y logarítmicas:**

Otro tipo de funciones comunes son las exponenciales: `np.exp` (base natural e), `np.exp2` para potencias en base 2 y `np.power` para bases y exponentes arbitraios. También están las logarítmicas como `np.log` para logaritmo natural, `np.log2` para logaritmo en base 2 y `np.log10` para logaritmo en base 10.

In [None]:
x = [1, 2, 10]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

**También podemos ejecutar operaciones matriciales y del álgebra lineal texto en negrita**

Entre otras, podemos ejecutar las siguientes operaciones:

* Multiplicación matricial
* Producto punto
* Transpuesta de la matriz
* Determinando e inversa de una matriz


In [None]:
# Generemos algunos arreglos para trabajar con ellos:
u = np.array([3,4])
v = np.array([2,2])
A = np.array([[1,2], [3,4]])
B = np.array([[1,1],[2,2]])

print(f"Matriz A:\n {A},\nMatriz B:\n {B}")
print(f"Multiplicación elemento a elemento de matriz A y B:\n{A*B}")
print(f"Multiplicación matricial entre matriz A y B:\n{np.matmul(A,B)}")
print(f"Matriz A transpuesta es:\n {A.T}")
print(f"Determinande matriz A: {np.linalg.det(A)}")# en el módulo linalg de numpy se encuentran varias operaciones del álgebra lineal
print(f"Inversa de la matriz A:\n{np.linalg.inv(A)}")
print(f"Producto punto entre u y v: {np.dot(u,v)}")


**Arrays 2D**

In [None]:
np_2d = np.array([[65.5, 45.85,45.9],[32.78,48.7,4.8]])
print(np_2d)
print(np_2d.shape)    # atributo shape, dimension del array, devuelve una tupla con valores de filas y columnas
print(np.shape(np_2d))# usando la función de numpy, equivalente a lo anterior

In [None]:
# indexar elementos del arreglo 2D
print(np_2d[0])  # primera fila
print(np_2d[0,0])# elemento primera fila, primera columna

In [None]:
print(np_2d[:,0:2])# solo primeras dos columnas

In [None]:
print(np_2d.flatten())# "estira" el array

###  Funciones para crear arrays de forma rápida

In [None]:
# 1. Crear un array de ceros
np.zeros(10,dtype = int)

In [None]:
# 2. Crea un array 2D de unos con tipo de variable de punto flotante y de dimensión 3x5
np.ones((3,5),dtype=float)

In [None]:
# 3. Creamos un array de 3x5 completado solo con el valor 3.14
np.full((3,5),3.14)

In [None]:
# 4. Creamos un array que contiene una secuencia lineal
#    iniciando en 0, terminando en 20 con saltos de 2 en 2 para los valores
#    en este caso la secuencia no incluye el último valor

np.arange(0,20,2)

In [None]:
# 5. Creamos un arreglo de 5 elementos equiespaciados entre 0 y 1
np.linspace(0,1,5)

In [None]:
# 6. Creamos un array de 5 valores aleatorios entre 0 y 1 distribuidos uniformemente
np.random.random(5)

In [None]:
# 7. Creamos un array de 5 valores aleatorios distribuidos normalmente con media 0 y desviación estándar 1
np.random.normal(0,1,5)

**Nota**: Los generadores de números aleatorios anteriores son útiles para simular ruido en señales, por ejemplo, un ruido blanco tendrá una distribución normal que podemos generar con la función `np.random.normal`

A veces por temas de reproducibilidad de los experimentos puede ser útil generar los mismos números aleatorios cada vez que se ejecuta el código, para esto podemos usar la función `np.random.seed()` que establece una semilla para el algoritmo generador de números aleatorios.

In [None]:
np.random.seed(1)
array1 = np.random.rand(3)
array2 = np.random.rand(3)

np.random.seed(1)
array3 = np.random.rand(3)

print(f"arreglo 1: {array1}")
print(f"arreglo 2: {array2}")
print(f"arreglo 3: {array3}")

In [None]:
# 8. Creamos una matriz identidad de 3x3
np.eye(3)

Otras utilidades para crear arrays: [here](https://numpy.org/doc/stable/user/basics.creation.html)

### Funciones útiles para resumir valores desde arrays

La tabla siguiente muestra una lista de funciones útiles para disponibles en Numpy para estas operaciones de agregación:

|Nombre Función      |   Versión NaN-safe  | Descripción                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Calcula la suma de los elementos                        |
| ``np.prod``       | ``np.nanprod``      | Calcula el produtcto de los elementos                   |
| ``np.mean``       | ``np.nanmean``      | Calcula el promedio de los elementos                      |
| ``np.std``        | ``np.nanstd``       | Calcula la desviación estándar                    |
| ``np.var``        | ``np.nanvar``       | Calcula la varianza                              |
| ``np.min``        | ``np.nanmin``       | Encuentra el valor mínimo                            |
| ``np.max``        | ``np.nanmax``       | Encuentra el valor máximo                            |
| ``np.argmin``     | ``np.nanargmin``    | Encuentra el ínidice del valor mínimo                   |
| ``np.argmax``     | ``np.nanargmax``    | Encuentra el índice del valor máximo                   |
| ``np.median``     | ``np.nanmedian``    | Calcula la mediana de los elementos                    |
| ``np.percentile`` | ``np.nanpercentile``| Calcula el/los percentil/es de los elementos en el eje dado      |
| ``np.any``        | N/A                 | Evalúa si alguno de los elementos son verdaderos        |
| ``np.all``        | N/A                 | Evalúa si todos los elementos son verdaderos        |


In [None]:
# Ejemplo
M = np.random.random((3, 4)) # genera una matriz de números aleatorios en el rango de [0.0,1.0) con distribución uniforme
print(M)

In [None]:
# Por defecto, estas funciones ejecutarán la operación considerando todos los elementos del array
M.sum()

In [None]:
# también se puede ejecutar la operación a lo largo de un eje definido, por ejemplo
# podemos encontrar el valor mínimo de cada columna especificando axis = 0:
M.min(axis = 0)

In [None]:
# de forma similar, podemos encontrar el máximo dentro de cada fila
M.max(axis = 1)

En el caso anterior, el argumento axis indica la dimensión del arreglo que desaparecerá, en lugar de la dimensión que se retormará para ejecutar la operación. Por ejemplo axis = 0 indica que el primer eje (filas) será eliminado, y que en el caso de un arreglo 2D, los valores dentro de las columnas será resumidos con la operación.

### Guardar y cargar archivos de datos a partir de arrays

Sintaxis usando las funciones save y load de numpy

```np.save('data.npy', num_arr)``` # save

```new_num_arr = np.load('data.npy')``` # load

In [None]:
Data_norm = np.random.normal(0,1,100) # generamos un array de números aleatorios distribuidos normalmente
print(Data_norm[0:5]) # 5 primeros elementos

In [None]:
# En seguida lo respaldamos en un archivo .npy
np.save('data.npy', Data_norm)

In [None]:
# luego cargamos los datos para seguir trabajando sobre ellos
Data_norm2 = np.load('data.npy')
print(Data_norm2[0:5])

## **2. Matplotlib**

Esta librería de visualización de datos se construye sobre NumPy de pytyon y permite también trabajar con el conjunto de funciones más amplio de SciPy. Fue concebido para tener un estilo de gráficos similar al que entrega Matlab.
Documentación de Matplotlib [aquí](https://matplotlib.org/stable/index.html)

<img src=https://matplotlib.org/_static/images/logo2.svg width="500">

[fuente](https://matplotlib.org/)

###**Ejemplo gráfico simple**

In [None]:
import matplotlib.pyplot as plt

year = [1950,1970,1990,2010]
pop  = [2.59,3.692,5.65,20.45]

In [None]:
plt.figure(figsize=(8,5))
#plt.plot(year,pop,'bo--')# creamos un gráfico con puntos azules unidos por lineas segmentadas
                          # para agregar más de una curva podemos seguir añadiendo las combinaciones xy dentro de la función
plt.scatter(year,pop,marker = 'd', s = 200, c = 'r')# creamos un gráfico de dispersión entre las variables


plt.xlabel('Years')
plt.ylabel('Population')
plt.title('World Population')

# guardamos la imagen generada anteriormente
plt.savefig('Scatterplot.png',dpi = 300) #  ojo, llamar antes de plt.show()
plt.show()

* Documentación de la función  [plot()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html) y de la función  [scatter()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html)

* Otros ejemplos: [aquí](https://jakevdp.github.io/PythonDataScienceHandbook/04.02-simple-scatter-plots.html)

###**Ejemplo gráfico de barras**

In [None]:
plt.figure(figsize=(5,5),dpi=100) # los dpis: "dots per inch"
                                  # plt.figure es importante para ajustar tamaños de las imágenes

labels = ['A','B','C']
values = [1,4,2]

bars = plt.bar(labels,values)

patterns = ['/','O','*']

for bar in bars:
    bar.set_hatch(patterns.pop(0))

plt.show()

###**Ejemplo Subplots**

In [None]:
x1 = np.linspace(0.0, 5.0)
x2 = np.linspace(0.0, 2.0)

y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
y2 = np.cos(2 * np.pi * x2)

fig, (ax1, ax2) = plt.subplots(2, 1,figsize=(5,5),dpi = 100)
fig.suptitle('Una figura con 2 subplots')

ax1.plot(x1, y1, 'o-b')
ax1.set_ylabel('Oscilación amortiguada')

ax2.plot(x2, y2, '.-r')
ax2.set_xlabel('tiempo (s)')
ax2.set_ylabel('Oscilación')

plt.show()

In [None]:
# Otra forma de hacer lo mismo
x1 = np.linspace(0.0, 5.0)
x2 = np.linspace(0.0, 2.0)

y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)
y2 = np.cos(2 * np.pi * x2)

plt.figure(figsize=(5,5),dpi=100)

plt.subplot(2, 1, 1)
plt.plot(x1, y1, 'o-b')
plt.title('Una figura con 2 subplots')
plt.ylabel('Oscilación amortiguada')

plt.subplot(2, 1, 2)
plt.plot(x2, y2, '.-r')
plt.xlabel('tiempo (s)')
plt.ylabel('Oscilación')

plt.show()

###**Algo sobre imágenes:**



Con matplotlib también podemos cargar y desplegar imágenes. Más adelante usaremos otras librerías para realizar otras operaciones, pero por ahora, es suficiente para ejemplificar que las imágenes se cargan en python en formato de arreglos NumPy.

Notar que con matplotlib solo podemos cargar imágenes en formato png, para cargar imágenes en otro formato, tendremos que ocupar otras librerías como skimage, scipy u OpenCV, iremos viendo algunas de estas a lo largo del curso.

In [None]:
import matplotlib.pyplot as plot
from matplotlib.image import imread

# Ejemplo, carguemos una imagen desde internet
img = imread("https://static.wikia.nocookie.net/reinoanimalia/images/1/10/Dragon_azul_2.png/revision/latest?cb=20130729213202&path-prefix=es")# nota: con imread solo podemos leer imágenes en .png
print(img)
print(f"\nLa imagen cargada es de typo {type(img)} y de un tamaño {img.shape}")


In [None]:
#Despleguemos la imágen y sus distintos planos de color
titulos   = ["Imagen RGB", "Canal Rojo", "Canal Verde", "Canal Azul"]
images    = [img, img[:,:,0], img[:,:,1], img[:,:,2]]
CMAPS     = [None,"gray","gray","gray"]
fig, axes = plt.subplots(1,4,figsize = (20,3))

for ax,titulo, imagen, CMAP in zip(axes,titulos,images,CMAPS):
    ax.imshow(imagen,cmap = CMAP)
    ax.set_title(titulo)
    ax.set_xticks(())
    ax.set_yticks(())

**HISTOGRAMAS** de los canales de color de la imagen anterior


In [None]:
plt.figure(figsize=(5,5),dpi=100)
img2  = 255*img.copy()# solo para indicar el rango de valores de los pixeles codificados en 8bits (0 indica negro, 255 indica blanco), ya que la imagen original venía normalizada con valores entre 0 y 1

plt.hist(img2[:,:,0].ravel(), bins = 256, alpha = 0.5,label = 'Canal Rojo', color = 'r',range = (0,256))# Qué hace ravel()
plt.hist(img2[:,:,1].ravel(), bins = 256, alpha = 0.5,label = 'Canal Verde',color = 'g',range = (0,256))
plt.hist(img2[:,:,2].ravel(), bins = 256, alpha = 0.5,label = 'Canal Azul', color = 'b',range = (0,256))

plt.title('Histograma de los tres canales de color de la imagen')
plt.xlabel('Niveles de escala de gris')
plt.ylabel('Frecuencia de los pixeles para cada nivel de gris')
plt.legend()
plt.show()

## Ejercicios de Práctica

**Ejercicio 1**. NumPy tiene una función para calcular la desviación estándar, `np.std()`, pero aquí escribiremos nuestra propia versión para trabajar con arreglos 1-d (vector). La desviación estándar es una medida estadística del "ancho" de la distribución de los números en el vector.

Dado un arreglo, $a$,y un promedio $\bar{a}$, la desviación estándar es:

$$
\sigma = \left [ \frac{1}{N} \sum_{i=1}^N (a_i - \bar{a})^2 \right ]^{1/2}
$$

Escribir una función que calcule la desviación estándar para un arreglo de entrada, `a`:

  * Primero calcular el promedio de los elementos en `a` para definir $\bar{a}$
  * Luego calcular la suma sobre los cuadrados de $a - \bar{a}$
  * Luego dividir la suma por el número de elementos en el arreglo
  * Finalmente tomar la raíz cuadrada (pueden usar `np.sqrt()`)
  
Probar tu función sobre un arreglo aleatorio, y comparar el resultado con el entregado por la función integrada `np.std()`

In [None]:
# Código aquí

**Ejercicio 2**. Gráfica de funciones de activación. Cuando veamos redes neuronales, nos encontraremos con algunas funciones no lineales especiales usadas en la modelación de las neuronas artificiales, la siguiente figura muestra algunas de las más usadas y sus definiciones:

|Sigmoide      |  Tanh  | ReLU                                   |
|-------------------|---------------------|-----------------------------------------------|
| <img src=https://stanford.edu/~shervine/teaching/cs-229/illustrations/sigmoid.png?c91b6e5a7d4e78e95880bcf4e39889df width="200"> | <img src=https://stanford.edu/~shervine/teaching/cs-229/illustrations/tanh.png?22ac27f27c510c6414e8a3bb4aca2d80 width="200"> | <img src=https://stanford.edu/~shervine/teaching/cs-229/illustrations/relu.png?6c1d78551355db5c6e4f6f8b5282cfa8 width="200">
|$$g(z) = \frac{1}{1+e^{-z}}$$| $$g(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}}$$| $$g(z)=max(0,z)$$

Graficar las funciones anteriores, etiquetar apropiadamente los ejes y agregar un título a cada una.

Tip: definir una función de python para cada fórmula y trabajarlas con `numpy` arrays.

In [None]:
# Código aquí

**Ejercicio 3**. Subir una imagen y transformarla a escala de grises de acuerdo a la siguiente fórmula:


$I_{gris} = 0.2126*R_{channel} + 0.7152*G_{channel} + 0.0722*B_{channel}$


Algunos detalles sobre la percepción de la escala de grises y la justificación de la ecuación anterior se pueden encontrar [aquí](https://en.wikipedia.org/wiki/Grayscale#Colorimetric_(perceptual_luminance-preserving)_conversion_to_grayscale)

**Nota**: desplegar la imagen en escala de grises y desplegar una barra que indique los valores de los niveles de gris, el comando `plt.colorbar()` puede ayudar.