# Clase 201 - Introducción al Aprendizaje Máquina

> Machine Learning
>
> [Alan Badillo Salas](mailto:alan@nomadacode.com)
>
> Github: [https://github.com/dragonnomada/ml-2023](https://github.com/dragonnomada/ml-2023)

**Contenido**

* ¿Qué es el aprendizaje maquina?
* ¿Por qué usar aprendizaje de máquina? 
* ¿Cómo aprenden las máquinas? 
* Tipos de aprendizaje
* Formas de implementación
* Pruebas y validación
* Problemáticas del aprendizaje de máquina

## ¿Qué es el aprendizaje maquina?

### Máquinas y decisiones

El *aprendizaje máquina* es un conjunto de técnicas y herramientas que le permiten a una *máquina* o algoritmo tomar decisiones de forma autónoma, basado en métodos estadísticos, heurísticos o de inteligencia artificial.

Las *máquinas* son soportes de programas capaces de realizar cómputos basados en instrucciones. Estas pueden poseer fuentes de adquisición de datos tales como memorias físicas o virtuales, peticiones a internet, sensores o dispositivos de entrada. 

Con los datos adquiridos las *máquinas* pueden aplicar operaciones para producir salidas impresas, reportes gráficos y de texto, respuestas a internet, actuadores o dispositivos de salida. 

Cuando una *máquina* es capaz de trabajar de forma autónoma desde la adquisición de datos y hasta la salida de datos, se dice que es una *máquina* autónoma. Similar a un algoritmo que dada una entrada produce una salida.

Si la *máquina* es capaz de resolver los problemas intermedios y producir los mejores resultados o mostrar un buen desempeño al solucionar las tareas, entonces diremos que la *máquina* es una **máquina inteligente**.

Para construir *máquinas* ávidas capaces de solucionar problemas complejos por sí mismas, debemos utilizar técnicas de *aprendizaje máquina*, para programar *máquinas autónomas*, que basadas en métodos estadísticos y de inteligencia artificial, logren solucionar problemas consistentes a su entrada y salida de forma automatizada. 

> Uno de los objetivos principales del *aprendizaje máquina* es lograr programar *máquinas abstractas* que sean autónomas en la toma de decisiones, para llevar los datos desde una entrada, hasta una salida.

### Ejercicio: E201 - Consultar la definición de aprendizaje máquina

Pregunta a ChatGPT o Bing qué es el aprendizaje máquina resumido a dos párrafos máximo y anota la respuesta aquí

> E201 - SOLUCIÓN AQUÍ

## ¿Por qué usar aprendizaje de máquina?

### Procesos automatizados

Uno de los grandes objetivos de la industria es lograr automatizar al 100% los procesos involucrados en operación y desarrollo.

Los sistemas inteligentes, basados en *inteligencia artificial*, difieren a los sistemas basados en *aprendizaje máquina*.

Podemos pensar los sistemas basados en *inteligencia artificial* como agentes inteligentes capaces de resolver objetivos multipropósito, así como lo haría un trabajador humano.

A diferencia de resolver objetivos generales, los sistemas basados en *aprendizaje máquina* buscan resolver problemas específicos y servir como herramientas de análisis, reconocimiento de patrones, reducción de dimensionalidad, clusterización, clasificación y demás técnicas involucradas directamente a los datos.

Aunque tanto los *sistemas basados en inteligencia artificial*, como los *sistemas basados en aprendizaje automático* son similares, e incluso convergen en redes neuronales y otras técnicas; estos difieren bastante en cuanto propósito.

Podríamos resumir lo siguiente:

> Un *sistema basado en inteligencia artificial* busca generar agentes inteligentes capaces de resolver tareas generales.

> Un *sistema basado en aprendizaje máquina* busca generar máquinas autónomas capaces de resolver tareas específicas.

Mediante el correcto uso del *aprendizaje máquina* podemos conseguir automatizar la toma de decisiones basadas en datos.

### Ejercicio: E202 - Consultar las aplicaciones del aprendizaje máquina

Pregunta a ChatGPT o Bing cuáles son las aplicaciones del aprendizaje máquina dentro de la industria

> E202 - SOLUCIÓN AQUÍ

## ¿Cómo aprenden las máquinas?

### Funciones y máquinas abstractas

Una *función* o *aplicación* matemática es una *máquina abstracta*, capaz de transformar el espacio de entrada, en el espacio de salida.

Por ejemplo:

> Ejemplo de una función cuadrática

$f(x) = x^2$

Define una función $f: ℜ → ℜ$ que transforma los valores de un espacio $ℜ$ a valores del espacio $ℜ$. Así, esta máquina abstracta es capaz de convertir valores de un espacio lineal a un espacio cuadrático, es decir, transformar los valores de la recta a la parábola.

> Se muestra una recta que representa el espacio de entrada

![Recta](https://www.superprof.es/diccionario/wp-content/uploads/2020/01/función-identidad-1.gif)

> Se muestra una parábola que representa el espacio de salida

![Parábola](https://mathcracker.com/images/legacy/parabola.png)

Si tomamos un punto en la recta, podemos encontrar un punto en la parábola.

### Algoritmos inteligentes

Un *algoritmo* también es una *máquina abstracta*, que recibe datos de entrada y en una secuencia de pasos bien definidos es capaz de producir una salida de datos.

Los algoritmos no son muy diferentes a las funciones, más bien extienden las funciones para trabajar en espacios de datos y aplicar operaciones que una máquina sea capaz de realizar, es decir, a diferencia de la función matemática, los algoritmos no están basados a trabajar en espacios de números, sino en espacios de datos.

Por ejemplo:

> Ejemplo de un algoritmo de ordenamiento

```
ENTRADA: x := LISTA DE NÚMEROS

y := NUEVA LISTA DE NÚMEROS VACÍA

PARA t <- 1 HASTA [TAMAÑO x]:
  i <- BUSCAR ÍNDICE DE ELEMENTO MENOR EN x
  xi <- SELECCIONAR ELEMENTO DE x CON ÍNDICE i
  AGREGAR xi A y
  ELIMINAR ELEMENTO CON ÍNDICE i EN x

IMPRIMIR y
```

A diferencia de las funciones matemáticas, un algoritmo es capaz de acceder a contextos, memoria, operaciones y otros algoritmos soportados por la máquina. Generando así instrucciones precisas para crear programas que pueda interpretar la máquina y resolver tareas o actividades.

Si el algoritmo permite que la máquina tome decisiones de forma autónoma y muestre un buen desempeño, es decir, una eficiencia que cuantifique las veces que correctamente resuelve la tarea con exito; entonces diremos que el algoritmo con el que fue programada la máquina es un **algoritmo inteligente**.

### Ejercicio: E203 - Diseñar una función matemática

Diseña una función matemática que dado dos puntos en el espacio $\Re^2$ determine su distancia.

Pista:

Un punto en el espacio $\Re^2$ está dado por la forma:

$x \in \Re^2 ⇒ x = (x_1, x_2)$ 

Y otro punto en el espacio $\Re^2$ está dado por la forma:

$y \in \Re^2 ⇒ y = (y_1, y_2)$

Entonces tenemos que diseñar una función $f(x, y): \Re^2 x \Re^2 -> \Re$ que dado dos puntos devuelva la distancia entre ellas.

Prueba utilizar el teorema de pitágoras sobre los puntos guiándote por la siguiente imagen:

![Distancia entre dos puntos](https://www.neurochispas.com/wp-content/uploads/2021/08/diagrama-para-derivar-la-formula-de-la-distancia-entre-dos-puntos.png)

**NOTA:** Ten cuidado con las coordenadas, ya que en la imagen el punto $A = (x_1, y_1)$ y nuestro punto es $x = (x_1, x_2)$

> E203 - SOLUCIÓN AQUÍ

### Ejercicio: E204 - Diseñar un algoritmo inteligente

Diseña un algoritmo inteligente para resolver el siguiente problema:

```
En una fábrica alimenticia hay una banda donde son transportadas manzanas que son descargadas del Tambo A y llegan a tres posibles destinos:

- El Tambo B1 que contendrá las manzanas rojas.
- El Tambo B2 que contendrá las manzanas verdes.
- El Tambo B3 que contendrá las manzanas amarillas.

Antes que la banda sea dividida en las tres bandas que llegan a los tambos B1, B2 y B3, hay un bifucador, el cuál consiste en una paleta capaz de moverse en el ángulo -45°, 0° y +45°.

Si el ángulo de la paleta del bifurcador apunta a -45°, entonces la manzana caerá en el Tambo B1, si apunta a 0° caerá en el Tambo B2 y si apunta +45° caerá en el Tambo B3.

Antes del bifurcador se forma un cuello de botella para que pase cada manzana y es relentizada para pasar cada 500 milisegundos, tiempo suficiente para que la paleta golpee la manzana y gire en otro ángulo.

El bifurcador posee un sensor de color que arroja los siguientes valores:

- R = {0, 1}
- G = {0, 1}
- B = {0, 1}

Con lo que podemos determinar si el color es ROJO (R=1, G=0, B=0), VERDE (R=0, G=1, B=0) o AMARILLO (R=1, G=1, B=0)

Se requiere un algoritmo que tome como entrada el color (R, G, B) y produzca como salida el ángulo -45°, 0° o +45° que recibirá la paleta.
```

Escribe tu algoritmo en lenguaje natural, teniendo en cuenta instrucciones que si pueda realizar una máquina.

Si no logras darle inteligencia, asume un algoritmo clásico basado en codicionales.

**NOTA:** Aunque tu algoritmo pueda ser inteligente no significa que sea automático, es decir, que aprenda por sí mismo o que sea autónomo, es decir, que actue por sí mismo.


> E204 - SOLUCIÓN AQUÍ

## Formas de implementación

### Técnicas del Aprendizaje Automático

Existen diversas técnicas del aprendizaje automático que utilizan diversos métodos estadísticos, determinísticos, heurísticos y de optimización, para resolver clases de problemas generalizados. 

En la siguientes tablas se muestran los principales algoritmos del aprendizaje máquina.

> Aprendizaje Supervisado

| Algoritmo | Tipo | Método | Modalidad | Descripción |
| --------- | ---- | ------ | --------- | ----------- |
| LinearRegression | Supervisado | Regresión | Determinístico | Busca la recta más cercana a los puntos |
| LogisticRegression | Supervisado | Regresión | Determinístico | Busca la probabilidad de que los puntos sean la clase binaria |
| Ridge | Supervisado | Regresión | Determinístico | Busca la recta más cercana a los puntos penalizando los pesos con un factor $α$, para hacerlos más robustos |
| RidgeClassifier | Supervisado | Clasificación | Heurístico | Es la variante de `Ridge` para clasificación |
| BayesianRidge | Supervisado | Regresión | Heurístico | Determina el mejor valor para $α$ extraído de los datos usando el método bayesiano |
| Lasso | Supervisado | Regresión | Determinístico | Funciona similar a `Ridge` pero utilizando la norma $l_1$ en lugar de $l_2$ produciendo coeficientes centrados |
| ElasticNet | Supervisado | Regresión | Determinístico | Es una combinación de `Ridge` y `Lasso` que utiliza los factores $α = a + b$ y $ρ = \frac{a}{a + b}$ |
| TweedieRegressor | Supervisado | Regresión | Determinístico | Es un modelo generalizado para las regresiones basadas en distribuciones: `power=0` Normal, `power=1` Poisson, `power=2` Gamma, `power=3` Gaussiana Inversa |
| SGDRegressor | Supervisado | Regresión | Heurístico | Es la regresión usando el método del Descenso por Gradiente Estocástico |
| SGDClassifier | Supervisado | Clasificación | Heurístico | Es la variante de `SGDRegressor` para la clasificación |
| Perceptron | Supervisado | Clasificación | Heurístico | Aplica la clasificación para una capa neuronal |
| LinearSVR | Supervisado | Regresión | Determinístico | Aplica la regresión usando soportes vectoriales con kernel lineal |
| SVR | Supervisado | Regresión | Determinístico | Aplica la regresión usando soportes vectoriales con kernel específico |
| LinearSVC | Supervisado | Clasificación | Heurístico | Aplica la regresión usando soportes vectoriales con kernel lineal |
| SVC | Supervisado | Clasificación | Heurístico | Aplica la regresión usando soportes vectoriales con kernel específico |
| KNeighborsRegressor | Supervisado | Regresión | Determinístico | Aplica la regresión usando el método de los k-vecinos |
| RadiusKNeighborsRegressor | Supervisado | Regresión | Determinístico | Aplica la regresión usando el método de los k-vecinos centrados en un punto |
| KNeighborsClassifier | Supervisado | Clasificación | Heurístico | Aplica la clasificación usando el método de los k-vecinos |
| RadiusKNeighborsClassifier | Supervisado | Clasificación | Heurístico | Aplica la clasificación usando el método de los k-vecinos |
| BernoulliNB | Supervisado | Clasificación | Heurístico | Aplica la clasificación para determinar la probabilidad de que un punto pertenezca a una clase binaria usando el Ingenuo Bayesiano |
| GaussianNB | Supervisado | Clasificación | Heurístico | Aplica la clasificación para determinar la probabilidad de que un punto pertenezca a una clase de forma Gaussiana usando el Ingenuo Bayesiano |
| DecisionTreeRegressor | Supervisado | Regresión | Heurístico | Aplica la regresión usando árboles de decisión |
| DecisionTreeClassifier | Supervisado | Clasificación | Heurístico | Aplica la clasificación usando árboles de decisión |
| MLPRegressor | Supervisado | Regresión | Heurístico | Aplica la regresión usando redes neuronales |
| MLPClassifier | Supervisado | Clasificación | Heurístico | Aplica la clasificación usando redes neuronales |

> Aprendizaje No-Supervisado

| Algoritmo | Tipo | Método | Modalidad | Descripción |
| --------- | ---- | ------ | --------- | ----------- |
| KMeans | Unsupervisado | Clusterización | Semi-Heurístico | Encuentra k-categorías con la mínima distancia entre los puntos y los k-centroides |
| AffinityPropagation | Unsupervisado | Clusterización | Determinístico | Encuentra n-categorías pasando mensajes entre pares de puntos para determinar afinidad de estar en el mismo cluster |
| MeanShift | Unsupervisado | Clusterización | Determinístico | Encuentra n-categorías desplazando k-centroides hacia la media de los puntos en vecindarios |
| DBSCAN | Unsupervisado | Clusterización | Determinístico | Encuentra n-categorías formando núcleos de muestras para cada cluster basado en un mínimo de muestras y una distancia entre vecindarios |
| PCA | Unsupervisado | Reducción de Dimensionalidad | Determinístico | Transforma m-características d-características ($d << m$) con máxima varianza |
| KernelPCA | Unsupervisado | Reducción de Dimensionalidad | Determinístico | Transforma m-características d-características ($d << m$) con máxima varianza usando un kernel específico |
| EmpiricalCovariance | Unsupervisado | Estimación | Determinístico | Calcula la matriz de covarianza |










### Ruta de Aprendizaje

El siguiente mapa nos orienta sobre cuál técnica trabajar para obtener buenos resultados:

![Mapa de Aprendizaje Automático](https://scikit-learn.org/stable/_static/ml_map.png)

### Ejercicio: E205 - Generalización de la recta

Aprende como generalizar una recta en el espacio $\Re^n$ y contesta las preguntas.

**Generalización de la recta en $\Re^n$**

Un punto que pertenece a una recta en $\Re^n$ lo podemos pensar como un punto constante que pertenece a la recta más un vector constante paralelo a la recta, escalado por algún factor desconocido.

En la siguiente imagen se puede observar un vector dentro de una recta. El vector parte de un punto constante sobre la recta y sigue durante cierto factor (la magnitud del vector) hasta llegar a otro punto de la recta.

![Vector recta](https://calculo.cc/temas/temas_geometria_analitica/geo_metrica/imagenes/teoria/direc_rectplano/dir_rectas.gif)

Entonces podemos escribir la ecuación vectorial para un punto sobre la recta como:

$x = ρ_0 + λ \cdot ρ$

Donde:

- $x \in \Re^n$ es un punto cualquiera sobre la recta
- $ρ_0 \in \Re^n$ es un punto constante sobre la recta
- $λ \in \Re$ es una constante (el factor de distancia sobre la recta entre el punto cualquiera y el punto constante)
- $ρ \in \Re^n$ es un vector constante que representa la pendiente generalizada de la recta (vector pendiente)


**Preguntas**

* Dada una recta en $\Re^2$ paralela al vector pendiente $(2, 1)$ que pasa por el punto $(0, 1)$, ¿Cuáles son los puntos para $λ = 0$, $λ = \frac{1}{2}$, $λ = 1$, $λ = 2$, $λ = -\frac{1}{2}$, $λ = -1$ y $λ = -2$?
* Dada una recta en $\Re^2$ paralela al vector pendiente $(2, 1)$ que pasa por el punto $(0, 1)$, ¿Cuál es el valor de $λ$ para llegar al punto $(10, 6)$?
* Dada una recta en $\Re^2$ que pasa por el punto $(5, 3)$ y el punto $(12, 7)$, ¿Cuál es el valor del vector pendiente $ρ$ considerando $λ = 1$? ¿Qué punto se encontraría en $λ = \frac{1}{2}$?
* Para una recta en $\Re^2$ ¿Cuál es la distancia entre el punto $x$ y el punto $ρ_0$? Pista: Usa la norma euclidiana.
* Para una recta en $\Re^2$ ¿Cuál es la distancia entre dos puntos $x_1$ y $x_2$ sobre la misma recta? Pista: Usa un sistema de ecuaciones simultáneas aplicando la resta y aplica la norma euclidiana.
* Dada una recta en $\Re^2$, paralela al vector pendiente $(2, 1)$ que pasa por el punto $(0, 1)$, ¿Cuál es la distancia entre el punto con $λ = 1$ y el punto con $λ = 3$?


> E205 - SOLUCIÓN AQUÍ

## Tipos de aprendizaje

### Aprendizaje Supervisado

El aprendizaje supervisado tiene como objetivo ajustar modelos a los datos conocidos, para poder predecir resultados basados en datos desconocidos.

Los modelos de aprendizaje supervisado se dividen en dos:

- **Regresión** - Tiene el objetivo de predecir un eje $y \in \Re$ a partir de múltiples ejes $x_1, x_2, ..., x_m \in \Re$ ajustando una recta a los datos.
- **Clasificación** - Tiene el objetivo de predecir una clase $y \in ℕ$ a partir de múltiples ejes $x_1, x_2, ..., x_m \in \Re$ ajustando un modelo de decisión.

La regresión es utilizada para estimar el valor de una variable, como resultado de otras variables, es decir, que suponemos que una variable $y$ es la combinación lineal o no-lineal de otras variables $x_1, x_2, ..., x_m$.

La clasificación es utilizada para estimar la categoría de un conjunto de variables, es decir, encontrar la categoría $y$, como resultado de otras variables, es decir, que suponemos que una categoría $y$ es elegida dado los valores de otras variables $x_1, x_2, ..., x_m$.

Se considera aprendizaje supervisado ya que los datos deben estar previamente muestreados (en el caso de la regresión) o etiquetados/categorizados (en el caso de la clasificación).

Esto significa que los modelos se ajustarán a nuestros datos, tomando las $n$ muestras $x_1^i, x_2^i, ..., x_m^i$ para $1 \leq i \leq n$. Cada muestra representará un vector de datos $(x_1, x_2, ..., x_m)$ con el que prediciremos a $y$.

Una vez ajustado el modelo, podremos predecir muestras no contempladas en el entrenamiento, para así predecir el valor de $y$ estimado para esa muestra desconocida.

Podremos validar qué tan confiable es el modelo con pruebas de validación.

### Aprendizaje No-Supervisado

El aprendizaje no-supervisado o unsupervisado tiene el objetivo de extraer información automática de nuestros datos.

Los modelos de aprendizaje no-supervisado se dividen en tres:

- **Clusterización** - Tiene el objetivo de encontrar n-categorías en las que podamos agrupar nuestros datos, es decir, etiquetar automáticamente nuestros datos.
- **Reducción de Dimensionalidad** - Tiene el objetivo de reducir el número de características (ejes de análisis) para aumentar el procesamiento de los modelos de aprendizaje, es decir, en lugar de entrenar a $y$ con $x_1, x_2, ..., x_m$ usaremos solo $x_1, x_2, ..., x_d$ con $d << m$.
- **Estimación** - Tiene el objetivo de hacer estimaciones cruzadas sobre nuestros datos, para descubrir colinealidad, independencia y varianza entre los datos.

La clusterización es utilizada descubrir automáticamente a que categoría podría pertenecer una muestra $x_1^i, x_2^i, ..., x_m^i$ dado un conjunto de datos $x_1, x_2, ..., x_m$. Este etiquetado automático nos puede llevar a entrenar mejor las predicciones. Son segmentaciones de datos automáticas.

La reducción de la dimensionalidad es utilizada para disminuir el número de características, y extraer una matriz equivalente de máxima covarianza entre los datos, que nos permitirá entrenar modelos en espacios más pequeños.

La estimación nos permitirá analizar la matriz de covarianza para determinar si los ejes están correlacionados y sería bueno o no segmentar los datos. Si hay mucha covarianza, lo mejor sería aplicar reducción de la dimensionalidad, y si hay poca covarianza entre los ejes, lo mejor sería aplicar la clusterización.

### Ejercicio: 206 - Decisiones automáticas y clusterización

Grafica en una hoja los siguientes puntos:

**Nota:** Dibuja un plano cartesiano de $8x8$ unidades y coloca los puntos generados abajo. 

In [29]:
##
#
# Generador de 20 números clusterizados
#
# Por:      Alan Badillo Salas
# Contacto: alan@nomadacode.com
# Creado:   Martes 8, junio 2023
#
##

import numpy as np

points = []

for i in range(20):
  if np.random.rand() > 0.5:
    x = 4 + np.random.uniform(-3, 3)
    y = 10 + np.random.uniform(-3, 3)
  else:
    x = 13 + np.random.uniform(-1, 1)
    y = 3 + np.random.uniform(-0.5, 0.5)
  points.append((x, y))

print("+-{:^5}-+-{:^5}-+".format("-----", "-----"))
print("| {:^5} | {:^5} |".format("X", "Y"))
print("+-{:^5}-+-{:^5}-+".format("-----", "-----"))
for x, y in points:
  print("| {:>5.1f} | {:>5.1f} |".format(x, y))
print("+-{:^5}-+-{:^5}-+".format("-----", "-----"))

+-------+-------+
|   X   |   Y   |
+-------+-------+
|  14.0 |   3.0 |
|   5.0 |   9.2 |
|   6.4 |   8.2 |
|   6.3 |   9.1 |
|   3.5 |  11.1 |
|   5.0 |   7.4 |
|   2.7 |   9.9 |
|   2.9 |  11.9 |
|   3.6 |   9.0 |
|  13.6 |   3.1 |
|  13.3 |   3.5 |
|   5.3 |  11.7 |
|   3.6 |   7.2 |
|  12.3 |   2.9 |
|  12.1 |   2.9 |
|  12.4 |   2.8 |
|  12.8 |   2.8 |
|  13.9 |   2.5 |
|  13.0 |   2.8 |
|  13.7 |   2.7 |
+-------+-------+


1. Traza una recta que separe lo mejor posible a los puntos
2. Coloca una x dónde consideres que es el centro de los puntos de cada grupo
3. Encierra en un círculo u óvalo los puntos de cada grupo

---



> E206 - ENTREGA LA HOJA DE APOYO CON TU NOMBRE Y LA GRÁFICA

## Pruebas y validación

### Partir los datos de entrenamiento y los datos prueba

Una técnica común para validar la regresión o clasificación es partir los datos (muestras) en dos conjuntos.

- **Conjunto de entrenamiento** - Generalmente considera entre el $70\%$ y $90\%$ de las muestras según el volumen de datos. Este conjunto se utiliza para ajustar los modelos, dejando algunas muestras fuera del aprendizaje para validarlas posteriormente.
- **Conjunto de pruebas** - Generalmente considera entre el $10\%$ y $30\%$ de las muestras restantes con las que no se ajustó el modelo. Estas muestras permiten medir que tan buenas fueron las predicciones sobre muestras desconocidas para el modelo.

> Ejemplo de partición de datos en *sklearn*

```py
# Importamos la función de particionamiento
from sklearn.model_selection import train_test_split

# Matriz X de muestras (dataset de características)
X = [ 
  [...], # muestra 1
  [...], # muestra 2
  [...], # ...
  [...], # muestra n
]

# Vector y de objetivos (eje de análisis)
y = [ ... ] # n-etiquetas o n-resultados

# Dividimos el dataset al 75% de los datos
#
# X_train - dataset de características de entrenamiento
# X_test - dataset de características de prueba
# y_train - vector de objetivos de entrenamiento
# y_test - vector de objetivos de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y,
                        test_size=0.25, random_state=42)

# Creamos un modelo de entrenamiento ficticio
modelo = MODELO_APRENDIZAJE(parametros...)

# Ajustamos el modelo con los datos de entrenamiento
modelo.fit(X_train, y_train)

# Predecimos los objetivos para los datos de prueba
y_predict = modelo.predict(X_test)

# Para clasificación contamos los correctos (promedio)
correctos = (y_predict == y_test).avg()

# Para regresión estimamos el error cuadrático medio
error = ((y_predict - y_test) ** 2).std()

# Si hay más del 80% correctos es un buen clasificador

# Si el error es muy pequeño es un buen clasificador
```

### Generar validaciones automáticas

Otra estrategia para validar la presición de un modelo, es utilizar un ponderador cruzado, el cuál partirá automáticamente el conjunto de datos varias veces, para así generar puntajes de precisión en cada una.

Esto evita principalmente tener que partir manualmente los conjuntos y evaluar manualmente la precisión del modelo.

> Ejemplo de la ponderación cruzada en *sklearn*

```py
# Importamos la función de ponderación
from sklearn.model_selection import cross_val_score

# Creamos un modelo de entrenamiento ficticio
modelo = MODELO_APRENDIZAJE(parametros...)

# Obtenemos 5 puntajes con distintas particiones
scores = cross_val_score(modelo, X, y, cv=5)

# Obtenemos la media de los puntajes
scores.mean()

# Obtenemos la desviación estándar de los puntajes
scores.std()

# Si el puntaje es superior a 80% es un buen modelo
```

### Ejercicio: 207 - Calcular la varianza y desviación estándar

Calcula manualmente la varianza y desviación estándar del siguiente vector de datos:

$x = [1.6, 3.2, 2.8, 9.4, 5.6, 3.9, 4.2, 1.1, 2.6, 3.5]$

Usa las siguientes ecuaciones:

Varianza: 

$VAR(x) = \frac{1}{n} ∑_{i = 1}^{n} (x_i - \overline{x})^2$

Donde

- $VAR(x)$ es la varianza de los datos en $x$
- $n$ es el total de datos en $x$
- $x_i$ es el i-ésimo dato de $x$
- $\overline{x}$ es el promedio de los datos en $x$

Desviación estándar: 

$STD(x) = \sqrt{VAR(x)}$

Donde

- $STD(x)$ es la desviación estándar de los datos en $x$

Pista:

1. Obtén la suma de los datos en $x$
2. Obtén el primedio de los datos en $x$ dividiendo la suma entre el número de datos
3. Calcula la suma del primer dato menos el primedio elevado al cuadrado, más la suma del segundo dato menos el promedio elevado al cuadrado y así sucesivamente
4. Divide esa suma entre el número de datos para obtener la varianza
5. Obtén la raíz cuadrada de la varianza para obtener la desviación estándar



> E207 - SOLUCIÓN AQUÍ

## Problemáticas del aprendizaje de máquina

### Problemas comunes en el aprendizaje máquina

Los sistemas basados en aprendizaje automático tienen la intención de automatizar la toma de decisiones basados en los datos.

Generalmente usan técnicas de aprendizaje supervisado para ajustar modelos que aprendan el comportamiento de los datos, y así hacer predicciones de categorías o clases mediante clasificación de datos o valores en general mediante regresión de datos.

En el aprendizaje supervisado podemos encontrar los siguientes problemas:

1. **Baja cantidad de muestras** - Tenemos tan pocas muestras que es difícil ajustar los modelos de aprendizaje, por ejemplo, querer determinar si una imagen es de un perro o un gato con solo 20 muestras.
2. **Sobreajuste de datos** - Las muestras no están diversificadas y tienen a sobreajustar los resultados a esas muestras
3. **Ruido en los datos** - Los datos no están suficientemente limpios o se encuentran mal clasificados y confunden al modelo, por ejemplo, le enseñan que A = B, pero que A = C y no es capaz de tomar una decisión
4. **Exceso de características** - Los datos tienen tantas características para predecir una categoría, clase o valor que el modelo no converge
5. **Insuficiencia de características** - Los datos tienen tan pocas características para predecir una categoría, clase o valor que el modelo no converge, por ejemplo, querer predecir si un paciente tiene diabetes sabiendo su edad y sexo
6. **Alta colinealidad en los datos** - Los datos tienen muchas características colineales, es decir, de alta covarianza, lo que hace que las características efectivas sean menos, volviendo al problema anterior de *insuficiencia de características*.
7. **Datos no etiquetados** - Intentar forzar un modelo a muestras que no están etiquetadas.

En el aprendizaje no-supervisado también podemos encontrar los siguientes problemas:

1. **Demasiados clusteres** - Intentar predecir muchas categorías podría segmentar en conjuntos de bajo rendimiento y confundir a los clasificadores
2. **Muy pocos clusteres** - Intentar predecir pocas categorías podría no separar adecuadamente los datos y confundir a los clasificadores
3. **Muchas caracterísiticas para la clusterización** - Hay demasiadas características que el agrupamiento se vuelve complejo y falla
4. **Modelos lineales en la clusterización** - Usar modelos lineales hacen que los datos no se agrupen correctament
5. **Reducir demasiado el espacio** - Reducir el número de características tanto que se pierda información
6. **No interpretar correctamente la estimación** - No interpretar correctamente las covarianzas entre los ejes que conlleve a dejar de plantear una buena hipótesis

Algunos otros problemas son de rendimiento al usar modelos pesados que hagan el entrenamiento lento como las redes neuronales. 

También si no visualizamos previamente los datos corremos el riesgo de hacer un análisis a ciegas con resultados poco fiables.

### Ejercicio: E208 - Identificar la problemática

Identifica la problemática relacionada a los siguientes análisis:

1. Tener una característica con la temperatura y otra característica con el porcentaje de temperatura respecto a la temperatura máxima
2. Tener un conjunto de imágenes de dígitos escritos a mano donde algunos números 6 estén etiquetado como dígitos 5
3. Tener un conjunto de datos de estudiantes cursando múltiples materias e intentar predecir dos posibles materias según sus ubicaciones geoespaciales dentro del campus
4. Tener una base de datos de preferencias electorales encuestadas en una colonia que se denomina altamente partidista de uno de los 5 partidos, e intentar predecir por quién votaría de los 5 partidos
5. Tener una base de datos con 1,000 muestras de canciones con duración de 3 minutos en promedio e intentar predecir el género musical al que pertenece cada canción


> E208 - SOLUCIÓN AQUÍ