# Introducción a machine learning

## Qué es machine learning y su historia

- Modelos de ML **encuentran patrones en datos para resolver problemas.**
- Los modelos aprenden patrones de los features.
- Features son descriptores de tus datos que pueden ayudarte en la tarea que quieres resolver 
- **Machine learning** (ML) es un campo en crecimiento.

## Framework de ciencia de datos: herramientas para machine learning

### Terminología para ciencias de datos:
- Data: unidades de información o “hechos” de observaciones.
- Features: tipos de información acerca de tus observaciones. (ej: gender, height, etc).
- Row: observaciones individuales o muestras.
- Columns: features que describen tus observaciones.
- Outlier: punto(s) de datos o data point(s) que se comportan de forma extraña.
- Pre-processing: preparar datos para su uso en un modelo de machine learning
- ETL pipeline: framework de data science para extraer, transformar y cargar.


### Tipos de datos
- Numerical: su feature es un número de tipo entero o flotante
- Categorical: sus features representan una clase o tipo; usualmente representan como un mapeo de números o un "one-hot" vector.
- Image: su feature representa una imagen
- Text: su feature es en la forma de texto, sea corto (como Twitter) o largo (como en noticias).
- NaN: su feature es desconocido o perdido

## Tipos de modelos de machine learning

<img src='https://static.platzi.com/media/user_upload/MLAlgorithms-8dbc096a-dd73-48ce-bef9-42a56f2e0639.jpg' width=600>

### Aprendizaje supervisado

El modelo obtiene features de entrada y salida. Hay un target a predecir.

- **Regresión:** Target output es numérico. (advertising popularity prediction, estimación de esperanza de vida, pronóstico de temperatura, pronóstico de mercado)

- **Clasificación:** Target output es etiqueta. (Clasificación de imágenes, retención de clientes, detección de fraude de identidad, diagnósticos)

### Aprendizaje no supervisado

Objetivo desconocido, queremos encontrar estructura y grupos dentro de los datos.

- Clustering: Queremos encontrar grupos en los datos. (Segmentación de clientes, marketing dirigido, sistema de recomendaciones)

- Dimensionality reduction: Queremos encontrar que features de entrada en los datos son de ayuda. (Compresión significativa, visualización de big data)

### Casos de uso algoritmos de Machine Learnign
- Aprendizaje supervisado
    - Clasificación
        - Regresión logística
        - Random forest
    - Regresión
        - Regresión lineal
- Aprendizaje no supervisado
    - Dimension reduction:
        - PCA (principal component analisys) 
        -  T-SNE (t-Distributed Stochastic Neighbor Embedding)
    - Clustering: 
        - K-means
        - Hierarchical clustering

### Resumen

- Algoritmos de machine learning generalmente son supervisados o no supervisados
- Algoritmos supervisados predicen un target. Pueden ser regresión o clasificación
- Algoritmos no supervisados predicen patrones o estructura en los datos. Generalmente, son de clustering o dimensionality reduction

[Reto](./reto_1_procesando_un_dataset.ipynb)

# Algoritmos simples de machine learning

## La “receta” para aplicar algoritmos de machine learning

1. Proceso de decisión: como los modelos hacen una predicción, o retornan una repuesta, usando los parámetros
1. Función de error/coste" como evaluar si los parámetros en el modelo generan buenas predicciones.
1. Regla de actualización: como mejorar los parámetros para hacer mejores predicciones (utilizando optimizaciones numéricas).


#### Normalizar tus datos numéricos

**Para cada columna de tu dataset con valores numéricos:**
1. Calcular el promedio de tus datos ($\mu$).
1. Calcular la desviación estándar ($\sigma$) de tus datos.
1. Para cada punto de datos, realizar: $\displaystyle{\hat{x_i}=\frac{x_i-\mu}{\sigma}}$

#### Preparar tus datos para modelos

<img src='https://upload.wikimedia.org/wikipedia/commons/b/bb/ML_dataset_training_validation_test_sets.png' width=500>

- **Training**: (60-80%) datos de los que el modelo aprende patrones.
- **Validation**: (0-20%) datos que empleas para verificar que el modelo aprende.
- **Testiting**: (0-20%) datos que se apartan para revisar si el modelo fue exitoso al predecir.

## Regresión lineal

### Bases

<img src='https://www.addlink.es/images/productos/minitab/OrdenModelo.png'>

### Parámetros


Diferentes parámetros cambian lo que pensamos de la relación entre input features ($x$) y el output target ($y_{pred}$).

$y_{pred}=w_1.x+w_0$

$w_1$ = un cambio en $"x"$ resulta un cambio en $"y"$

$w_0$ = el valor de $"y"$ si $"x"$ es 0.

### Función de coste


**Mean-square Error (MSE) Loss:**

El costo ($\displaystyle{\epsilon}$) es la diferencia entre el valor del target $(y_i)$ y el valor predicho de nuestra línea $(y_pred)$.

$J(w,w_0)= \frac{1}{N} \sum \limits_{i=1}^{N} (y_i - y_{i,pred})^2$

<img src='https://slideplayer.com/slide/3274418/11/images/6/Measuring+error+Error+or+residual+Observation+Prediction.jpg'>

### Regla de actualización

Queremos minimizar la distancia $y_{i,pred}$ sobre cada punto de datos en entrenamiento

Cambiamos $w_0$ y $w_1$ hasta encontrar una suma de distancia menor.

$Update Rule = min\;J(w_0,w_1)$

### Rendimiento

$MSE$ y $R^2$ ayudan a identificar la fortaleza de la relación entre features de entrada y de salida.

<img src='https://www.maximaformacion.es/wp-content/uploads/2021/07/Que-es-la-correlacion_valores-del-coeficiente.png'> 

### Resumen

**Proceso de decisión:**
> Una función para predecir el target de salida basada en featuares de entrada.

$y_{pred}=w_0+w_1.x_1+w_2.x_2+\cdots+w_n.x_n$

**Función de error/coste:**
> El promedio de que tan bien se predice el target.

$J(w,w_0)= \frac{1}{N} \sum \limits_{i=1}^{N} (y_i - y_{i,pred})^2$

**Regla de actualización:**
> En cuenta valores $w,w_0$ que mejoren las predicciones.

$\min\;J(w_0,w_1,\cdots,w_n)$

## Regresión logística

### Proceso de decisión:
> Probabilidad de que un estudiante pase $y=1$ 

$\displaystyle p{Pass}=\displaystyle\frac{\exp(w_0+w_1.x_1+\cdots+w_n.x_n)}{1+\exp(w_0+w_1.x_1+\cdots+w_n.x_n)}$

### Función de error/coste:
> Promedio de que tan bien se predice que un estudiante pasa

$J(w,w_0)= -\frac{1}{N} \sum \limits_{i=1}^{N} y_i\log(p_{pass}) + (1-y_1)\log(1-p_{pass})$

### Regla de actualización:
> Encuentra valores w y w_0 que mejor predicen esta probabilidad

$\min\;J(w_0,w_1,\cdots,w_n)$

### Rendimiento

Se aplica una matriz de confusión

- [Precision, Recall, F1, Accuracy en clasificación](https://www.iartificial.net/precision-recall-f1-accuracy-en-clasificacion/)
- [Clasificación en MACHINE LEARNING RÁPIDO! - (Explicado en 7 MINUTOS) 🦾](https://www.youtube.com/watch?v=8-nt3Urok4E)

## Árboles de decisión

### Bases

<img src='https://cdn-cashy-static-assets.lucidchart.com/lucidspark/marketing/blog/2020Q4/decision-tree/Decision-tree.png' width=700>

**Nodo de decisión (Chance node)**: Parte los datos en subconjuntos de datos.

**Nodo hoja (Outcome)**: La etiqueta de asignación o resultado del labeling.

Los conjuntos permiten 'votar' por la respuesta correcta.

<img src='https://www.section.io/engineering-education/introduction-to-random-forest-in-machine-learning/example-of-random-forest-classifier.png' width=600>

### Parámetros

**Número de árboles:** más árboles, menor variación, pero más computo.

**Max Features:** El número de features usados para partir (split).

**Max depth:** El número de niveles del árbol de decisión.

**$N_{split}$ = Min samples split:** Número de data points que un nodo debe tener antes de dividirse.

**$n_{min}$ = Min samples leaf:** El mínimo número de muestras requeridas para estar en una hoja (leaf).

### Función de coste y regla de actualización

Función de coste: para un feature seleccionado encuentra el mejor splot-point (punto de separación) y separa los datos en nodos más pequeños

Regla de actualización: si el nodo hoja tiene más de $n_{min}$ puntos de datos, repite la función de coste, si no para.

### Rendimiento

- Se pueden utilizar métricas de **clasificación** o **regresión** para evaluar que tan bueno es el modelo.

**Clasificación:** Confusion matrix o matriz de confusión\
**Regresión:** MSE / $R^2$

### Repaso

- **Proceso de decisión:**\
De un subset de features aleatorios de tus datos, elige un feature. Divide tus datos

- Función **de error/coste:**\
Usando Gini o criterio de entropía para encontrar el mejor umbral para dividir tus datos.

- **Regla de actualización:**\
Si los nodos hoja no tienen $n_{min}$ puntos de datos, repite el proceso.

Material extra:

- [Video: Clasificación con Árboles de Decisión ¡EN 15 MINUTOS!](https://www.youtube.com/watch?v=kqaLlte6P6o)
- [Lectura: Introduction to Random Forest in Machine Learning](https://www.section.io/engineering-education/introduction-to-random-forest-in-machine-learning/#:~:text=A%20random%20forest%20is%20a%20machine%20learning%20technique%20that's%20used,consists%20of%20many%20decision%20trees.)


## Algoritmos no supervisados (K-Means clustering)

### Bases

**K-Means** es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos, en el que cada observación pertenece al grupo cuyo valor medio es más cercano. Es un método utilizado en minería de datos.

El **centroide** es un punto representativo de cada clúster. El algoritmo K-means asigna cada punto de datos entrante a uno de los clústeres, minimizando la suma en el clúster de cuadrados. Cuando procesa los datos de entrenamiento, el algoritmo K-means comienza con un conjunto inicial de centroides elegidos al azar


<img src='https://datascience.eu/wp-content/uploads/2019/12/Screenshot-2020-10-17-at-13.30.08-978x652.png' width=700>

### Parámetros

**"K"** se refiere al número de grupos que piensas existen en los datos. Cuando tengas distinto número de grupos podrás apreciar resultados distintos dentro de las agrupaciones

<img src='https://scikit-learn.org/stable/_images/sphx_glr_plot_bisect_kmeans_001.png' width=900>

### Función de coste

A través de la función de coste intentamos optimizar el algoritmo de K-means, lo cual el algoritmo intenta averiguar es como establecer los centroides para que los puntos estén más cerca de ellos 

$
\displaystyle J(c^1,\cdots,c^{K})  = \sum^{K}_{j=1} \sum_{x \in S_{j}} \left\| \mathbf x_i^j - \boldsymbol c^{i} \right\|^2 
$

$
\displaystyle  \sum^{K}_{j=1}\;\longrightarrow\;\displaystyle  \text{Donde K es igual a la suma sobre todos los clústers}
$

$
\displaystyle  \sum_{x \in S_{j}}\;\longrightarrow\;\displaystyle  \text{Suma todos los puntos de datos en un clúster }j
$

$
\displaystyle  x_i^j\;\longrightarrow\;\displaystyle  \text{Posición de un } i^{th} \text{ punto de datos en el clúster } j
$

$
\displaystyle  c^j\;\longrightarrow\;\displaystyle  \text{Posición del centroide para el clúster } j
$

$
\displaystyle  \left\| \mathbf x_i^j - \boldsymbol c^{i} \right\|^2 \;\longrightarrow\;\displaystyle  \text{Función de distancia Euclidiana}
$

1. Asigna cada punto de datos en un clúster.
1. Calcula los centroides como el promedio de los puntos de datos.

- [K-means clustering (part 1)](https://www.youtube.com/watch?v=0MQEt10e4NM)
- [K-means clustering (part 2)](https://www.youtube.com/watch?v=4shfFAArxSc)

### Regla de actualización

<img src='https://static.platzi.com/media/user_upload/Captura%20de%20Pantalla%202022-10-14%20a%20la%28s%29%2017.36.19-decd566b-8ad0-4896-811d-872ecf58cdb7.jpg' width=700>

### Rendimiento

**Para 1 solo modelo**

**Inertia:** que tan cerca están los puntos de datos al centroide. Este número se necesita pequeño.

**Silhoueete score:** que tan lejanos son los clústers, de [-1,1]. Este número debe ser cercano al 1.

**Elbow method:** utiliza la distancia media de las observaciones a su centroide. Es decir, se fija en las distancias intra-cluster. Cuanto más grande es el número de clústers k, la varianza intra-cluster tiende a disminuir

<img src='https://i2.wp.com/www.aprendemachinelearning.com/wp-content/uploads/2018/03/ejemplo-elbow.png?resize=768%2C422' width=400>

### Repaso

**Proceso de decisión:**

- **Calcular** la distancia de cada punto de datos a cada centroide.
- **Asignar cada** punto de datos al centroide más cercano.
- **Calcular** los nuevos centroides promediando los puntos de datos asignados al clúster.

**Función de coste\error:**

Minimizar las distancia de los puntos de datos a los clúster
$
\displaystyle J(c^1,\cdots,c^{K})  = \sum^{K}_{j=1} \sum_{x \in S_{j}} \left\| \mathbf x_i^j - \boldsymbol c^{i} \right\|^2 
$

**Regla de actualización:**

Repite el proceso de decisión hasta que los puntos de datos asignados a cada clúster sean los mismos.

### Reto: aplicar machine learning al dataset Iris

Queremos identificar especies de plantas con 4 features:

Longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo.

[Reto modelo K-Means](./reto2_modelos_ml.ipynb)

# Deep Learning

## Cómo funcionan las redes neuronales

Una red neuronal es un modelo que usa neuronas y conexiones entre ellos para hacer predicciones.

Son usadas usualmente para aprendizaje supervisado.

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/1/11/Colored_neural_network_es.svg/300px-Colored_neural_network_es.svg.png'>

Cada unidad oculta recibe una combinación lineal de todas las entradas.

Para la misma entrada existen diferentes pesos dependiendo de cuál unidad oculta este adjunta. Estos pesos pueden ser distintos.

### Capa de entrada conectada con múltiples unidades ocultas

**Ejemplo:** $W_{2,3}$ El peso de la segunda entrada a la tercera unidad


### Hidden units perform a function

La unidad oculta ejecuta una función en la combinación lineal $(g_1(X))$.\
Esta función es una **función de activación**.

$$g_1(X) \rightarrow h_1 \rightarrow h_1(X)$$

$$h_1(X)=f_1 (g_1(X))$$

$$\underbrace{f_1}_{\text{Función de activación}} \;\;\;\;\;\; \underbrace{(g_1(X))}_{\text{Combinación lineal de nodos de la capa anterior}}$$

### Tipos de función de activación de capas ocultas

Función de activación "pasa" una señal.

- [**ReLu**](https://en.wikipedia.org/wiki/Rectifier_(neural_networks))
- [**Sigmoid**](https://en.wikipedia.org/wiki/Sigmoid_function)
- [**Tanh**](https://en.wikipedia.org/wiki/Hyperbolic_functions#Tanh)

### La capa de salida

Existen **diferentes funciones de activación** para clasificación y regresión.

### Tipos de función de activación para la capa de salida

- Algunas funciones de activación tienen un **rango limitado** (ej: softmax\sigmoide), mientras que otras se **extienden indefinidamente** (ReLUs, lineal)

**Funciones de activación para clasificación**

- Softmax
- Sigmoid

**Funciones de activación para regresión**

- ReLU
- Linear

## Cómo es el entrenamiento de las redes neuronales

Pasos para entrenar una red neuronal
1. Escoge tu arquitectura.
1. La "receta" de entrenamiento.
1. Ajustar tu tasa de entrenamiento.

### Escoge tu arquitectura

#### [Deep Feed-Forward (DNNs)](https://es.wikipedia.org/wiki/Red_neuronal_prealimentada)
- Funciones de activación.
- Usada en muchos problemas no lineales complejos.
 
#### [Convolucional (CNNs)](https://es.wikipedia.org/wiki/Red_neuronal_convolucional)
- Operador convolucional/pool y kernels.
- Usada en imágenes y genómicos.

#### [Recurrente (RNNs)](https://es.wikipedia.org/wiki/Red_neuronal_recurrente)
- Celdas de memoria/puerta.
- Representa secuencias.
- Usada en lenguajes.

### Función de perdida (error/coste)

#### Error Cuadrático Medio (MSE)

Para regresión.\
Diferencia en valor verdadero versus el predicho.

${\displaystyle \operatorname {MSE} ={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-Y_{i,pred})^{2}.}$

#### Binary Cross-Entropy (BCE)

Para clasificación.\
Calcula que tan confiable el modelo predice la probabilidad de una clase para 2 clases


$\displaystyle J= -\frac{1}{N} \sum^{N}_{i=1} y_i \log (p(Class_1)) + (1-y_i) \log(1-p(Class_1))$

#### Categorical Cross-Entropy (CCE)

Para **clasificación**.\
Similar a BCE, pero para más de 2 etiquetas.

$\displaystyle J = \sum^{c}_{i=1} -t_1 \log(p_1)$\
$c \longrightarrow \text{number of classes}$\
$a \longrightarrow \text{true label}$\
$b \longrightarrow \text{probability of predicting label}$

### Backpropagation

Backpropagation es la "regla de actualización" usada para ajustar los pesos en redes neuronales.

<img src='https://i.stack.imgur.com/1214s.png'>

### Tasa de aprendizaje

La optimización se usa para encontrar pesos de acuerdo a las reglas de actualización.

- Si la tasa de aprendizaje (learning rate) es **muy pequeña**, toma mucho tiempo encontrar buenos pesos.
- Si es **muy grande**, el modelo podría atorarse en una mala solución

## Cómo mejorar las predicciones de redes neuronales

### Dropout protege ante el overfiting

Las redes neuronales tienden al overfitting porque tienen muchos parámetros.

<img src='https://www.educative.io/api/edpresso/shot/6668977167138816/image/5033807687188480'>

Dropout Aleatoriamente "ignora" algunos nodos mientras entrena

### Prevenir el overfitting

<img src="https://forum-cdn.knime.com/uploads/default/original/2X/c/c03f5837ac919e7152bdb84b2891d5d0e2674dbf.png" width=600>