# Introducción a Machine Learning

## Introducción

### ¿Qué es Machine Learning?

Machine Learning es la ciencia de utilizar algoritmos para identificar patrones en datos con el fin de resolver un problema de interés. Los modelos aprenden patrones de los *features* (características).<br>
![](features.PNG)

![](history.jpg)

### Terminología

- **Data/Datos**: unidades de información o "hechos" de observaciones.
- **Features/Características**: tipos de información acerca de las observaciones.
- **Filas**: observaciones individuales o muestras.
- **Columnas** features que describen las observaciones.
- **Outlier/Atípico**: punto(s) de datos que se comportan de manera extraña.
- **Pre-processing**: preparar los datos para su uso en modelos de ML.
- **ETL pipeline**: framework de data science para extraer, transformar y cargar datos.
- **Target**: variable de salida que queremos predecir.

### Tipos de modelos de machine learning

#### Aprendizaje supervisado

El objetivo objetivo del aprendizaje supervisado es tomar features de entrada y con ello producir un target, predecir una variable que será retornada; pueden ser muchas características pero le salida siempre es una.

- **Regresión**: el objetivo es predecir una variable numérica.
- **Clasificación**:  el objetivo es predecir una etiqueta.

![](supervisedL%7D.PNG)

#### Aprendizaje no supervisado

El target es desconocido y queremos encontrar estructuras o grupos dentro de los datos para predecir patrones.

- **Clustering**: el objetivo es encontrar grupos en los datos.
- **Dimensionality reduction**: queremos encontrar qué características o features de los datos son más importantes.

![](noSupervisedL.PNG)

#### Algoritmos específicos

![](algoritmos.PNG)

### Algoritmos simples de Machine Learning

#### La "receta" para aplicar algoritmos de ML

1. **Proceso de decisión**: cómo los modelos hacen una predicción o retornan una respuesta, utilizando los parámetros.
2. **Función de error/coste**: cómo evaluar si los parámetros en el modelo generan buenas predicciones.
3. **Regla de actualización**: cómo mejorar los parámetros para hacer mejores predicciones (usando optimización numérica).

**Normalizar datos numéricos**

Cuando trabajamos con datos numéricos y usamos modelos de Machine Learning lo habitual es normalizar los datos para tener una estabilidad numérica.

1. Calcular el promedio de los datos $\mu$.
2. Calcular la desviación estándar de los datos $\delta$.
3. Para cada punto realizar $$\tilde{x} = \frac{x_{i} - \mu}{\delta}$$

**Preparar los datos para modelos**

Generalmente se divide el conjunto de datos en tres:
- **Training** (60-80%): datos que usa el modelo para aprender patrones.
- **Validation** (0-20%): datos con los que verificamos que el modelo aprende.
- **Testing** (0-20%): datos que se apartan para luego revisar si el modelo fue exitoso al predecir.

### Regresión lineal

Una regresión lineal es una forma de predecir un valor numérico. Como su nombre sugiere lo que intentamos es trazar una línea recta que vaya desde el inicio de los puntos hasta el final.

![](linearR.PNG)

**Proceso de decisión**

![](linearR2.PNG)

El objetivo es obtener una combinación de pesos *weight* $w_{i}$ y el intercepto *bias* $w_{0}$ que nos permita predecir los valores. El peso es como una hipótesis de qué tan fuerte es la relación entre su respectiva categoría y la predicción; el intertepto es lo que sucede con la predicción cuando X es cero o no existe.

**Función de coste**

![](linearR3.PNG)

Utilizamos el método de mínimos cuadrados que busca minimizar la distancia de los valores reales y los valores de la predicción.

**Regla de actualización**

![](linearR4.PNG)

Lo que buscamos es minimizar la distancia entre los valores reales y los de la predicción modificando los pesos y el intercepto de la recta de regresión.

**Rendimiento**

Se utilizan el MSE, error cuadrático promedio, y el $R^2$, que nos habla de la correlación entre los valores de entrada y los de salida. Para el $R^2$ queremos un valor cercano a 1 y para el MSE queremos un valor bajo.

### Regresión logística

Una regresión logística es una forma de predecir una clase/etiqueta a través de la mejor recta que separe dos clases diferentes.

![](logisticR.PNG)
![](logisticR2.PNG)
![](logisticR3.PNG)
![](logisticR4.PNG)
![](logisticR5.PNG)
![](logisticR6.PNG)
![](logisticR7.PNG)

### Árboles de decisión

![](arboles.PNG)

Un **random forest** es un conjunto de árboles de decisión.

![](arboles2.PNG)

**Parámetros**

![](arboles3.PNG)
![](arboles4.PNG)

![](arboles5.PNG)

### K-Means clustering

El objetivo es encontrar cuáles datos están asignados a ciertos grupos
![](kmeans.PNG)

**Centroide**: el líder o representación de un grupo particular.

Una vez se colocan los centroides lo siguiente es determinar la pertenencia de cada punto a un grupo calculando la distancia del punto a cada centroide y pertenecerá al grupo más cercano. 

Podemos mover los centroides utilizando el promedio de los puntos en un grupo particular y así resultar en nuevos grupos y repetimos el proceso.

![](k2.PNG)

**Parámetros**

**K** se refiere al número de grupos que pensamos que existen en los datos.

![](k3.PNG)

**Función de coste**

![](k4.PNG)

**Regla de actualización**

![](k5.PNG)

**Rendimiento**

![](k6.PNG) ![](k7.PNG)


## Deep Learning

### Cómo funcionan las redes neuronales

- **Capa de entrada**: la capa de entrada tomas los datos y los usa para alimentar la capa oculta.
- **Capa oculta**: representa las operaciones y funciones complejas que nos ayudan a modelar esas preguntas difíciles como clasificar imágenes.
- **Capa de salida**: provee la predicción que queremos.

Cada uno de estos módulos individuales son considerados nodos o **neuronas**; entre los nodos existe algo llamado conexión la cual indica la fuerza de la relación entre los nodos.

Las redes neuronales son usadas usualmente para aprendizaje supervisado.

![](nn.PNG)

**Ejemplo**

![](nn2.PNG)
![](nn3.PNG)
![](nn4.PNG)
![](nn5.PNG)

**Capa de entrada conecta a múltiples unidades ocultas**

![](nn6.PNG)

**Unidades ocultas**

Una unidad oculta ejecuta una función en la combinación lineal que recibe; esta función es una **función de activación**.

![](nn7.PNG)
![](nn8.PNG)
![](nn9.PNG)
![](nn10.PNG)

### Cómo es el entrenamiento de las redes neuronales

#### Arquitectura

![](rn.PNG)

**Deep Feed-Forward DNNs**

Utilizan funciones de activación y son buenas resolviendo problemas no lineales complejos.

**Convolucional CNNs**

Usan el operador convolucional, pools y kernels. Son usadas en imágenes y problemas de tipo genómicos.

**Recurrente RNNs**

El objetivo es utilizar una idea de memoria que son neuronas que pueden recordar largas secuencias. Son buenas para información de lenguaje.

#### La receta para las redes neuronales

![](rn1.PNG)

**Avance hacia adelante**

![](ff.PNG)

**Función de coste**

**MSE**

![](fc.PNG)

**Binary Cross-Entropy BCE**

![](bce.PNG)

**Categorical Binary Cross-Entropy CBCE**

![](cbce.PNG)

**Backpropagation**

![](bp.PNG)
![](bp1.PNG)


### Cómo mejorar las predicciones de redes neuronales

**Underfitting**: significa que el modelo realmente no ha aprendido el patrón en el conjunto de entrenamiento para ser capaz de realizar una buena predicción.

**Overfitting**: significa que el modelo memorizó los patrones del conjunto de entrenamiento pero realmente no los entiende.

**Dropout**: es usado en el proceso de entrenamiento y lo que hace es poner en ceros ciertos nodos durante el entrenamiento.
![](rn2.PNG)

**Prevenir el overfitting**

![](of.PNG)
