# Que es Machine Learning?

Es el arte de programar computadoras para que aprendan de los datos. La parte de Machine Learning donde los sistemas aprenden a realizar predicciones es llamada **modelo**, por ejemplo Redes neuronales (Neural Networks) o arboles de decisión (random forests) son ejemplo de modelos.

Antes donde está machine Learning?
![definicionAI.jpg](attachment:definicionAI.jpg)

![diffCD+ML+DL.png](attachment:diffCD+ML+DL.png)

Machine learning clásico tenemos algoritmos como regresión lineal, regresion logística, arboles de decisión, clasificación entre otros. Por ejemplo:

**1. Predicción del precio de una casa** Se usa datos como el tamaño de la casa, número de habitaciones, y ubicación para predecir su precio. Este tipo de problema es ideal para modelos lineales, que pueden encontrar relaciones entre las características (tamaño, ubicación) y el valor objetivo (precio).

**2. Clustering (Agrupación)** Dividir a los clientes en segmentos según su comportamiento de compra. K-Means es un método clásico y eficiente para encontrar patrones ocultos en los datos de clientes, como agrupaciones basadas en gastos.

**3. Sistemas de recomedación en una tienda online** Basándose en sus compras anteriores se puede sugerir productos a los clientes, los modelos basados en Filtrado colaborativo basado en matriz de similitud (KNN) pueden calcular similitudes entre usuarios o productos para recomendar elementos relevantes. 

**4. Predicción de demanda energética** Usando datos históricos de consumo energético para predecir la demanda futura. Modelos de regresión lineal o árboles de decisión (como Random Forest). Los algoritmos clásicos son eficaces cuando las características temporales son procesadas correctamente.


![MLvsDL.avif](attachment:MLvsDL.avif)


![diffMLyDL.png](attachment:diffMLyDL.png)

# Machine Learning Clásico

Sistemas de Machine learning pueden ser clasificados:
1. Cómo son supervisados durante el entrenamiento (supervisados, no supervisados, semi supervisados, etc)
2. Si pueden aprender incrementalmente.
3. Si trabajan comparando simplemente nuevos puntos de datos con datos conocido o en su lugar detectan patrones en los datos y construyen un modelo predictivo

# 1. Entrenados durante el entrenamiento
**Aprendizaje supervisado** Para este tipo de aprendizaje en el set de entrenamiento se alimenta el algoritmo con las soluciones deseadas, denominadas etiquetas o labels.

Un tarea tipica de aprendizaje supervisado son las tareas de **clasificación**, **regresión** (con base ciertas características dadas, existe la posibilidad que combinadas linealmente se pueda obtener la salida deseada)

**Aprendijaze NO supervisado** Para este tipo de aprendizaje el set de datos en el entrenamiento NO ES ETIQUETADO, el sistema intenta aprender sin un profesor o linea base.
Por ejemplo si se tiene datos de los visitantes a un blog, y quieres detectar si existe grupos donde los visitantes comparten ciertas características se usa **Clustering**, en ningun punto se le indica al algoritmo que características comparten los visitantes. Se agrupa puntos de datos similares con el objetivo de descubrir patrones subyacentes. Para lograr este objetivo, k-means busca un número fijo (k) de agrupamientos (clústers) en el conjunto de datos

![clustering.png](attachment:clustering.png)

Otros algortimos de aprendizaje no supervisado son:**anomaly detection** usado para detectar transacciones inusuales en tarjetas de crédito (para prevenir fraude), detectar defectos de manufactura, etc. 

También tenemos algoritmos de **visualización**, se alimenta algoritmo con data compleja sin etiquetas y la salida puede ser una gráfica 2D o 3D. Estos algoritmos intentan preservar la mayor cantidad de estructura posible (por ejemplo, intentan evitar que grupos separados en el espacio de entrada se superpongan en la visualización) para que usted pueda comprender cómo se organizan los datos y tal vez identificar patrones insospechados.

![visuEx.png](attachment:visuEx.png)

# Batch versus Online Learning

Otro criterio utilizado para clasificar los sistemas de aprendizaje automático es si el sistema puede aprender de forma incremental a partir de un flujo de datos entrantes.

**Batch learning** 

En el aprendizaje por lotes, el sistema no es capaz de aprender de forma incremental: debe entrenarse utilizando todos los datos disponibles. Esto generalmente requiere mucho tiempo y recursos informáticos, por lo que normalmente se hace sin conexión. Primero se entrena el sistema y luego se pone en producción y funciona sin aprender más; simplemente aplica lo que ha aprendido. Esto se llama aprendizaje sin conexión.

Desafortunadamente, el rendimiento de un modelo tiende a decaer lentamente con el tiempo, simplemente porque el mundo continúa evolucionando mientras que el modelo permanece inalterado. Este fenómeno a menudo se llama deterioro del modelo o deriva de datos. La solución es volver a entrenar periódicamente el modelo con datos actualizados.

**Online learning**
En el aprendizaje en línea, se entrena al sistema de manera incremental al alimentarlo con instancias de datos de manera secuencial, ya sea de manera individual o en grupos pequeños llamados minilotes. Cada paso de aprendizaje es rápido y económico, por lo que el sistema puede aprender sobre nuevos datos sobre la marcha, a medida que llegan.

# Principales retos en el aprendizaje automático

En escencua las dos principales tareas es seleccionar un modelo y entrenar sobre la data, en este punto solo dos cosas pueden hacerse mal **modelo erróneo** o **data erronea**.

**Cantidad insuficiente de datos de entrenamiento**

El aprendizaje automático aún no está del todo desarrollado; se necesitan muchos datos para que la mayoría de los algoritmos de aprendizaje automático funcionen correctamente. Incluso para problemas muy simples, normalmente se necesitan miles de ejemplos, y para problemas complejos como el reconocimiento de imágenes o de voz, es posible que necesite millones de ejemplos (a menos que pueda reutilizar partes de un modelo existente)

**Datos de entrenamiento no representativos**
Para generalizar bien, es fundamental que los datos de entrenamiento sean representativos de los nuevos casos a los que desea generalizar. Esto es así tanto si utiliza aprendizaje basado en instancias como si utiliza aprendizaje basado en modelos.

Es fundamental utilizar un conjunto de entrenamiento que sea representativo de los casos a los que se desea generalizar. Esto suele ser más difícil de lo que parece: si la muestra es demasiado pequeña, se producirá ruido de muestreo (es decir, datos no representativos como resultado del azar), pero incluso muestras muy grandes pueden no ser representativas si el método de muestreo es defectuoso. Esto se denomina sesgo de muestreo.

**Baja calidad en la data**
Obviamente, si sus datos de entrenamiento están llenos de errores, **valores atípicos y ruido (por ejemplo, debido a mediciones de mala calidad)**, será más difícil para el sistema detectar los patrones subyacentes, por lo que es menos probable que su sistema funcione bien.

A menudo, vale la pena el esfuerzo de dedicar tiempo a limpiar sus datos de entrenamiento.La mayoría de los científicos de datos dedican una parte importante de su tiempo a hacer precisamente eso.

Algunas instancias son claramente valores atípicos, puede ser útil simplemente descartarlas o intentar corregir los errores manualmente.
Si a algunas instancias les faltan algunas características (por ejemplo, el 5 % de sus clientes no especificó su edad), debe decidir si desea ignorar este atributo por completo, ignorar estas instancias, completar los valores faltantes (por ejemplo, con la edad media) o entrenar un modelo con la característica y un modelo sin ella.

**Características irrelevantes**
El sistema solo podrá aprender si los datos de entrenamiento contienen suficientes características relevantes y no demasiadas irrelevantes. Una parte fundamental del éxito de un proyecto de aprendizaje automático es crear un **buen conjunto de características para entrenar**. Este proceso, llamado ingeniería de características, implica los siguientes pasos:

1. Selección de características (seleccionar las características más útiles para entrenar entre las características existentes)
2. Extracción de características (combinar características existentes para producir una más útil; como vimos antes, los algoritmos de reducción de dimensionalidad pueden ayudar)
3. Creación de nuevas características mediante la recopilación de nuevos datos

**Sobreajuste de los datos de entrenamiento**
En el aprendizaje automático el sobreajuste significa que el modelo funciona bien con los datos de entrenamiento, pero no se generaliza bien.
![underfitting-overfitting.png](attachment:underfitting-overfitting.png)

**Ajuste insuficiente de los datos de entrenamiento**
Como puede suponer, el ajuste insuficiente es lo opuesto al ajuste excesivo: ocurre cuando el modelo es demasiado simple para aprender la estructura subyacente de los datos.
Las principales opciones para solucionar este problema:
1. Seleccionar un modelo más potente, con más parámetros.
2. Introducir mejores características en el algoritmo de aprendizaje (ingeniería de características).
3. Reducir las restricciones del modelo (por ejemplo, reducir el hiperparámetro de regularización)

# Testeo y validacion del MODELO

La única forma de saber qué tan bien se generalizará un modelo a nuevos casos es probarlo en casos nuevos. Una forma de hacerlo es poner el modelo en producción y monitorear su rendimiento. Esto funciona bien, pero si el modelo es terriblemente malo, los usuarios se quejarán, lo que no es la mejor idea.

**Una mejor opción es dividir los datos en dos conjuntos:** el conjunto de entrenamiento y el conjunto de prueba. Como estos nombres implican, se entrena el modelo utilizando el conjunto de entrenamiento y se prueba utilizando el conjunto de prueba. La tasa de error en casos nuevos se denomina error de generalización (o error fuera de la muestra) y, al evaluar el modelo en el conjunto de prueba, se obtiene una estimación de este error. Este valor le indica qué tan bien se desempeñará el modelo en instancias que nunca ha visto antes.

Sin embargo, en la práctica, los analistas de datos trabajan con tres conjuntos de ejemplos etiquetados:

1) conjunto de entrenamiento,
2) conjunto de validación y
3) conjunto de prueba.
![div_dataset.png](attachment:div_dataset.png)

El conjunto de entrenamiento suele ser el más grande y se utiliza para construir el modelo. Los conjuntos de validación y prueba tienen aproximadamente el mismo tamaño, mucho más pequeños que el tamaño del conjunto de entrenamiento. El algoritmo de aprendizaje no puede usar ejemplos de estos dos subconjuntos para construir un modelo. Es por eso que a esos dos conjuntos a menudo se los llama **conjuntos de reserva**.

No existe una proporción óptima para dividir el conjunto de datos en estos tres subconjuntos. En el pasado, la regla general era utilizar el 70 % del conjunto de datos para entrenamiento, el 15 % para validación y el 15 % para prueba. Sin embargo, en la era del big data, los conjuntos de datos a menudo tienen millones de ejemplos. En tales casos, podría ser razonable mantener el 95 % para el entrenamiento y el 2,5 % - 2,5 % para la validación/prueba.

**Cuál es la razón para tener tres conjuntos y no uno?**. Un algoritmo trivial que simplemente memorice todos los ejemplos de entrenamiento y luego use la memoria para "predecir" sus salidas no cometerá errores cuando se le pida que prediga las salidas de los dataset de entrenamiento, pero un algoritmo de este tipo sería inútil en la práctica. **Lo que realmente queremos es que nuestro modelo prediga bien los ejemplos que el algoritmo de aprendizaje no vio**. Por lo tanto, queremos un buen rendimiento en un conjunto de reserva.

**¿Por qué necesitamos dos conjuntos de reserva y no uno?** Usamos el conjunto de validación para:
1. Elegir el algoritmo de aprendizaje
2. Encontrar los mejores valores de los hiperparámetros. 
Usamos el conjunto de prueba para evaluar el modelo antes de entregárselo al cliente o ponerlo en producción.

**NOTA: La regla más importante a recordar es que tanto el conjunto de validación como el conjunto de prueba deben ser lo más representativos posible de los datos que espera utilizar en producción.**

# Evaluación del rendimiento del modelo

Una vez obtenido el modelo, ¿cómo puede decir qué tan bueno es el modelo? Se debe utilizar el conjunto de prueba para evaluar el modelo. El conjunto de prueba contiene informacion que el algoritmo de aprendizaje nunca ha visto antes, por lo que si nuestro modelo tiene un buen rendimiento en la predicción de las salidas de los datos del conjunto de prueba, decimos que nuestro modelo se generaliza bien o, simplemente, que es bueno.

Sin embargo, **los especialistas en aprendizaje automático utilizan varias métricas y herramientas formales para evaluar el rendimiento del modelo**. 
Las métricas usadas para modelos de regresion son:
1. **MAE** Mean Absolute Error - Error absoluto medio
2. **MSE** Mean Squared Error  - Error cuadrático medio
3. **RMSE** Root Mean Squared Error - Raíz cuadrática del error medio
En estadística y aprendizaje automático, la regresión se refiere a un conjunto de técnicas utilizadas para predecir un valor numérico basado en algunas entradas.
Imaginemos que tenemos un modelo que puede predecir el precio de tickets de avión, en la tabla podemos ver performance del precio predecido vs el precio real:
![EjM.png](attachment:EjM.png)

Que tal lejos están las predicciones de los valores actuales? Calculemos el error usando la siguiente fórmula:
    $Error = ValorActual - ValorPredecido$
![EjM1.png](attachment:EjM1.png)

Cómo hallamos el error? Smmar todos los errores?
Como vemos los errores pueden ser positivos y negativos, si nos enfocamos únicamente en el tamaño del error ignorando el signo estamos hablando del error absoluto, sumando todos los errores y dividiendo entre número de predicciones obtenemos **MAE**
![EjM2.png](attachment:EjM2.png)

![MAE.png](attachment:MAE.png)
**Mean Squared Error** El MAE trata a los errores linealmente, un cambio en algún error afecta de manera proporcional al MAE. En la realidad deseamos construir modelos que tengan en menor error posible, por ello necesitamos de una métrica que penalize los errores grandes con mayor fuerza que los pequeños. Para ello usamos los errores cuadráticos, así un error grande producirá un efecto mayor.

![MSE.png](attachment:MSE.png)
**Root Mean Squared Error (RMSE)** MSE es una métrica útil, pero es dificil de interpretar dado que no tiene las mismas unidades que el nuestros valores predecidos. Si deseamos reportar que nuestro modelo tiene un MSE de 1870 $USD^2$ que significa? Es entendible?

La forma sencilla de pasar MSE a un valor que sea entendible es aplicarle la raiz cuadrada.

![RMSE.png](attachment:RMSE.png)
En este caso si es posible reportar que el error del modelo es de 43.24 USD

**MAE vs RMSE**
Tenemos RMSE es 43.24 y el MAE es 33. Por que?

**NOTA** Cuando estamos trabajando en la etapa de entrenamiento de los modelos si el MSE del modelo en los datos de prueba es sustancialmente mayor que el MSE obtenido en los datos de entrenamiento, **esto es un signo de sobreajuste**. 

**Forma de evaluar los MODELOS DE CLASIFICACION**
Para la clasificación, las cosas son un poco más complicadas. Las métricas y herramientas más utilizadas para evaluar el modelo de clasificación son: **la matriz de confusión**
![confusionMATRIX.png](attachment:confusionMATRIX.png)

Cualquiera puede construir un modelo de aprendizaje automático (ML) con unas pocas líneas de código, pero construir un buen modelo de aprendizaje automático es otra historia.

Un buen modelo significa que los resultados de la evaluacion haya sido realizados bajo las métricas apropiadas. En el caso de la matríz de confusión, esta es conocida también como matriz de error, es una tabla resumida que se utiliza para evaluar el rendimiento de un modelo de clasificación. El número de predicciones correctas e incorrectas se resumen con los valores de conteo y se desglosan por cada clase.

1. **Verdadero Positivo (TP):** Resultado en el que el modelo predice correctamente la clase positiva.
2. **Verdadero Negativo (TN):** Resultado donde el modelo predice correctamente la clase negativa.
3. **Falso Positivo (FP):** También llamado error de tipo 1, resultado donde el modelo predice incorrectamente la clase positiva cuando en realidad es negativa.
4. **Falso Negativo (FN):** También llamado error de tipo 2, un resultado en el que el modelo predice incorrectamente la clase negativa cuando en realidad es positiva.

**Métricas derivadas de la matríz de confusión**
![metricasCM.png](attachment:metricasCM.png)