## Flujo de trabajo de un proyecto de Machine Learning

# Elegir el modelo que será mejor para el tipo de datos

## Tipos de modelos de Machine Learning
- Aprendizaje supervisado
- Aprendizaje no supervisado
- Aprendizaje por refuerzo

**Aprendizaje supervisado** 

Se refiere al proceso de construir un modelo de aprendizaje automático que se basa en datos de capacitación etiquetados.

Por ejemplo, digamos que queremos construir un sistema para predecir automáticamente el ingreso de una persona, en función de diversos parámetros como la edad, la educación, la ubicación, etc. Para hacer esto, necesitamos crear una base de datos de personas con todos los detalles necesarios y etiquetarla. Al hacer esto, le estamos diciendo a nuestro algoritmo qué parámetros corresponden a qué ingresos. Sobre la base de este mapeo, el algoritmo aprenderá cómo calcular los ingresos de una persona utilizando los parámetros que se le proporcionan

**Aprendizaje no supervisado**

Se refiere al proceso de construir un modelo de aprendizaje automático sin depender de los datos de capacitación etiquetados. Dado que no hay etiquetas disponibles, debe extraer información basada únicamente en los datos que se le proporcionaron. 

Por ejemplo, digamos que queremos construir un sistema donde tenemos que separar un conjunto de puntos de datos en varios grupos. Lo complicado aquí es que no sabemos exactamente cuáles deberían ser los criterios de separación. Por lo tanto, un algoritmo de aprendizaje no supervisado debe separar el conjunto de datos dado en un número de grupos de la mejor manera posible.

**Aprendizaje por refuerzo**

En esta técnica nuestros modelos aprenden a partir de la experiencia. En un coche autónomo, cuando toma una mala decisión, se le “castiga”. A partir de sus premios y castigos, va aprendiendo a realizar su tarea mejor. 

Esta es una técnica de prueba y error, y de utilizar una función de premio que vaya optimizando. Esta es una de las técnicas más prometedoras porque no requieren grandes cantidades de datos. En esta técnica se está haciendo mucha investigación.

![image.png](attachment:image.png)

## Clasificación del problema
Para categorizar tu problema tienes que llevar a cabo 2 pasos: 
- Categorizar la entrada
- Categorizar la salida

**Categorizar la entrada**
- Si tienes datos etiquetados, es un problema de **aprendizaje supervisado**
- Si no tienes etiquetas y quieres encontrar una estructura o patrón, es **aprendizaje supervisado**
- Si quieres optimizar una función objetivo interactuando con el entorno, es **aprendizaje supervisado**

**Categorizar la salida**
- Si la salida de tu modelo es un número, es un problema de **regresión**
- Si la salida de tu modelo es una clase, es un problema de **clasificación**
- Si la salida de tu modelo es una serie de grupos, es un problema de **clustering**
- Si buscas detectar anomalías, es un problema de **detección de anomalías** :)

## Consideraciones al elegir un algoritmo
- Precisión
- Tiempo de entrenamiento
- Linealidad
- Cantidad de parámetros

**Precisión**

- No siempre es necesario obtener la respuesta más precisa posible. 
- A veces, una aproximación ya es útil, según para qué se la desee usar. Si es así, puede reducir el tiempo de procesamiento de forma considerable al usar métodos más aproximados. 
- Otra ventaja de los métodos más aproximados es que tienden naturalmente a evitar el sobreajuste.

**Tiempo de entrenamiento** 
- La cantidad de minutos u horas necesarios para entrenar un modelo varía mucho según el algoritmo. 
- A menudo, el tiempo de entrenamiento depende de la precisión (generalmente, uno determina al otro). 
- Además, algunos algoritmos son más sensibles a la cantidad de puntos de datos que otros. 
- Si el tiempo es limitado, esto puede determinar la elección del algoritmo, especialmente cuando el conjunto de datos es grande.

**Linealidad**
- Muchos algoritmos de aprendizaje automático hacen uso de la linealidad. 
- Los algoritmos de clasificación lineal suponen que las clases pueden estar separadas mediante una línea recta (o su análogo de mayores dimensiones). 
- Entre ellos, se encuentran la regresión logística y los SVM.
- Los algoritmos de regresión lineal suponen que las tendencias de datos siguen una línea recta. 
- Estas suposiciones no son incorrectas para algunos problemas, pero en otros disminuyen la precisión.

**Cantidad de parámetros**

- Los parámetros son los números que afectan al comportamiento del algoritmo, como la tolerancia a errores o la cantidad de iteraciones, o bien opciones de variantes de comportamiento del algoritmo. 
- El tiempo de entrenamiento y la precisión del algoritmo a veces pueden ser muy sensibles y requerir solo la configuración correcta. Normalmente, los algoritmos con un gran número de parámetros requieren más prueba y error para encontrar una buena combinación.

![image.png](attachment:image.png)
[Ref](https://docs.microsoft.com/es-es/azure/machine-learning/studio/algorithm-cheat-sheet)

![image.png](attachment:image.png)
[Ref](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)

#### RECURSOS
- [Cheatsheet](https://ugoproto.github.io/ugo_py_doc/super-cheatsheet-machine-learning.pdf)
- [Aprendizaje supervisado o no supervisado - Medium](https://medium.com/@juanzambrano/aprendizaje-supervisado-o-no-supervisado-39ccf1fd6e7b)
- [AI en 3 minutos: Tipos de Machine Learning](https://medium.com/ai-learners/ai-en-3-minutos-tipos-de-machine-learning-945b708ac78)
- [Choosing the Right Machine Learning Algorithm](https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f)
- [Cómo elegir algoritmos](https://docs.microsoft.com/es-es/azure/machine-learning/studio/algorithm-choice)