![image.png](attachment:image.png)

*Diagrama de Hui Li: https://blogs.sas.com/content/subconsciousmusings/2020/12/09/machine-learning-algorithm-use/*

## Algoritmos de clasificación

>Logistic Regression, Naive Bayes, Support Vector Machine, Decision Tree, Random Forest, Gradient Boosting Machine (GBM), Perceptron, Linear Discriminant Analysis (LDA), K Nearest Neighbours (KNN), Learning Vector Quantisation (LVQ) or Neural Network.

**Factores a considerar:** 
- linealidad: datos separados por una línea recta
- interpretabilidad: la capacidad de explicar por qué un punto de datos se clasifica en una determinada clase
- multiclase: dos clases (clasificación binaria) o más de dos clases (multiclase). Support Vector Machine (SVM), Linear Discriminant Analysis (LDA) y Perceptron son clasificación binaria, pero todo lo demás se puede usar tanto para binario como para multiclase.



#### 1. Regresión logística

**Fortalezas:** buena precisión en pequeñas cantidades de datos, fácil de interpretar (obtenemos la importancia de las features), fácil de implementar, eficiente para entrenar (no necesita una gran potencia de cómputo), puede hacer multiclase.

**Debilidades:** tiende a sobreajustarse en dimensiones altas (usar regularización), no puede hacer una clasificación no lineal (o una relación compleja), no es bueno con la multicolinealidad, es sensible a los valores atípicos, requiere una relación lineal entre las probabilidades logarítmicas y la variable objetivo.

#### 2. Naive Bayes

**Fortalezas:** buena precisión en pequeñas cantidades de datos, eficiente para entrenar (no necesita una gran potencia de cómputo), fácil de implementar, altamente escalable, puede hacer multiclase, puede hacer datos continuos y discretos, no es sensible a features irrelevantes.

**Debilidades:** las features deben ser independientes, una categoría que existe en el conjunto de datos de prueba pero no en el conjunto de datos de entrenamiento tendrá probabilidad cero (problema de frecuencia cero)

#### 3. Random Forest

***Fortalezas:** fácil de interpretar (intuitivo, muestra interacción entre variables), puede clasificar datos no lineales, no es necesario normalizar ni escalar los datos, no se ve afectado por valores faltantes, no se ve afectado por valores atípicos, funciona bien con datos desequilibrados (el la naturaleza de la distribución de datos no importa), puede hacer clasificación y regresión, puede hacer datos numéricos y categóricos, proporciona importancia de features (calculada a partir de la disminución en la impureza del nodo), bueno con un gran conjunto de datos, capaz de manejar multicolinealidad.

**Debilidades:** tiene tendencia a sobreajustarse (sesgo hacia el conjunto de entrenamiento, requiere poda), no es robusto (alta varianza, un pequeño cambio en los datos de entrenamiento da como resultado un cambio importante en el modelo y la salida), no es bueno con la variable continua, requiere más tiempo para entrenar el modelo (muchos recursos).

#### 4. Random Forest

**Fortalezas:** alta precisión, no necesita poda, sin sobreajuste, bajo sesgo con una varianza bastante baja/moderada (debido al arranque), puede hacer tanto clasificación como regresión, puede hacer numérico y categórico, puede clasificar datos no lineales, los datos no no es necesario normalizarlo ni escalarlo, no se ve afectado por valores faltantes, no se ve afectado por valores atípicos, funciona bien con datos desequilibrados (la naturaleza de la distribución de datos no importa), se puede paralelizar (puede usar múltiples CPU en paralelo), bueno con alta dimensionalidad.

**Debilidades:** largo tiempo de entrenamiento, requiere mucha memoria, no interpretable (porque hay cientos de árboles).

#### 5. Support Vector Machine (lineal)

**Fortalezas:** se escala bien con datos dimensionales altos, estable (baja varianza), menos riesgo de sobrevaloración, no depende de todos los datos (no se ve afectado por los valores faltantes), funciona bien con ruido.

**Debilidades:** largo tiempo de entrenamiento para grandes datos, requiere escalado de features.

#### 6. Support Vector Machine (con Kernel)

**Fortalezas:** escala bien con datos dimensionales altos, estable (baja varianza), maneja muy bien los datos no lineales, menos riesgo de sobrevaloración (debido a la regularización), bueno con valores atípicos (tiene gamma y C para controlar), puede detectar valores atípicos en anomalías detección, funciona bien con ruido.

**Debilidades:** largo tiempo de entrenamiento para grandes datos, difícil encontrar el kernel apropiado, necesita mucha memoria, requiere escalado de funciones, difícil de interpretar.

#### 7. Gradient Boosting

**Fortalezas:** alta precisión, flexible con varias funciones de pérdida, preprocesamiento mínimo, no se ve afectado por los valores faltantes, funciona bien con datos desequilibrados, puede hacer clasificación y regresión.

**Debilidades:** tendencia a sobreajustarse (porque continúa minimizando errores), sensible con valores atípicos, gran requerimiento de memoria (miles de árboles), largo tiempo de entrenamiento, búsqueda de hiperparámetros en grillas grandes, no es bueno con ruido, difícil de interpretar.

#### 7. K Nearest Neighbours

**Fortalezas:** simple de entender (intuitivo), simple de implementar (tanto binario como multiclase), maneja bien los datos no lineales, no paramétrico (sin requisitos en la distribución de datos), responde rápidamente a los cambios de datos en la implementación en tiempo real, puede hacer tanto de clasificación como de regresión.

**Debilidades:** largo tiempo de entrenamiento, no funciona bien con datos de alta dimensión, requiere escalado, no funciona bien con datos desequilibrados, sensible a valores atípicos y ruido, afectado por valores faltantes.

#### 8. Red neuronal

**Fortalezas:** alta precisión, maneja bien datos no lineales, generaliza bien en datos no vistos (baja varianza), no paramétrico (sin requisitos en la distribución de datos), trabaja con datos heterocedásticos (varianza no constante), trabaja con datos altamente volátiles (tiempo serie), funciona con datos incompletos (no afectados por valores faltantes), tolerancia a fallas

**Debilidades:** requiere una gran cantidad de datos, computacionalmente costoso (requiere procesadores paralelos/GPU y gran memoria), no interpretable, complicado para obtener la arquitectura correcta (#capas, #neuronas, funciones, etc.)

## Saber más:  
#### Comparación de algoritmos:
https://towardsdatascience.com/comparative-study-on-classic-machine-learning-algorithms-24f9ff6ab222

#### Algoritmos por tipo de problema:
https://medium.com/analytics-vidhya/which-machine-learning-algorithm-should-you-use-by-problem-type-a53967326566