# Resumen Selección Candidatos

## Selección de Algoritmos de Machine Learning según Casos de Uso

| Caso de Uso | Algoritmos Candidatos (orden sugerido) | Orden de Prueba |
|------------|----------------------|----------------|
| **Regresión lineal simple** | `LinearRegression`, `Ridge`, `Lasso`, `ElasticNet` | 1. `LinearRegression` → 2. `Ridge` → 3. `Lasso` → 4. `ElasticNet` |
| **Regresión con datos no lineales** | `DecisionTreeRegressor`, `RandomForestRegressor`, `GradientBoostingRegressor`, `SVR` | 1. `DecisionTreeRegressor` → 2. `RandomForestRegressor` → 3. `GradientBoostingRegressor` → 4. `SVR` |
| **Regresión con muchas variables correlacionadas** | `Ridge`, `Lasso`, `ElasticNet`, `GradientBoostingRegressor` | 1. `Lasso` → 2. `Ridge` → 3. `ElasticNet` → 4. `GradientBoostingRegressor` |
| **Clasificación binaria con datos linealmente separables** | `LogisticRegression`, `SVC (kernel='linear')`, `SGDClassifier` | 1. `LogisticRegression` → 2. `SVC (kernel='linear')` → 3. `SGDClassifier` |
| **Clasificación binaria con datos no lineales** | `SVC (kernel='rbf')`, `RandomForestClassifier`, `GradientBoostingClassifier`, `KNeighborsClassifier` | 1. `SVC (kernel='rbf')` → 2. `RandomForestClassifier` → 3. `GradientBoostingClassifier` → 4. `KNeighborsClassifier` |
| **Clasificación multiclase** | `RandomForestClassifier`, `GradientBoostingClassifier`, `SVC`, `KNeighborsClassifier`, `Naive Bayes` | 1. `RandomForestClassifier` → 2. `GradientBoostingClassifier` → 3. `SVC` → 4. `KNeighborsClassifier` → 5. `Naive Bayes` |
| **Clasificación con datos desbalanceados** | `RandomForestClassifier`, `GradientBoostingClassifier`, `BalancedRandomForestClassifier`, `SMOTE + otro modelo` | 1. `BalancedRandomForestClassifier` → 2. `GradientBoostingClassifier` → 3. `RandomForestClassifier` → 4. `SMOTE + otro modelo` |
| **Clasificación de texto** | `MultinomialNB`, `LogisticRegression`, `RandomForestClassifier` | 1. `MultinomialNB` → 2. `LogisticRegression` → 3. `RandomForestClassifier` |
| **Clasificación de imágenes** | `SVC (kernel='rbf')`, `RandomForestClassifier`, `GradientBoostingClassifier`, `Red Neuronal (MLPClassifier)` | 1. `SVC (kernel='rbf')` → 2. `RandomForestClassifier` → 3. `GradientBoostingClassifier` → 4. `MLPClassifier` |
| **Clustering con número conocido de grupos** | `KMeans`, `GaussianMixture`, `AgglomerativeClustering` | 1. `KMeans` → 2. `GaussianMixture` → 3. `AgglomerativeClustering` |
| **Clustering con número desconocido de grupos** | `DBSCAN`, `MeanShift`, `AgglomerativeClustering` | 1. `DBSCAN` → 2. `MeanShift` → 3. `AgglomerativeClustering` |
| **Detección de anomalías** | `IsolationForest`, `LocalOutlierFactor`, `OneClassSVM` | 1. `IsolationForest` → 2. `LocalOutlierFactor` → 3. `OneClassSVM` |
| **Reducción de dimensionalidad** | `PCA`, `TruncatedSVD`, `t-SNE`, `UMAP` | 1. `PCA` → 2. `TruncatedSVD` → 3. `t-SNE` → 4. `UMAP` |


**Cómo usar esta tabla**
1. Identifica tu caso de uso en la primera columna.
2. Prueba los algoritmos en el orden sugerido de izquierda a derecha.
3. Ajusta hiperparámetros según los resultados para mejorar el rendimiento.

## Condiciones de Uso de Algoritmos de Machine Learning en Scikit-Learn

### **Regresión**
| Algoritmo | Cuándo Usarlo | Condiciones de Uso |
|-----------|-------------|--------------------|
| **Regresión Lineal** (`LinearRegression`) | Cuando la relación entre variables es lineal. | Supone independencia de las variables predictoras, sin multicolinealidad significativa. |
| **Regresión Ridge** (`Ridge`) | Cuando hay multicolinealidad en los datos. | Agrega regularización L2 para evitar sobreajuste. |
| **Regresión Lasso** (`Lasso`) | Cuando se busca selección de características. | Usa regularización L1 para reducir coeficientes a cero, eliminando características irrelevantes. |
| **ElasticNet** (`ElasticNet`) | Cuando se necesita un balance entre Ridge y Lasso. | Mezcla L1 y L2, útil cuando hay muchas variables correlacionadas. |
| **Support Vector Regression (SVR)** (`SVR`) | Para problemas de regresión con datos no lineales. | Sensible a la escala de los datos, requiere normalización. |
| **Random Forest Regressor** (`RandomForestRegressor`) | Cuando se necesita manejar relaciones no lineales y reducir el sobreajuste. | Adecuado para conjuntos de datos grandes y variables con relaciones complejas. |
| **Gradient Boosting Regressor** (`GradientBoostingRegressor`) | Para obtener predicciones de alta precisión en problemas de regresión. | Puede ser propenso al sobreajuste si no se ajusta correctamente. |

### **Clasificación**
| Algoritmo | Cuándo Usarlo | Condiciones de Uso |
|-----------|-------------|--------------------|
| **Regresión Logística** (`LogisticRegression`) | Para clasificación binaria o multiclase cuando los datos son linealmente separables. | Supone independencia de predictores, sensible a valores atípicos. |
| **K-Nearest Neighbors (KNN)** (`KNeighborsClassifier`) | Cuando se necesita un modelo simple y sin supuestos fuertes. | No es eficiente en grandes volúmenes de datos, sensible a la escala de las variables. |
| **Support Vector Machine (SVM)** (`SVC`) | Para clasificación en espacios con dimensiones altas. | Sensible a la escala de los datos, puede ser costoso en grandes volúmenes. |
| **Árbol de Decisión** (`DecisionTreeClassifier`) | Cuando se necesita un modelo interpretable y fácil de visualizar. | Propenso al sobreajuste si no se poda correctamente. |
| **Random Forest** (`RandomForestClassifier`) | Para problemas con muchas variables y cuando se necesita robustez. | Reduce el sobreajuste de los árboles de decisión individuales. |
| **Gradient Boosting** (`GradientBoostingClassifier`) | Para mejorar el rendimiento en problemas complejos de clasificación. | Sensible a hiperparámetros, puede ser más lento que Random Forest. |
| **Naive Bayes** (`GaussianNB`, `MultinomialNB`) | Para clasificación de texto y datos categóricos. | Supone independencia entre las características, no siempre realista. |

### **Agrupamiento (Clustering)**
| Algoritmo | Cuándo Usarlo | Condiciones de Uso |
|-----------|-------------|--------------------|
| **K-Means** (`KMeans`) | Cuando se conoce el número de grupos en los datos. | Sensible a valores atípicos, requiere elección de `k`. |
| **DBSCAN** (`DBSCAN`) | Para datos con densidad variable y detección de outliers. | No requiere definir el número de clusters, pero depende de `eps` y `min_samples`. |
| **Mean Shift** (`MeanShift`) | Cuando no se conoce el número de clusters de antemano. | Automáticamente detecta el número de clusters, pero es computacionalmente costoso. |

### **Reducción de Dimensionalidad**
| Algoritmo | Cuándo Usarlo | Condiciones de Uso |
|-----------|-------------|--------------------|
| **PCA** (`PCA`) | Para reducir la dimensionalidad preservando la varianza de los datos. | Supone que los componentes principales explican la variabilidad más relevante. |
| **t-SNE** (`TSNE`) | Para visualizar datos en espacios de alta dimensión. | Requiere ajuste fino de hiperparámetros (`perplexity` y `learning_rate`). |


## Umbrales de métricas

Umbrales para interpretar las métricas en función del contexto del problema y la relación con el target:

| **Métrica**       | **Estadística del Target a Evaluar** | **Valor Excelente**                                                                 | **Valor Bueno**                                                                 | **Valor Malo**                                                                 | **Valor Pésimo**                                                              |
|--------------------|---------------------------------------|-------------------------------------------------------------------------------------|---------------------------------------------------------------------------------|--------------------------------------------------------------------------------|-------------------------------------------------------------------------------|
| **MSE (Mean Squared Error)** | Varianza del Target                  | MSE < 25% de la varianza del target                                                 | MSE entre 25%-50% de la varianza del target                                     | MSE entre 50%-75% de la varianza del target                                    | MSE > 75% de la varianza del target                                           |
| **MAE (Mean Absolute Error)** | Media del Target                     | MAE < 5% de la media del target                                                     | MAE entre 5%-10% de la media del target                                         | MAE entre 10%-20% de la media del target                                       | MAE > 20% de la media del target                                              |
| **R² (Coeficiente de Determinación)** | Varianza del Target                  | R² > 0.9 (explica más del 90% de la varianza)                                       | R² entre 0.7-0.9 (explica entre 70%-90% de la varianza)                         | R² entre 0.3-0.7 (explica entre 30%-70% de la varianza)                        | R² < 0.3 (explica menos del 30% de la varianza)                               |
| **Accuracy**       | Proporción de Clases Mayoritarias     | Accuracy > 0.9 (en problemas balanceados)                                           | Accuracy entre 0.8-0.9                                                          | Accuracy entre 0.6-0.8                                                         | Accuracy < 0.6                                                                |
| **F1-Score**       | Distribución de Clases                | F1-Score > 0.9 (excelente equilibrio entre precisión y recall)                      | F1-Score entre 0.7-0.9                                                          | F1-Score entre 0.5-0.7                                                         | F1-Score < 0.5                                                                |
| **Precision**      | Proporción de Clases Positivas        | Precision > 0.9 (muy baja tasa de falsos positivos)                                 | Precision entre 0.8-0.9                                                         | Precision entre 0.5-0.8                                                        | Precision < 0.5                                                               |
| **Recall**         | Proporción de Clases Positivas        | Recall > 0.9 (muy baja tasa de falsos negativos)                                    | Recall entre 0.7-0.9                                                            | Recall entre 0.5-0.7                                                           | Recall < 0.5                                                                  |
| **ROC-AUC**        | Distribución de Probabilidades        | ROC-AUC > 0.9 (excelente poder discriminativo)                                      | ROC-AUC entre 0.8-0.9                                                           | ROC-AUC entre 0.6-0.8                                                          | ROC-AUC < 0.6                                                                 |
| **Log Loss**       | Entropía del Target                   | Log Loss < 0.1 (probabilidades extremadamente bien calibradas)                      | Log Loss entre 0.1-0.5                                                          | Log Loss entre 0.5-1.0                                                         | Log Loss > 1.0                                                                |