# Algoritmos ML

## Aprendizaje supervisado vs Aprendizaje no supervisado


La principal diferencia es la presencia (o no) de columna respuesta (explicada, objetivo, dependiente...). 

El **aprendizaje supervisado** intenta predecir el valor de esa columna (si el usuario comprará un producto, la esperanza de vida, el riesgo de morosidad...) usando otras columnas de datos.

El **aprendizaje no supervisado** solamente usa esas otras columnas para organizar los datos, agrupándolos en categorías que previamente no existían.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Clasificación vs Regresión en ML

Naturaleza del resultado: 
- la clasificación se ocupa de resultados discretos (por ejemplo, sí/no, categorías)
- la regresión maneja valores continuos (por ejemplo, precio, temperatura).

Ambos enfoques requieren datos etiquetados para el entrenamiento, pero difieren en sus objetivos: 
- la clasificación apunta a encontrar límites de decisión que separen las clases
- la regresión se centra en encontrar la línea que mejor se ajuste para predecir resultados numéricos. 

Comprender estas distinciones ayuda a seleccionar el enfoque correcto para tareas específicas de aprendizaje automático.

![image.png](attachment:image.png)

## Límite de decisión vs. línea de mejor ajuste


### Límite de decisión en la clasificación
Es una superficie o línea que separa los puntos de datos en diferentes clases en un espacio de características . Puede ser  lineal  (una línea recta) o  no lineal  (una curva), según la complejidad de los datos y el algoritmo utilizado. 

Por ejemplo:
- Un límite de decisión lineal podría separar dos clases en un espacio 2D con una línea recta (por ejemplo, regresión logística).
- Un modelo más complejo puede crear límites no lineales para adaptarse mejor a conjuntos de datos complejos.

![image.png](attachment:image.png)

Durante el entrenamiento, el clasificador aprende a particionar el espacio de características encontrando un límite que minimice los errores de clasificación.

- Para la clasificación binaria, este límite separa los puntos de datos en dos grupos (por ejemplo, correos electrónicos spam y correos electrónicos que no son spam).
- En la clasificación multiclase, se crean múltiples límites para separar más de dos clases.

El límite de decisión no es inherente a los datos de entrenamiento sino que depende del clasificador utilizado; entenderemos más sobre los clasificadores en el próximo capítulo.

### Línea de mejor ajuste en regresión
En regresión, una  línea de mejor ajuste  (o línea de regresión) representa la relación entre variables independientes (entradas) y una variable dependiente (salida). 

Se utiliza para predecir valores numéricos continuos que capturan tendencias y relaciones dentro de los datos, lo que permite realizar predicciones precisas de variables continuas. 

La línea de mejor ajuste puede ser lineal o no lineal:
- Para la regresión lineal se utiliza una línea recta.
- Las curvas se utilizan para regresiones más complejas, como la regresión polinomial.

![image.png](attachment:image.png)

El gráfico demuestra la regresión, donde se utilizan modelos lineales y polinomiales para predecir valores objetivo continuos basados ​​en la característica de entrada, en contraste con la clasificación, que crearía límites de decisión para separar clases discretas.

### Comparación entre clasificación y regresión

| ****Característica**** | ****Clasificación**** | ****Regresión**** |
| --- | --- | --- |
| Tipo de salida | En este enunciado del problema, las variables objetivo son discretas.<br><br>Categorías discretas (por ejemplo, “spam” o “no spam”) | Valor numérico continuo (por ejemplo, precio, temperatura). |
| Meta | Para predecir a qué categoría pertenece un punto de datos. | Predecir un valor numérico exacto basándose en datos de entrada. |
| Problemas de ejemplo | Detección de spam de correo electrónico, reconocimiento de imágenes, análisis de sentimiento del cliente. | Predicción de precios de vivienda, previsión del mercado de valores, predicción de ventas. |
| Métricas de evaluación | Métricas de evaluación como precisión, recuperación y puntuación F1 | Error cuadrático medio, puntuación R2 , MAPE y RMSE. |
| Límite de decisión | Límites claramente definidos entre las diferentes clases. | Sin límites definidos, se centra en encontrar la línea de mejor ajuste. |
| Algoritmos comunes | Regresión logística, árboles de decisión, máquinas de vectores de soporte (SVM) | Regresión lineal, regresión polinomial, árboles de decisión (con objetivo de regresión). |

## Algoritmos No Supervisados

A diferencia del aprendizaje supervisado, donde los datos están etiquetados con una categoría o resultado específico, los algoritmos de aprendizaje no supervisado tienen la tarea de encontrar patrones y relaciones dentro de los datos sin ningún conocimiento previo del significado de los datos, y sin ninguna intervención humana. 

> El modelo de entrenamiento solo tiene valores de parámetros de entrada y descubre los grupos o patrones por sí solo.

![image.png](attachment:image.png)

Las entrada a los modelos de aprendizaje no supervisado pueden ser: 

- **Datos no estructurados**: pueden contener datos ruidosos (sin sentido), valores faltantes o datos desconocidos.
- **Datos sin etiquetar**: los datos solo contienen un valor para los parámetros de entrada, no hay ningún valor objetivo (salida). Son más fáciles de recopilar que los datos etiquetados en el enfoque supervisado.



### Algoritmos de aprendizaje no supervisado
Hay principalmente 3 tipos de algoritmos:

- **Clustering** (agrupamiento de datos no etiquetados)
    - Agrupamiento K-medias: agrupa los datos en K grupos en función de qué tan cerca están los puntos entre sí.
    - Agrupamiento jerárquico: crea clústeres construyendo un árbol paso a paso, ya sea fusionando o dividiendo grupos.
    - Agrupamiento basado en densidad (DBSCAN): encuentra grupos en áreas densas y trata los puntos dispersos como ruido.
    - Agrupamiento por desplazamiento medio: descubre agrupaciones moviendo puntos hacia las áreas más pobladas.
    - Agrupamiento espectral: agrupa datos analizando las conexiones entre puntos mediante gráficos.
- **Aprendizaje de reglas de asociación** (minería de reglas de asociación)
    - Algoritmo Apriori :  encuentra patrones explorando combinaciones frecuentes de elementos paso a paso.
    - Algoritmo FP-Growth :  una alternativa eficiente a Apriori. Identifica rápidamente patrones frecuentes sin generar conjuntos de candidatos.
    - Algoritmo Eclat :  utiliza intersecciones de conjuntos de elementos para encontrar patrones frecuentes de manera eficiente.
    - Algoritmos eficientes basados ​​en árboles :  escalables para manejar grandes conjuntos de datos organizando los datos en estructuras de árboles.

- **Reducción de dimensionalidad** (conservando la mayor cantidad de información posible)
    - Análisis de componentes principales (PCA) :  reduce las dimensiones transformando los datos en componentes principales no correlacionados.
    - Análisis discriminante lineal (LDA) :  reduce las dimensiones mientras maximiza la separabilidad de clases para tareas de clasificación.
Factorización matricial no negativa (NMF ):  divide los datos en partes no negativas para simplificar la representación.
    - Incrustaciones lineales locales (LLE) :  reduce las dimensiones mientras conserva las relaciones entre los puntos cercanos.
    - Isomap :  captura la estructura de datos global preservando las distancias a lo largo de una variedad.

## Algoritmos de ML a tener en cuenta (2025)

| Algoritmo                | Tipo                      | Uso más común                                         | Módulo de scikit-learn                                                                                   |
|--------------------------|--------------------------|-------------------------------------------------------|-----------------------------------------------------------------------------------------------------------|
| Regresión Lineal         | Regresión                | Predicción de valores continuos                       | [`linear_model.LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) |
| Regresión Logística      | Clasificación            | Clasificación binaria                                 | [`linear_model.LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) |
| Naive Bayes              | Clasificación            | Clasificación de texto y filtrado de spam             | [`naive_bayes`](https://scikit-learn.org/stable/modules/naive_bayes.html)                                 |
| Árbol de Decisión        | Clasificación, Regresión | Problemas de decisión y análisis predictivo          | [`tree.DecisionTreeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) (clasificación), [`tree.DecisionTreeRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) (regresión) |
| Bosque Aleatorio (Random Forest) | Clasificación, Regresión | Predicción y análisis de variables importantes | [`ensemble.RandomForestClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) (clasificación), [`ensemble.RandomForestRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html) (regresión) |
| K-Nearest Neighbors (KNN) | Clasificación, Regresión | Reconocimiento de patrones y sistemas de recomendación | [`neighbors.KNeighborsClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) (clasificación), [`neighbors.KNeighborsRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html) (regresión) |
| K-Means                  | Clustering (Unsupervised)             | Agrupamiento de datos no etiquetados                  | [`cluster.KMeans`](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)           |
| Support Vector Machine (SVM) | Clasificación, Regresión | Detección de patrones y separación de clases complejas | [`svm.SVC`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) (clasificación), [`svm.SVR`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html) (regresión) |
| Apriori                  | Asociación (Unsupervised)              | Minería de reglas de asociación                       | No implementado en scikit-learn                                                                            |
| Gradient Boosting        | Clasificación, Regresión | Predicción con alta precisión y manejo de datos desbalanceados | [`ensemble.GradientBoostingClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) (clasificación), [`ensemble.GradientBoostingRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html) (regresión) |
