<a href="https://colab.research.google.com/github/Giraldo0712/TAM_2025_2/blob/main/Parcial_1_TAM/Puntos_2_y_3_Parcial_TAM_2025_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Punto 2**

## Cuadro comparativo de modelos de regresión (Scikit-learn)

A continuación se presenta una comparación de diferentes modelos de regresión implementados en *Scikit-learn*.  
En cada caso se analiza el modelo matemático, la función de costo que minimizan, el método de optimización que utilizan, su relación con la regresión lineal básica y su escalabilidad.

| Modelo | Modelo matemático | Función de costo | Estrategia de optimización | Relación con modelos básicos | Escalabilidad |
|---------|------------------|------------------|-----------------------------|-------------------------------|----------------|
| **LinearRegression** | $$y = Xw + b$$ | Minimiza el **error cuadrático medio (MSE)**: $$J(w) = \frac{1}{2N}\|y - Xw\|^2$$ | Se obtiene de forma **analítica** resolviendo las ecuaciones normales o mediante descomposición SVD. | Es el modelo base de la regresión lineal (mínimos cuadrados ordinarios). Sirve como punto de partida para los modelos con regularización. | Funciona muy bien con conjuntos de datos pequeños o medianos. Su costo crece con el cubo del número de variables (\(O(n^3)\)). |
| **Lasso** | $$y = Xw + b$$ | Minimiza el MSE con una **penalización L1**: $$J(w) = \frac{1}{2N}\|y - Xw\|^2 + \lambda \|w\|_1$$ | Usa **coordinate descent**, ajustando cada peso de forma iterativa. | Se basa en la regresión lineal, pero agrega una penalización que obliga a que algunos pesos sean exactamente cero (selección de variables). | Escalable para un número moderado de variables, aunque se vuelve más costoso con muchas características. |
| **ElasticNet** | $$y = Xw + b$$ | Combina las penalizaciones L1 y L2: $$J(w) = \frac{1}{2N}\|y - Xw\|^2 + \alpha [\rho\|w\|_1 + (1-\rho)\|w\|_2^2]$$ | Usa **coordinate descent**, igual que Lasso, pero combinando ambos tipos de regularización. | Es un punto medio entre Lasso y Ridge; mantiene estabilidad sin perder capacidad de selección de variables. | Más estable que Lasso cuando hay variables correlacionadas. Escalable para datasets medianos. |
| **KernelRidge** | $$y = K\alpha$$, donde \(K\) es la matriz de kernel | Minimiza $$J(\alpha) = \|y - K\alpha\|^2 + \lambda \|\alpha\|^2$$ | Tiene una **solución cerrada** similar a Ridge, pero en el espacio de características definido por el kernel. | Extiende la regresión Ridge a relaciones no lineales gracias al uso de kernels. | Escalabilidad limitada, ya que necesita invertir una matriz de tamaño \(n \times n\). Complejidad \(O(n^3)\). |
| **SGDRegressor** | $$y = Xw + b$$ | Minimiza una función de pérdida (por ejemplo, MSE) más regularización L1/L2. | Utiliza **descenso estocástico del gradiente (SGD)**, actualizando los pesos con pequeños lotes de datos. | Es una versión iterativa de modelos como Ridge o Lasso, útil cuando el dataset es muy grande. | Muy escalable y rápido; se adapta bien a big data o flujos de datos continuos. |
| **BayesianRidge** | $$y = Xw + b + \epsilon,\quad \epsilon \sim \mathcal{N}(0, \sigma^2)$$ | Maximiza la **verosimilitud bayesiana** suponiendo priors Gaussianos sobre \(w\). | Calcula una **distribución posterior analítica** para \(w\) y \(\sigma^2\). | Se puede ver como una versión probabilística de Ridge; en vez de un punto óptimo, produce una distribución sobre los coeficientes. | Escalable para conjuntos medianos; más costoso que Ridge por el cálculo de la inferencia bayesiana. |
| **GaussianProcessRegressor** | $$f(x) \sim \mathcal{GP}(m(x), k(x,x'))$$ | Maximiza la **log-verosimilitud marginal** del proceso Gaussiano. | Ajusta los **hiperparámetros del kernel** mediante gradiente. | Es un modelo completamente bayesiano y no paramétrico; generaliza KernelRidge en un marco probabilístico. | Poco escalable: necesita invertir una matriz \(n \times n\) (\(O(n^3)\)). Ideal para datasets pequeños. |
| **SVR (Support Vector Regressor)** | $$f(x) = w^\top \phi(x) + b$$ | Minimiza una pérdida **ε-insensible** con penalización L2. | Usa **programación cuadrática convexa** para encontrar los vectores soporte. | Amplía la regresión lineal usando kernels y un margen de tolerancia ε alrededor de los datos. | Escalabilidad limitada (entre \(O(n^2)\) y \(O(n^3)\)), aunque eficaz para datasets medianos. |
| **RandomForestRegressor** | $$f(x) = \frac{1}{M}\sum_{m=1}^M f_m(x)$$ | MSE promediado entre árboles. | Entrena muchos árboles de decisión usando **bagging** y selección aleatoria de características. | No deriva de la regresión lineal; aprende relaciones no lineales de forma automática. | Muy escalable y paralelizable; se adapta bien a grandes volúmenes de datos. |
| **GradientBoosting / XGBoost** | $$f(x) = \sum_m \gamma_m h_m(x)$$ | Minimiza una pérdida diferenciable (MSE, MAE, etc.) agregando árboles secuencialmente. | Usa **gradiente descendente** sobre árboles base. | Es un ensamble aditivo que mejora el error de forma iterativa. XGBoost es una versión optimizada y más rápida. | Extremadamente escalable, con soporte para CPU y GPU, ideal para competiciones y grandes datasets. |


# **Punto 3**

## 🧮 Punto 3 — Librería RAPIDS y comparación de regresores

## ¿Qué es RAPIDS?

**RAPIDS** es un ecosistema de librerías de *machine learning* y *data science* desarrollado por **NVIDIA**, diseñado para ejecutar todo el flujo de trabajo de análisis de datos directamente en la **GPU**.

RAPIDS está construido sobre la arquitectura **CUDA** y permite realizar operaciones que normalmente se ejecutan en CPU (como en *pandas* o *scikit-learn*) de forma **masivamente paralela** en la GPU, logrando **aceleraciones de hasta 100 veces** en ciertos casos.

---

## ⚙️ Componentes principales

| Componente | Función principal | Equivalente en CPU |
|-------------|-------------------|--------------------|
| **cuDF** | Manipulación de datos tabulares en GPU | `pandas` |
| **cuML** | Algoritmos de *machine learning* clásicos (regresión, clasificación, clustering, PCA, etc.) | `scikit-learn` |
| **cuGraph** | Análisis de grafos | `NetworkX` |
| **cuSignal / cuSpatial / cuXfilter** | Señales, datos geoespaciales y visualización | Módulos especializados |

En este punto nos centraremos en **cuML**, ya que implementa los modelos de regresión equivalentes a los vistos en *Scikit-learn*.

---

## ⚡ Funcionamiento general de RAPIDS

1. **Carga de datos:** Se utilizan estructuras `cuDF.DataFrame`, análogas a los `DataFrame` de *pandas*, pero almacenadas directamente en memoria GPU.
2. **Entrenamiento:** Los modelos de `cuML` se ejecutan completamente en la GPU, sin transferencias de datos hacia la CPU.
3. **Predicción:** También se realiza en GPU, reduciendo los cuellos de botella de comunicación.

Este flujo hace que RAPIDS sea especialmente útil en entornos de **Big Data** o cuando se requiere **entrenar modelos de manera iterativa** y rápida.

---

## 📊 Comparación entre modelos de *Scikit-learn* y *RAPIDS (cuML)*

| **Modelo (Scikit-learn)** | **Implementación equivalente en RAPIDS (cuML)** | **Principales hiperparámetros** | **Estrategia de optimización** | **Comentarios / Diferencias** |
|-----------------------------|-------------------------------------------------|----------------------------------|--------------------------------|--------------------------------|
| **LinearRegression** | `cuml.LinearRegression` | `fit_intercept`, `normalize`, `algorithm` | Solución analítica (ecuaciones normales o QR) | Misma API que sklearn; cálculo en GPU. |
| **Ridge (Mínimos cuadrados regularizados)** | `cuml.Ridge` | `alpha`, `fit_intercept`, `solver` | Solución cerrada (analítica) | Igual a Ridge clásico pero acelerado en GPU. |
| **Lasso** | `cuml.Lasso` | `alpha`, `max_iter`, `tol` | Coordinate Descent | Idéntico a sklearn, pero más rápido para datos grandes. |
| **ElasticNet** | `cuml.ElasticNet` | `alpha`, `l1_ratio`, `max_iter`, `tol` | Coordinate Descent | Combina regularización L1 y L2 igual que en sklearn. |
| **KernelRidge** | — *(no implementado directamente)* | — | — | Puede aproximarse con `cuml.SVR` usando kernel RBF o lineal. |
| **SGDRegressor** | `cuml.SGD` *(clasificador o regresor)* | `loss`, `penalty`, `alpha`, `learning_rate`, `eta0` | Descenso estocástico del gradiente | Muy escalable y eficiente en GPU. |
| **BayesianRidge** | — *(no disponible en cuML)* | — | — | Puede aproximarse con modelos lineales o PyMC3 en GPU. |
| **GaussianProcessRegressor** | — *(no disponible aún en cuML)* | — | — | Computacionalmente costoso; no escalable a GPU actualmente. |
| **SVR (Support Vector Regressor)** | `cuml.SVR` | `C`, `epsilon`, `kernel`, `degree`, `gamma`, `coef0` | Programación cuadrática convexa | Soporta kernels RBF, lineal y polinomial. |
| **RandomForestRegressor** | `cuml.ensemble.RandomForestRegressor` | `n_estimators`, `max_depth`, `max_features`, `n_bins` | Bagging de árboles GPU-paralelo | Entrenamiento masivo en paralelo, resultados idénticos a sklearn. |
| **GradientBoosting / XGBoost** | `cuml.ensemble.GradientBoostingRegressor` o `xgboost.XGBRegressor(tree_method='gpu_hist')` | `n_estimators`, `learning_rate`, `max_depth`, `subsample` | Boosting por gradiente | Totalmente optimizado para GPU; escalabilidad extrema. |
