
## 1. Cross Validación
La validación cruzada es una técnica para evaluar la capacidad predictiva de un modelo dividiendo los datos en partes (folds). Los tipos más comunes son:

- **K-Fold Cross Validation**: Se divide el dataset en \( k \) partes, entrenando en \( k-1 \) y probando en la restante, repitiendo \( k \) veces.
- **Leave-One-Out (LOO)**: Cada observación es usada como test, y el resto como entrenamiento.
- **Stratified K-Fold**: Como K-Fold, pero mantiene la proporción de clases en clasificación.

---

## 2. Descenso en Gradiente
Es un algoritmo de optimización iterativa usado para minimizar funciones de costo en modelos de Machine Learning. La idea es ajustar los parámetros moviéndose en la dirección opuesta al gradiente de la función de pérdida.

 Variantes:

- **Batch Gradient Descent**: Usa todo el dataset en cada iteración.
- **Stochastic Gradient Descent (SGD)**: Usa una muestra aleatoria por iteración, reduciendo el costo computacional.
- **Mini-batch Gradient Descent**: Usa pequeños subconjuntos de datos, combinando batch y SGD.

### ¿Qué es Descenso Gradiente? 
El descenso en gradiente es un algoritmo que se utiliza para minimizar una función de costo, donde se ajustan los parámetros del modelo de manera iterativa(que se repite). Su objetivo es encontrar los valores óptimos de los parámetros moviéndose en la dirección opuesta al gradiente de la función de pérdida.

Los parámetros $\theta_0, \theta_1, \theta_2$ se actualizan iterativamente según la regla del descenso por gradiente:

$\theta_j := \theta_j - \alpha \frac{\partial J}{\partial \theta_j}$

Donde:
- $\alpha$ es la tasa de aprendizaje, que determina el tamaño de los pasos.
- $(j \in \{0, 1, 2\}$) indica cada parámetro.

De forma explícita, las actualizaciones son:

$\theta_0 := \theta_0 - \alpha \cdot \frac{1}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) $

$\theta_1 := \theta_1 - \alpha \cdot \frac{1}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) x^{(i)}$

$\theta_2 := \theta_2 - \alpha \cdot \frac{1}{m} \sum_{i=1}^m \left( \hat{y}^{(i)} - y^{(i)} \right) (x^{(i)})^2$


## Iteración hasta convergencia

El proceso completo se puede resumir en los siguientes pasos:

1. Inicializar los parámetros $\theta_0$, $\theta_1$, $\theta_2$ con valores aleatorios o ceros.
2. Calcular las predicciones $\hat{y}^{(i)}$ para todos los datos.
3. Calcular las derivadas parciales $\frac{\partial J}{\partial \theta_j}$.
4. Actualizar los parámetros $\theta_0$, $\theta_1$, $\theta_2$) usando las reglas del descenso por gradiente.
5. Repetir hasta que \(J\) converja.




---

## 3. Regresiones Lineales Simples
Modelo que ajusta una línea recta:
$ y = \beta_0 + \beta_1 x + \epsilon $

Donde:

- $ \beta_0 $ es la intersección.
- $ \beta_1 $ es la pendiente.
- $ \epsilon $ es el error aleatorio.

Se entrena minimizando la suma de los cuadrados de los residuos:
$ \sum (y_i - \hat{y}_i)^2 $

---

## 4. Regresiones Polinomiales
Extensión de la regresión lineal, pero usando términos de mayor grado:
$ y = \beta_0 + \beta_1 x + \beta_2 x^2 + ... + \beta_n x^n + \epsilon $

Aumenta la capacidad del modelo para capturar relaciones no lineales, pero puede llevar a overfitting si el grado es muy alto.

La regresión polinómica se utiliza para modelar relaciones no lineales entre la variable independiente \(x\) y la variable dependiente \(y\). 

#### Polinomio de grado 2:

$\hat{y} = \theta_0 + \theta_1 x + \theta_2 x^2$

Donde:
- $(\hat{y})$ es la predicción.
- $(\theta_0, \theta_1, \theta_2)$ son los parámetros del modelo.
- $(x$ es la característica de entrada.


---

## 5. Categorizar Variables
En Machine Learning, las variables categóricas deben convertirse a numéricas para ser usadas en modelos. Técnicas comunes:

- **One-Hot Encoding**: Convierte cada categoría en una columna binaria (0 o 1).
- **Label Encoding**: Asigna números enteros a cada categoría, pero introduce un orden artificial.
- **Target Encoding**: Sustituye la categoría por la media de la variable objetivo (riesgo de overfitting).

---

## 6. Prueba de Hipótesis
Proceso estadístico para tomar decisiones sobre una población basándose en una muestra.

Pasos típicos:
1. Formular hipótesis: $ H_0 $ (hipótesis nula) y $ H_A $ (hipótesis alternativa).
2. Elegir nivel de significancia ($ \alpha $, comúnmente 0.05).
3. Elegir estadístico de prueba (t-student, chi-cuadrado, etc.).
4. Calcular p-valor y comparar con $ \alpha $.
5. Tomar decisión: si $ p $-valor < $ \alpha $, se rechaza $ H_0 $.

---

## 7. Análisis Bigarrados
Se refiere a la exploración de relaciones entre dos variables cuantitativas mediante medidas como la correlación de Pearson y la covarianza.

---

## 8. Teorema de Frisch-Waugh-Lovell
Dice que en un modelo de regresión múltiple, el coeficiente estimado de una variable es el mismo que se obtendría al ajustar los residuos de las demás variables y luego hacer una regresión sobre esos residuos. Es útil para entender cómo aislar el efecto de una variable en presencia de otras.

---

## 9. R² Score (Coeficiente de Determinación)
Mide qué tan bien un modelo explica la variabilidad de la variable objetivo. Se calcula como:
$ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} $

Donde:

- $ SS_{res} $ es la suma de los cuadrados de los residuos.
- $ SS_{tot} $ es la suma de los cuadrados totales.

Valores cercanos a 1 indican buen ajuste, mientras que valores cercanos a 0 sugieren que el modelo no explica bien la variabilidad.


---

## 10. KNN
Es un algoritmo de aprendizaje supervisado usado para clasificación y regresión. Su principio es simple: predice un valor o categoría basado en los K vecinos más cercanos en el espacio de características.


1- Se elige un número  K de vecinos (hiperparámetro).

2- Para una nueva observación, se calculan las distancias con todos los datos de entrenamiento.

3- Se seleccionan los  K vecinos más cercanos. 

4- Se predice el promedio de los valores de los K vecinos.

