# Probabilidad y estadística

## Sesgo y Varianza 

El **sesgo** y la **varianza** son conceptos clave para comprender el rendimiento y las limitaciones de los modelos en **machine learning**, especialmente en el contexto del **trade-off sesgo-varianza**. Estas medidas se utilizan para analizar los errores de los modelos y balancear su capacidad de generalización.

---

### **1. Sesgo**
El **sesgo** mide cuánto se alejan las predicciones promedio de un modelo del valor real esperado. En otras palabras, evalúa si el modelo es demasiado **simplista** para capturar la complejidad de los datos.

- **Modelos con alto sesgo:** Tienden a ser demasiado simples (subajuste) y no capturan la verdadera relación en los datos. Ejemplo: usar una línea recta para modelar datos claramente no lineales.
- **Errores comunes por sesgo:** 
  - Predicciones sistemáticamente incorrectas.
  - Falta de capacidad del modelo para aprender patrones complejos.

**Ejemplo**: Si intentas predecir los precios de casas usando solo el tamaño como variable, ignorando otras características importantes como la ubicación, el modelo puede tener un alto sesgo.

---

### **2. Varianza**
La **varianza** mide cuánto varían las predicciones del modelo en diferentes subconjuntos de los datos de entrenamiento. Se relaciona con la **sensibilidad del modelo a las fluctuaciones** en los datos.

- **Modelos con alta varianza:** Son demasiado complejos y tienden a sobreajustar (overfitting), capturando ruido en lugar de patrones generalizables.
- **Errores comunes por varianza:**
  - Predicciones inconsistentes en diferentes conjuntos de datos.
  - Generalización deficiente a datos no vistos.

**Ejemplo**: Si un modelo utiliza demasiadas características irrelevantes o pequeñas fluctuaciones en los datos de entrenamiento, puede ajustarse demasiado a esos detalles y rendir mal en nuevos datos.

---

### **Trade-off Sesgo-Varianza**
Hay una compensación natural entre sesgo y varianza:
- Modelos simples (alta sesgo, baja varianza): Subajuste.
- Modelos complejos (bajo sesgo, alta varianza): Sobreajuste.

El objetivo es encontrar un equilibrio que minimice el **error total**, que se compone de:
\[
\text{Error Total} = \text{Sesgo}^2 + \text{Varianza} + \text{Error Irreducible}
\]

Donde:
- **Sesgo²:** Error debido a las suposiciones simplistas del modelo.
- **Varianza:** Error debido a la sensibilidad a los datos de entrenamiento.
- **Error irreducible:** Error inherente al ruido en los datos.

---

### **Usos en Machine Learning**

1. **Diagnóstico de problemas:**
   - **Alto sesgo:** Se necesitan modelos más complejos o más características.
   - **Alta varianza:** Reducir la complejidad del modelo o usar más regularización.

2. **Selección de modelos:**
   - Elegir entre modelos simples (sesgo alto) y complejos (varianza alta) según los datos disponibles y el problema.

3. **Validación cruzada:**
   - Identificar el punto en el que se logra el mejor equilibrio entre sesgo y varianza.

4. **Técnicas de preprocesamiento:**
   - Para modelos con alta varianza, usar métodos como PCA o seleccionar menos características puede ser útil.

---

En resumen, comprender y manejar el **sesgo** y la **varianza** es fundamental para diseñar modelos que generalicen bien a datos no vistos, logrando un buen equilibrio entre simplicidad y complejidad.

---

## Desviación estándar 

La **desviación estándar** es una medida de la **dispersión** o **variabilidad** de un conjunto de datos. Nos indica, en promedio, qué tan lejos están los valores individuales de su media. Es útil en machine learning porque proporciona una idea de cómo se distribuyen los datos, lo cual es crucial para tomar decisiones informadas sobre el preprocesamiento, la elección de algoritmos y la evaluación de modelos.

### Fórmula:
La desviación estándar (\(\sigma\)) se calcula como:

\[
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2}
\]

Donde:
- \(x_i\) = cada dato individual
- \(\bar{x}\) = media de los datos
- \(n\) = número de datos

### Usos en Machine Learning:

1. **Detección de valores atípicos (outliers):**
   - Los datos con valores muy alejados de la media pueden ser problemáticos. La desviación estándar ayuda a identificar puntos que están a varias desviaciones estándar de la media.

2. **Normalización y estandarización de datos:**
   - Para mejorar el desempeño de algoritmos sensibles a escalas, como la regresión logística o SVM, los datos suelen ser escalados. Al usar la desviación estándar, se convierten las variables a una escala uniforme (media = 0, desviación estándar = 1).

   Fórmula de estandarización:
   \[
   z = \frac{x - \mu}{\sigma}
   \]

3. **Análisis de la dispersión de los datos:**
   - Ayuda a comprender la variabilidad de los datos. Por ejemplo, si una variable tiene una desviación estándar alta, significa que los valores están ampliamente dispersos. Esto puede indicar la necesidad de preprocesamiento.

4. **Evaluación de modelos:**
   - En la validación cruzada o pruebas repetidas, la desviación estándar de las métricas de desempeño (como precisión o error) indica si un modelo es consistente. Un modelo con baja desviación estándar es más confiable.

5. **Reducción de dimensionalidad:**
   - Al usar técnicas como PCA (análisis de componentes principales), las variables con menor desviación estándar contribuyen menos a la variabilidad general, lo que puede ayudar a identificar qué características son más relevantes.

En resumen, la desviación estándar es una herramienta clave en machine learning para entender, procesar y evaluar los datos y los modelos, contribuyendo a obtener mejores resultados.
 
---

## xxxxxxxx

---

## xxxxxxxx
 
---

## xxxxxxxx

---

## xxxxxxxx
 
---

## xxxxxxxx

---

## xxxxxxxx
 
---

## xxxxxxxx

---

## xxxxxxxx
 
---

## xxxxxxxx

---

## xxxxxxxx
 
---

## xxxxxxxx

---

## xxxxxxxx
