# FUNDAMENTOS DE ESTADÍSTICA

La estadística es una rama fundamental de las matemáticas que se encarga de la **recolección, organización, análisis e interpretación de datos**. Es la base del aprendizaje automático, ya que permite comprender y modelar los datos con los que los algoritmos aprenden.

La estadística puede dividirse en dos grandes áreas:

1. **Estadística descriptiva**: resume y presenta la información contenida en los datos.
2. **Estadística inferencial**: permite hacer predicciones o inferencias sobre una población a partir de una muestra.

## MEDIDAS DE TENDENCIA CENTRAL

Estas medidas indican el valor alrededor del cual se agrupan los datos.

- **Media (promedio)**:
  \begin{equation}
  \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
  \end{equation}

- **Mediana**: valor central cuando los datos están ordenados.

- **Moda**: valor que más se repite en el conjunto de datos.

In [ ]:
import numpy as np
import pandas as pd

# Ejemplo de medidas de tendencia central
data = np.array([2, 3, 5, 7, 7, 10, 15])

mean = np.mean(data)
median = np.median(data)
mode = pd.Series(data).mode()[0]

print(f"Media: {mean}")
print(f"Mediana: {median}")
print(f"Moda: {mode}")

## MEDIDAS DE DISPERSIÓN

Estas medidas muestran el grado de variabilidad de los datos.

- **Rango**: diferencia entre el valor máximo y el mínimo.
  \begin{equation}
  R = x_{\text{max}} - x_{\text{min}}
  \end{equation}

- **Varianza**:
  \begin{equation}
  s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
  \end{equation}

- **Desviación estándar**:
  \begin{equation}
  s = \sqrt{s^2}
  \end{equation}

In [ ]:
varianza = np.var(data, ddof=1)
desviacion = np.std(data, ddof=1)
rango = np.max(data) - np.min(data)

print(f"Varianza: {varianza}")
print(f"Desviación estándar: {desviacion}")
print(f"Rango: {rango}")

## DISTRIBUCIONES DE PROBABILIDAD

Las **distribuciones** describen cómo se comportan los datos. Entre las más comunes:

- **Distribución uniforme**: todos los valores son igualmente probables.
- **Distribución normal o gaussiana**: tiene forma de campana.

La función de densidad de la distribución normal es:
\begin{equation}
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
\end{equation}

donde $\mu$ es la media y $\sigma$ la desviación estándar.

In [ ]:
import matplotlib.pyplot as plt
import seaborn as sns

mu, sigma = 0, 1
x = np.random.normal(mu, sigma, 1000)

sns.histplot(x, kde=True, color='skyblue')
plt.title('Distribución Normal (μ=0, σ=1)')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')
plt.show()

## CORRELACIÓN Y COVARIANZA

Estas medidas indican cómo se relacionan dos variables.

- **Covarianza**:
\begin{equation}
cov(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
\end{equation}

- **Coeficiente de correlación de Pearson**:
\begin{equation}
r = \frac{cov(X,Y)}{s_X s_Y}
\end{equation}

In [ ]:
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

cov = np.cov(x, y, ddof=1)[0,1]
corr = np.corrcoef(x, y)[0,1]

print(f"Covarianza: {cov}")
print(f"Correlación de Pearson: {corr}")

## ANÁLISIS EXPLORATORIO DE DATOS (EDA)

El **EDA** busca comprender el comportamiento de los datos antes de aplicar modelos de aprendizaje automático.
Las etapas incluyen:
1. Análisis descriptivo (resumen estadístico)
2. Visualización de distribuciones y relaciones
3. Detección de valores atípicos y correlaciones

In [ ]:
# Cargamos un dataset de ejemplo
from sklearn.datasets import load_iris

iris = load_iris(as_frame=True)
df = iris.frame

# Resumen estadístico
print(df.describe())

# Visualización pairplot
sns.pairplot(df, hue='target', palette='viridis')
plt.show()

### Conclusión

Los fundamentos estadísticos son esenciales para el aprendizaje automático. Comprender medidas como la media, varianza, correlación o distribuciones probabilísticas permite **interpretar y preparar los datos adecuadamente** antes de entrenar cualquier modelo. El análisis exploratorio de datos (EDA) es la herramienta que traduce estos fundamentos en práctica.