# Fundamentos de Probabilidad, Distribuciones y Estadística Inferencial

**Curso:** Fundamentos de Programación y Analítica de Datos con Python  
**Duración estimada del bloque:** 2 horas (dentro de la sesión de 4 horas)  

## Objetivos específicos
- Explicar formalmente los conceptos de probabilidad, variable aleatoria y distribución.
- Simular fenómenos aleatorios y estimar parámetros con Python de forma reproducible.
- Construir e interpretar intervalos de confianza para medias y proporciones.
- Formular y ejecutar pruebas de hipótesis (t de Student, proporciones) e interpretar p-valores.
- Adoptar buenas prácticas de reporte y validación estadística en análisis de datos.

## Prerrequisitos
- Conocimientos básicos de Python (tipos, control de flujo, funciones).
- Nociones elementales de álgebra y cálculo diferencial (deseable, no obligatorio).

## Tema 1 — Probabilidad, Variables Aleatorias y Distribuciones

### Definición
- **Probabilidad**: medida (entre 0 y 1) asociada a la ocurrencia de eventos bajo incertidumbre.
- **Variable aleatoria (V.A.)**: función que asigna números a los resultados de un experimento aleatorio.
- **Distribución**: describe la probabilidad (discreta) o densidad (continua) de una V.A. (p.ej., Bernoulli, Binomial, Poisson, Normal).

Formalmente, una V.A. discreta \(X\) tiene **función de probabilidad** \(P(X=x)\).
Una V.A. continua \(Y\) tiene **función de densidad** \(f_Y(y)\) y **función de distribución** \(F_Y(y)=P(Y\le y)\).

### Importancia en programación y analítica de datos
- Modela fenómenos inciertos (demanda, fallas, tiempos de espera, ruido de medición).
- Permite **simulación** para comprender comportamientos cuando no hay datos abundantes.
- Facilita el **muestreo** y la **estimación** de parámetros usados en modelos de ML.

### Buenas prácticas y errores comunes
**Buenas prácticas**
- Fijar semillas aleatorias para reproducibilidad.
- Verificar supuestos (independencia, forma de la distribución) antes de concluir.
- Visualizar: histogramas para discretas/continuas, funciones de masa/densidad.

**Errores comunes**
- Confundir probabilidad con frecuencia relativa en muestras pequeñas.
- Asumir normalidad sin contrastes visuales/numéricos.

In [None]:

# TODO: Ejemplo: simulación de un dado y de una variable normal

## Tema 2 — Estimación, Intervalos de Confianza y Pruebas de Hipótesis

### Definición
- **Estimación puntual**: obtener un valor para un parámetro (p.ej., \(\hat{\mu}\) para la media).
- **Intervalo de confianza (IC)**: rango que, bajo supuestos, contiene al parámetro con una confianza (p.ej., 95%).
- **Prueba de hipótesis**: contraste entre una hipótesis nula \(H_0\) y alternativa \(H_1\) usando un estadístico y p-valor.

### Importancia en programación y analítica de datos
- Cuantifica la **incertidumbre** de estimaciones.
- Permite tomar decisiones con **riesgo controlado** (nivel de significancia \(\alpha\)).
- Es base para validación temprana antes de usar modelos complejos.

### Buenas prácticas y errores comunes
**Buenas prácticas**
- Reportar IC junto con estimaciones puntuales.
- Distinguir significancia estadística de **relevancia práctica**.
- Verificar supuestos (independencia, normalidad aproximada, tamaño muestral).

**Errores comunes**
- Interpretar el IC como probabilidad “de que el parámetro esté en el intervalo” (frecuentista ≠ bayesiana).
- Concluir causalidad a partir de correlación o diferencias significativas.

In [None]:

# TODO: Ejemplo: IC de la media y prueba t de Student

# Ejercicios Integradores

A continuación se presentan ejercicios que integran los conceptos de probabilidad, simulación, estimación, intervalos y pruebas de hipótesis.
Cada ejercicio incluye contexto técnico, datos/entradas, requerimientos, criterios de aceptación y pistas.

**Ejercicio 1 — Control de calidad en manufactura (proporciones)**

- **Contexto técnico (rol/situación/impacto)**: 
  Eres analista de calidad en una planta. Quieres comprobar si la tasa de defectos supera el 3% establecido por contrato.
- **Datos/entradas**: 
  Observaste \(n=500\) unidades y registraste \(k=22\) defectuosas.
- **Requerimientos**:
  1) Estimar la proporción \(\hat{p}\) y construir un IC 95%.
  2) Probar \(H_0: p = 0.03\) vs \(H_1: p > 0.03\) (nivel \(\alpha=0.05\)).
- **Criterios de aceptación**:
  - Reportar \(\hat{p}\), el IC (límite inferior/superior) y el p-valor de la prueba unilateral.
  - Indicar decisión (rechazar/no rechazar \(H_0\)) y una interpretación en lenguaje claro.
- **Pistas**:
  - Usa aproximación normal de la proporción: \(Z = \frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}\).

In [None]:

# TODO: Solución Ejercicio 1

**Ejercicio 2 — Rendimiento de un proceso (media y t de Student)**

- **Contexto técnico**: 
  Como ingeniero de datos, monitoreas un proceso donde la métrica de interés debería promediar 120 unidades/hora.
- **Datos/entradas**:
  Genera una muestra de tamaño \(n=40\) con distribución Normal(\(\mu=118\), \(\sigma=10\)). Fija semilla.
- **Requerimientos**:
  1) Estimar la media muestral y construir un IC 95% (desconoces \(\sigma\)).
  2) Probar \(H_0: \mu = 120\) vs \(H_1: \mu \ne 120\).
- **Criterios de aceptación**:
  - Reportar \(\bar{x}\), \(s\), IC y p-valor de la prueba t.
  - Conclusión clara en términos del proceso (¿estamos por debajo de 120?).
- **Pistas**:
  - Usa `scipy.stats.t.interval` o percentil t crítico con `stats.t.ppf`.

In [None]:

# TODO: Solución Ejercicio 2

**Ejercicio 3 — Campaña de conversión (proporciones, muestra grande)**

- **Contexto técnico**: 
  Marketing digital evalúa si una nueva landing mejora la conversión respecto a 5% histórico.
- **Datos/entradas**:
  Simula \(n=3000\) visitas con probabilidad de éxito \(p=0.055\). Cuenta éxitos \(k\).
- **Requerimientos**:
  1) Estimar \(\hat{p}\) y construir IC 95%.
  2) Probar \(H_0: p = 0.05\) vs \(H_1: p > 0.05\).
- **Criterios de aceptación**:
  - Reportar \(\hat{p}\), IC y p-valor; concluir si hay evidencia de mejora.
- **Pistas**:
  - Para simular, usa `np.random.binomial(n, p)`.

In [None]:

# TODO: Solución Ejercicio 3

**Ejercicio 4 — Teorema Central del Límite (TCL) en práctica**

- **Contexto técnico**: 
  Debes justificar a un stakeholder por qué la media de muestras “tiende a ser normal” incluso si el origen no lo es.
- **Datos/entradas**:
  Genera 2000 muestras de tamaño 30 desde una distribución **exponencial** con \(\lambda=1\). Calcula la media de cada muestra.
- **Requerimientos**:
  - Visualizar el histograma de las medias muestrales y comparar con una Normal ajustada.
  - Estimar la media y desviación estándar de las medias muestrales.
- **Criterios de aceptación**:
  - Gráfico único con histograma de medias; impresión de media/DE muestral.
- **Pistas**:
  - La media de una Exponencial(\(\lambda\)) es \(1/\lambda\).

In [None]:

# TODO: Solución Ejercicio 4