# Capítulo 6 — Distribuciones de probabilidad (scipy.stats)

Este notebook acompaña al manual.
Las explicaciones son breves y apuntan a la **sintaxis** y al **uso del código**.


In [None]:
# Setup del capítulo (mínimo)
import sys
print("Versión de Python:", sys.version.split()[0])


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

plt.rcParams["figure.figsize"] = (8, 4.5)
plt.rcParams["figure.dpi"] = 120


## Patrón de uso (muy corto)

- Discretas: `pmf(x, ...)` y `cdf(x, ...)`
- Continuas: `pdf(x, ...)` y `cdf(x, ...)`
- Simulación: `rvs(..., size=n, random_state=123)`


## 1) Discretas

In [None]:
# Uniforme discreta randint: soporte [a, b) (b NO incluido)
a, b = 1, 7
x = np.arange(a, b)

tabla = pd.DataFrame({
    "x": x,
    "pmf": stats.randint.pmf(x, a, b),
    "cdf": stats.randint.cdf(x, a, b),
})
tabla


In [None]:
plt.bar(tabla["x"], tabla["pmf"])
plt.title("Uniforme discreta — PMF")
plt.xlabel("x")
plt.ylabel("P(X=x)")
plt.show()


In [None]:
plt.step(tabla["x"], tabla["cdf"], where="post")
plt.title("Uniforme discreta — CDF")
plt.xlabel("x")
plt.ylabel("P(X≤x)")
plt.ylim(0, 1.05)
plt.show()


In [None]:
# Bernoulli: x en {0,1}
p = 0.2
x = np.array([0, 1])

pd.DataFrame({
    "x": x,
    "pmf": stats.bernoulli.pmf(x, p),
    "cdf": stats.bernoulli.cdf(x, p),
})


In [None]:
# Binomial
n, p = 10, 0.2
x = np.arange(0, n + 1)

tabla = pd.DataFrame({
    "x": x,
    "pmf": stats.binom.pmf(x, n, p),
    "cdf": stats.binom.cdf(x, n, p),
})
tabla.head()


In [None]:
# Ejemplo puntual: P(X=2)
stats.binom.pmf(2, n, p)


In [None]:
# Poisson
lam = 4
x = np.arange(0, 16)

pd.DataFrame({
    "x": x,
    "pmf": stats.poisson.pmf(x, lam),
    "cdf": stats.poisson.cdf(x, lam),
}).head()


In [None]:
# Geométrica (scipy.geom): soporte empieza en 1
p = 0.4
x = np.arange(1, 16)

pd.DataFrame({
    "x": x,
    "pmf": stats.geom.pmf(x, p),
    "cdf": stats.geom.cdf(x, p),
}).head()


In [None]:
# Binomial negativa nbinom: x = fracasos antes de r éxitos
r, p = 3, 0.4
x = np.arange(0, 21)

pd.DataFrame({
    "x": x,
    "pmf": stats.nbinom.pmf(x, r, p),
    "cdf": stats.nbinom.cdf(x, r, p),
}).head()


In [None]:
# Hipergeométrica
M = 100      # población total
n_exitos = 80
N = 20       # muestra

x = np.arange(0, N + 1)

pd.DataFrame({
    "x": x,
    "pmf": stats.hypergeom.pmf(x, M, n_exitos, N),
    "cdf": stats.hypergeom.cdf(x, M, n_exitos, N),
}).head()


## 2) Continuas

In [None]:
# Uniforme continua: loc=inicio, scale=longitud
alpha, beta = -3, 3
x = np.linspace(-4, 4, 200)

pdf = stats.uniform.pdf(x, loc=alpha, scale=beta - alpha)
plt.plot(x, pdf)
plt.title("Uniforme continua — PDF")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.show()


In [None]:
# Normal: loc=mu, scale=sigma
mu, sigma = 5, 2
x = np.linspace(-5, 15, 200)

pdf = stats.norm.pdf(x, loc=mu, scale=sigma)
plt.plot(x, pdf)
plt.title("Normal — PDF")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.show()


In [None]:
# Probabilidad de intervalo: P(2 < X <= 6) cuando X ~ N(4, 9) => sigma=3
stats.norm.cdf(6, loc=4, scale=3) - stats.norm.cdf(2, loc=4, scale=3)


In [None]:
# Estandarización (Z-score) con numpy
mu, sigma = 5, 2
x = np.array([1, 3, 5, 7, 9])
z = (x - mu) / sigma
z


In [None]:
# Chi-cuadrado
dfree = 5
w = np.linspace(0, 15, 200)
plt.plot(w, stats.chi2.pdf(w, dfree))
plt.title("Chi-cuadrado — PDF")
plt.xlabel("w")
plt.ylabel("f(w)")
plt.show()


In [None]:
# t-Student
dfree = 5
tvals = np.linspace(-5, 5, 200)
plt.plot(tvals, stats.t.pdf(tvals, dfree))
plt.title("t-Student — PDF")
plt.xlabel("t")
plt.ylabel("f(t)")
plt.show()


In [None]:
# F
dfn, dfd = 5, 3
r = np.linspace(0, 15, 200)
plt.plot(r, stats.f.pdf(r, dfn, dfd))
plt.title("F — PDF")
plt.xlabel("r")
plt.ylabel("f(r)")
plt.show()


In [None]:
# Exponencial: scale = 1/lambda
lam = 1
x = np.linspace(-0.5, 6, 200)
plt.plot(x, stats.expon.pdf(x, scale=1/lam))
plt.title("Exponencial — PDF")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.show()


## 3) Simulación (rvs)

In [None]:
# Bernoulli: rvs(..., size=n, random_state=...)
p = 0.5
ns = 1000
muestra = stats.bernoulli.rvs(p, size=ns, random_state=123)
muestra[:10], muestra.mean()


In [None]:
# Uniforme discreta
a, b = 1, 7
ns = 1000
muestra = stats.randint.rvs(a, b, size=ns, random_state=123)
muestra[:10], muestra.mean()


In [None]:
# Normal: histograma vs pdf
mu, sigma = 0, 1
ns = 1000

muestra = stats.norm.rvs(loc=mu, scale=sigma, size=ns, random_state=123)

plt.hist(muestra, bins=30, density=True)
x = np.linspace(-4, 4, 200)
plt.plot(x, stats.norm.pdf(x, loc=mu, scale=sigma))
plt.title("Simulación Normal vs PDF teórica")
plt.xlabel("x")
plt.ylabel("densidad")
plt.show()


In [None]:
# Chi-cuadrado: histograma vs pdf
dfree = 5
ns = 1000

muestra = stats.chi2.rvs(dfree, size=ns, random_state=123)

plt.hist(muestra, bins=30, density=True)
x = np.linspace(0, 20, 200)
plt.plot(x, stats.chi2.pdf(x, dfree))
plt.title("Simulación Chi-cuadrado vs PDF teórica")
plt.xlabel("x")
plt.ylabel("densidad")
plt.show()


In [None]:
# t y F: simulación (ejemplo rápido)
dfree = 5
muestra_t = stats.t.rvs(dfree, size=1000, random_state=123)
muestra_t.mean(), muestra_t.std()


In [None]:
dfn, dfd = 5, 3
muestra_f = stats.f.rvs(dfn, dfd, size=1000, random_state=123)
muestra_f.mean()


## Ejercicios propuestos

1) **PMF y CDF (binomial)**  
Para `X ~ Bin(n=12, p=0.3)`, calcula `P(X=4)` y `P(X ≤ 4)`.

**Respuesta esperada:** dos números entre 0 y 1.


In [None]:
# Escribe tu solución aquí


2) **Frecuencias con simulación**  
Simula 1000 Bernoulli con `p=0.4` y arma una tabla con `value_counts()`.

**Respuesta esperada:** conteos de 0 y 1 que suman 1000.


In [None]:
# Escribe tu solución aquí


3) **Simulación vs PDF**  
Simula 2000 normales con `μ=10, σ=2`, grafica histograma con `density=True` y superpone la `pdf`.

**Respuesta esperada:** histograma y curva teórica se aproximan.


In [None]:
# Escribe tu solución aquí


4) **Estandarización**  
Con `x=[2,4,6]`, `μ=4`, `σ=2`, calcula `z`.

**Respuesta esperada:** `[-1, 0, 1]`.


In [None]:
# Escribe tu solución aquí


5) **Exponencial: CDF**  
Con `lambda=2`, calcula `P(X ≤ 1)` usando `scale=1/lambda`.

**Respuesta esperada:** un número entre 0 y 1, mayor que 0.8.


In [None]:
# Escribe tu solución aquí


6) **Hipergeométrica**  
Con `M=50`, `n=10`, `N=5`, calcula `P(X=0)` y `P(X≥1)`.

**Respuesta esperada:** `P(X≥1) = 1 - P(X=0)`.


In [None]:
# Escribe tu solución aquí


## Glosario

- **PMF / PDF / CDF**: masa / densidad / acumulada.
- **rvs**: simulación (muestra aleatoria).
- **loc / scale**: parámetros usados por `scipy` en varias distribuciones.
