# Capítulo 6 — Distribuciones de probabilidad (scipy.stats)

Este notebook acompaña al manual.  
Las notas son breves y se enfocan en **sintaxis** y **uso del código**.


In [None]:
# Setup del capítulo
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

plt.rcParams["figure.figsize"] = (8, 4.5)
plt.rcParams["figure.dpi"] = 120


## Patrón rápido

- Discretas: `pmf(x, ...)`, `cdf(x, ...)`
- Continuas: `pdf(x, ...)`, `cdf(x, ...)`
- Cuantil: `ppf(q, ...)` (inversa de CDF)
- Simulación: `rvs(..., size=n, random_state=...)`


## 1) Discretas

In [None]:
# Uniforme discreta: randint(a, b+1) representa enteros en [a, b]
a, b = 1, 6
x = np.arange(a, b + 1)
xg = np.arange(a - 1, b + 2)

fx = stats.randint.pmf(x, a, b + 1)
Fx = stats.randint.cdf(x, a, b + 1)
Fxg = stats.randint.cdf(xg, a, b + 1)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx})


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — U{{{a},{b}}}")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, where="post", color="black")
plt.title(f"CDF — U{{{a},{b}}}")
plt.grid(alpha=0.4)
plt.show()
plt.close()


In [None]:
# Bernoulli
x = [0, 1]
xg = np.linspace(-0.1, 1.1, num=1000)
p = 0.2

fx = stats.bernoulli.pmf(x, p)
Fx = stats.bernoulli.cdf(x, p)
Fxg = stats.bernoulli.cdf(xg, p)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx})


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.xticks(x, ["0", "1"])
plt.title(f"PMF — Be({p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — Be({p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()


In [None]:
# Binomial
x = np.linspace(0, 10, num=11)
xg = np.linspace(-0.5, 10.1, num=1000)
p = 0.2
n = 10

fx = stats.binom.pmf(x, n, p)
Fx = stats.binom.cdf(x, n, p)
Fxg = stats.binom.cdf(xg, n, p)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx}).head()


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — Bn({n},{p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — Bn({n},{p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# P(X=2)
stats.binom.pmf(2, 10, 0.2)


In [None]:
# Poisson
x = np.linspace(0, 15, num=16)
xg = np.linspace(-0.5, 15, num=1500)
plambda = 4

fx = stats.poisson.pmf(x, plambda)
Fx = stats.poisson.cdf(x, plambda)
Fxg = stats.poisson.cdf(xg, plambda)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx}).head()


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — Poi({plambda})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — Poi({plambda})")
plt.grid(alpha=0.4)
plt.show()
plt.close()


In [None]:
# Geométrica (en scipy, soporte empieza en 1; aquí graficamos desde 0)
x = np.linspace(0, 15, num=16)
xg = np.linspace(-0.5, 15, num=1500)
p = 0.4

fx = stats.geom.pmf(x, p)
Fx = stats.geom.cdf(x, p)
Fxg = stats.geom.cdf(xg, p)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx}).head()


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — Ge({p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — Ge({p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()


In [None]:
# Binomial negativa
x = np.linspace(0, 20, num=21)
xg = np.linspace(-0.5, 20, num=2000)
p = 0.4
r = 3

fx = stats.nbinom.pmf(x, r, p)
Fx = stats.nbinom.cdf(x, r, p)
Fxg = stats.nbinom.cdf(xg, r, p)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx}).head()


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — BN({r},{p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — BN({r},{p})")
plt.grid(alpha=0.4)
plt.show()
plt.close()


In [None]:
# Hipergeométrica
x = np.linspace(0, 20, num=21)
xg = np.linspace(0, 20, num=21)

N = 100
m = 80
n = 20

fx = stats.hypergeom.pmf(x, N, m, n)
Fx = stats.hypergeom.cdf(x, N, m, n)
Fxg = stats.hypergeom.cdf(xg, N, m, n)

pd.DataFrame({"x": x, "PMF": fx, "CDF": Fx}).head()


In [None]:
plt.bar(x, fx, color="0.6", edgecolor="black")
plt.title(f"PMF — H({N},{m},{n})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.step(xg, Fxg, color="black")
plt.title(f"CDF — H({N},{m},{n})")
plt.grid(alpha=0.4)
plt.show()
plt.close()


## 2) Continuas + cuantiles (ppf)

In [None]:
# Uniforme continua: loc=alpha, scale=beta-alpha
x = np.linspace(-4, 4, num=200)
xt = np.linspace(-4, 4, num=9)
alpha, beta = -3, 3

fx = stats.uniform.pdf(x, alpha, beta - alpha)
Fx = stats.uniform.cdf(x, alpha, beta - alpha)
Fxt = stats.uniform.cdf(xt, alpha, beta - alpha)

pd.DataFrame({"x": xt, "CDF": Fxt})


In [None]:
plt.plot(x, fx, color="black")
plt.title(f"PDF — U({alpha},{beta})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(x, Fx, color="black")
plt.title(f"CDF — U({alpha},{beta})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantiles 2.5% y 97.5%
stats.uniform.ppf(0.025, alpha, beta-alpha), stats.uniform.ppf(0.975, alpha, beta-alpha)


In [None]:
# Normal
x = np.linspace(-5, 15, num=100)
xt = np.linspace(-5, 15, num=11)
mu, sigma = 5, 2

fx = stats.norm.pdf(x, mu, sigma)
Fx = stats.norm.cdf(x, mu, sigma)
Fxt = stats.norm.cdf(xt, mu, sigma)

pd.DataFrame({"x": xt, "CDF": Fxt})


In [None]:
plt.plot(x, fx, color="black")
plt.title(f"PDF — N({mu},{sigma})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(x, Fx, color="black")
plt.title(f"CDF — N({mu},{sigma})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantiles 2.5% y 97.5%
stats.norm.ppf(0.025, mu, sigma), stats.norm.ppf(0.975, mu, sigma)

# Ejemplo: X~N(4,9), P(2<X<=6)
stats.norm.cdf(6, 4, 3) - stats.norm.cdf(2, 4, 3)


In [None]:
# Normal estándar por estandarización
x = np.linspace(-5, 15, num=100)
xt = np.linspace(-5, 15, num=11)
mu, sigma = 5, 2

z = (x - mu) / sigma
zt = (xt - mu) / sigma

fz = stats.norm.pdf(z)
Fz = stats.norm.cdf(z)
Fzt = stats.norm.cdf(zt)

pd.DataFrame({"z": zt, "CDF": Fzt})


In [None]:
plt.plot(z, fz, color="black")
plt.title("PDF — N(0,1)")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(z, Fz, color="black")
plt.title("CDF — N(0,1)")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantiles 2.5% y 97.5% estándar
stats.norm.ppf(0.025), stats.norm.ppf(0.975)


In [None]:
# Chi-cuadrado
w = np.linspace(0, 15, num=100)
wt = np.linspace(0, 15, num=16)
m = 5

fw = stats.chi2.pdf(w, m)
Fw = stats.chi2.cdf(w, m)
Fwt = stats.chi2.cdf(wt, m)

pd.DataFrame({"w": wt, "CDF": Fwt}).head()


In [None]:
plt.plot(w, fw, color="black")
plt.title(rf"PDF — chi^2({m})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(w, Fw, color="black")
plt.title(rf"CDF — chi^2({m})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantil 0.95
stats.chi2.ppf(0.95, m)


In [None]:
# t de Student
v = np.linspace(-5, 5, num=100)
vt = np.linspace(-5, 5, num=11)
m = 5

fv = stats.t.pdf(v, m)
Fv = stats.t.cdf(v, m)
Fvt = stats.t.cdf(vt, m)

pd.DataFrame({"v": vt, "CDF": Fvt})


In [None]:
plt.plot(v, fv, color="black")
plt.title(f"PDF — t({m})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(v, Fv, color="black")
plt.title(f"CDF — t({m})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantiles 2.5% y 97.5%
stats.t.ppf(0.025, m), stats.t.ppf(0.975, m)


In [None]:
# F de Fisher
r = np.linspace(0, 15, num=100)
rt = np.linspace(0, 15, num=16)
m1, m2 = 5, 3

fr = stats.f.pdf(r, m1, m2)
Fr = stats.f.cdf(r, m1, m2)
Frt = stats.f.cdf(rt, m1, m2)

pd.DataFrame({"r": rt, "CDF": Frt}).head()


In [None]:
plt.plot(r, fr, color="black")
plt.title(rf"PDF — F({m1},{m2})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(r, Fr, color="black")
plt.title(rf"CDF — F({m1},{m2})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantil 0.95
stats.f.ppf(0.95, m1, m2)


In [None]:
# Exponencial: scale = 1/lambda
x = np.linspace(-0.5, 6, num=150)
xt = np.linspace(-0.5, 6, num=9)
plambda = 1

fx = stats.expon.pdf(x, scale=1/plambda)
Fx = stats.expon.cdf(x, scale=1/plambda)
Fxt = stats.expon.cdf(xt, scale=1/plambda)

pd.DataFrame({"x": xt, "CDF": Fxt})


In [None]:
plt.plot(x, fx, color="black")
plt.title(f"PDF — Exp({plambda})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

plt.plot(x, Fx, color="black")
plt.title(f"CDF — Exp({plambda})")
plt.grid(alpha=0.4)
plt.show()
plt.close()

# Cuantil 0.95
stats.expon.ppf(0.95, scale=1/plambda)


## 3) Simulación: muestra vs teoría + promedio acumulado

In [None]:
# Bernoulli simulada
semilla = None
ns = 1000
p = 0.5

muestra = stats.bernoulli.rvs(p, size=ns, random_state=semilla)

valores, freq_abs = np.unique(muestra, return_counts=True)
freq_rel = freq_abs / ns
pmft = stats.bernoulli.pmf(valores, p)

plt.bar(valores - 0.15, freq_rel, width=0.2, color="blue", label="Muestra")
plt.bar(valores + 0.15, pmft, width=0.2, color="red", label="Teoría")
for xx, yy in zip(valores - 0.15, freq_rel):
    plt.text(xx, yy + 0.005, f"{yy:.3f}", ha="center", va="bottom")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Frecuencia relativa vs PMF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=p, color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


In [None]:
# Uniforme discreta simulada
semilla = None
ns = 1000
a, b = 1, 6

muestra = stats.randint.rvs(a, b + 1, size=ns, random_state=semilla)

valores, freq_abs = np.unique(muestra, return_counts=True)
freq_rel = freq_abs / ns
pmft = stats.randint.pmf(valores, a, b + 1)

plt.bar(valores - 0.15, freq_rel, width=0.2, color="blue", label="Muestra")
plt.bar(valores + 0.15, pmft, width=0.2, color="red", label="Teoría")
for xx, yy in zip(valores - 0.15, freq_rel):
    plt.text(xx, yy + 0.005, f"{yy:.3f}", ha="center", va="bottom")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Frecuencia relativa vs PMF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=(a + b) / 2, color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


In [None]:
# Normal simulada
semilla = None
ns = 1000
mu, sigma = 0, 1

muestra = stats.norm.rvs(mu, sigma, size=ns, random_state=semilla)

lim = max(abs(muestra.min()), abs(muestra.max()))
x = np.linspace(-lim, lim, num=100)
pdft = stats.norm.pdf(x, mu, sigma)

plt.hist(muestra, bins=10, density=True, edgecolor="black", color="blue", alpha=0.5, label="Muestra")
plt.plot(x, pdft, color="red", linewidth=3, label="Teoría")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=mu, color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


In [None]:
# Chi-cuadrado simulada (por partes)
semilla = None
ns = 1000
m = 5

sim_partes = True
if sim_partes:
    sim_var2 = []
    for i in range(1, m + 1):
        semilla2 = None if semilla is None else semilla + i
        sim_var = stats.norm.rvs(size=ns, random_state=semilla2)
        sim_var2.append(sim_var**2)
    muestra = sum(sim_var2)
else:
    muestra = stats.chi2.rvs(m, size=ns, random_state=semilla)

lim = max(abs(muestra.min()), abs(muestra.max()))
x = np.linspace(0, lim, num=200)
pdft = stats.chi2.pdf(x, m)

plt.hist(muestra, bins=12, density=True, edgecolor="black", color="blue", alpha=0.5, label="Muestra")
plt.plot(x, pdft, color="red", linewidth=3, label="Teoría")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=m, color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


In [None]:
# t de Student simulada (construcción)
semilla = None
ns = 1000
m = 5

sim_partes = True
if sim_partes:
    semilla2 = None if semilla is None else semilla + 1
    sim_var_Z = stats.norm.rvs(size=ns, random_state=semilla)
    sim_var_W = stats.chi2.rvs(m, size=ns, random_state=semilla2)
    muestra = sim_var_Z / np.sqrt(sim_var_W / m)
else:
    muestra = stats.t.rvs(m, size=ns, random_state=semilla)

lim = max(abs(muestra.min()), abs(muestra.max()))
x = np.linspace(-lim, lim, num=200)
pdft = stats.t.pdf(x, m)

plt.hist(muestra, bins=20, density=True, edgecolor="black", color="blue", alpha=0.5, label="Muestra")
plt.plot(x, pdft, color="red", linewidth=3, label="Teoría")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=0, color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


In [None]:
# F simulada (construcción)
semilla = None
ns = 1000
m1, m2 = 5, 3

sim_partes = True
if sim_partes:
    semilla2 = None if semilla is None else semilla + 1
    sim_var_W1 = stats.chi2.rvs(m1, size=ns, random_state=semilla)
    sim_var_W2 = stats.chi2.rvs(m2, size=ns, random_state=semilla2)
    muestra = (sim_var_W1 / m1) / (sim_var_W2 / m2)
else:
    muestra = stats.f.rvs(m1, m2, size=ns, random_state=semilla)

lim = np.quantile(muestra, 0.99)
x = np.linspace(0, lim, num=200)
pdft = stats.f.pdf(x, m1, m2)

plt.hist(muestra, bins=30, density=True, edgecolor="black", color="blue", alpha=0.5, label="Muestra")
plt.plot(x, pdft, color="red", linewidth=3, label="Teoría")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Histograma vs PDF teórica")
plt.show()
plt.close()

cum_ns = np.arange(1, ns + 1)
plt.plot(cum_ns, muestra.cumsum() / cum_ns, label="Promedio acumulado")
plt.axhline(y=m2 / (m2 - 2), color="red", label="Esperanza teórica")
plt.grid(alpha=0.4)
plt.legend(loc="upper center", bbox_to_anchor=(0.5, -0.12))
plt.title("Promedio acumulado vs Esperanza teórica")
plt.show()
plt.close()


## Ejercicios propuestos

1) **Binomial (PMF y CDF)**  
Para `X ~ Bn(10, 0.2)`, calcula `P(X=2)` y `P(X≤2)`.

**Respuesta esperada:** dos números en (0, 1).


In [None]:
# Escribe tu solución aquí


2) **Cuantiles (normal)**  
Para `X ~ N(5,2)`, calcula el intervalo central del 95% con `ppf(0.025)` y `ppf(0.975)`.

**Respuesta esperada:** dos valores (límite inferior y superior).


In [None]:
# Escribe tu solución aquí


3) **Normal estándar**  
Estandariza `x=9` si `X ~ N(5,2)` y calcula `P(X≤9)` usando `Φ(z)`.

**Respuesta esperada:** cercano a `0.977` (aprox.).


In [None]:
# Escribe tu solución aquí


4) **Simulación Bernoulli**  
Simula `ns=5000` con `p=0.3` y grafica el promedio acumulado.

**Respuesta esperada:** el promedio acumulado se acerca a `0.3`.


In [None]:
# Escribe tu solución aquí


5) **Exponencial**  
Con `λ=1`, calcula el cuantil 0.95 con `ppf`.

**Respuesta esperada:** cercano a `≈ 3`.


In [None]:
# Escribe tu solución aquí


6) **F de Fisher**  
Para `F(5,3)`, calcula el cuantil 0.95.

**Respuesta esperada:** positivo y mayor que 1.


In [None]:
# Escribe tu solución aquí


## Glosario

- **PMF/PDF/CDF**: masa / densidad / acumulada.
- **PPF**: cuantil (inversa de la CDF).
- **rvs**: simulación (muestra aleatoria).
- **loc/scale**: parámetros estándar de `scipy`.
