# **üìä Probabilidad para Ciencia de Datos**

### **üéØ Introducci√≥n**

En Ciencia de Datos trabajamos constantemente con **incertidumbre**.

La probabilidad es la herramienta matem√°tica que nos permite:

- üìå Modelar eventos aleatorios  
- üìâ Cuantificar riesgo  
- üß† Tomar decisiones basadas en datos  
- ü§ñ Construir modelos predictivos  

En esta sesi√≥n estudiaremos los conceptos fundamentales de probabilidad con un enfoque aplicado y computacional.


### **üé≤ 1. Fundamentos de Probabilidad**


Un experimento aleatorio es un proceso cuyo resultado no puede predecirse con certeza.

La probabilidad puede interpretarse como **frecuencia relativa** cuando repetimos el experimento muchas veces.

In [1]:
import numpy as np

In [2]:
np.random.seed(42)

lanzamientos = np.random.choice(["cara", "sello"], size=10000)
prob_cara = np.mean(lanzamientos == "cara")

prob_cara

np.float64(0.5013)

### **üîé 2. Probabilidad Condicional**

La probabilidad condicional mide la probabilidad de un evento A dado que ocurri√≥ B.

Es fundamental en:

- üè• Diagn√≥stico m√©dico  
- üìß Clasificaci√≥n de spam  
- üìä Modelos predictivos  

In [3]:
import pandas as pd
import numpy as np

In [4]:
np.random.seed(0)

n = 1000

data = pd.DataFrame({
    "enfermedad": np.random.choice([0,1], size=n, p=[0.9,0.1]),
})

data["test_positivo"] = np.where(
    data["enfermedad"] == 1,
    np.random.choice([0,1], size=n, p=[0.2,0.8]),
    np.random.choice([0,1], size=n, p=[0.9,0.1])
)

p_cond = (
    data[(data["enfermedad"] == 1) & (data["test_positivo"] == 1)].shape[0] /
    data[data["test_positivo"] == 1].shape[0]
)

p_cond

0.4497354497354497

### **üß† 3. Teorema de Bayes**

$$P(A | B) = \frac{P(B | A) ¬∑ P(A)}{P(B)}$$

Nos permite actualizar probabilidades cuando obtenemos nueva informaci√≥n.

Es la base de modelos como **Naive Bayes**.

In [6]:
p_A = data["enfermedad"].mean()
p_B_given_A = data[data["enfermedad"] == 1]["test_positivo"].mean()
p_B = data["test_positivo"].mean()

bayes = (p_B_given_A * p_A) / p_B

bayes

np.float64(0.44973544973544977)

### **üéØ 4. Variable Aleatoria Binomial**

Modela el n√∫mero de √©xitos en n intentos independientes con probabilidad p.

Es fundamental para entender tasas de conversi√≥n, clics y eventos binarios.

In [None]:
n_experimentos = 1000
n_intentos = 20
p = 0.3

simulaciones = np.random.binomial(n_intentos, p, size=n_experimentos)

simulaciones[:10]

In [7]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(simulaciones, bins=15)
plt.xlabel("N√∫mero de √©xitos")
plt.ylabel("Frecuencia")
plt.title("Simulaci√≥n Binomial")
plt.show()

### **üìà 5. Distribuci√≥n Normal y Teorema Central del L√≠mite**

Los promedios de muestras tienden a distribuirse normalmente, incluso si la variable original no es normal.

Este resultado explica por qu√© la distribuci√≥n normal aparece constantemente en Ciencia de Datos.

In [None]:
muestras = []

for _ in range(1000):
    muestra = np.random.exponential(scale=2, size=50)
    muestras.append(np.mean(muestra))

muestras = np.array(muestras)

plt.hist(muestras, bins=30)
plt.xlabel("Promedio de la muestra")
plt.ylabel("Frecuencia")
plt.title("Aproximaci√≥n a Normal (TCL)")
plt.show()


### **‚úÖ Conclusiones**

En esta sesi√≥n vimos:

- üé≤ Interpretaci√≥n frecuentista  
- üîé Probabilidad condicional  
- üß† Teorema de Bayes  
- üéØ Distribuci√≥n binomial  
- üìà Intuici√≥n del Teorema Central del L√≠mite  

Estos conceptos son fundamentales en Machine Learning e Inferencia Estad√≠stica.