# Introducción a la Probabilidad

La probabilidad es una medida numérica de la posibilidad de que ocurra un evento. Nos ayuda a cuantificar la incertidumbre y tomar decisiones informadas en situaciones donde no tenemos información completa.

Por ejemplo, al lanzar una moneda, hay dos resultados posibles: cara o cruz. La probabilidad de obtener cara es 0.5, lo que indica que hay una posibilidad del 50% de que ocurra este evento.

## Experimentos

En probabilidad, un experimento es cualquier proceso que puede dar lugar a varios resultados posibles.

Ejemplo:
- Lanzar un dado es un experimento con seis posibles resultados: 1, 2, 3, 4, 5 o 6.

## Eventos

Un evento es un conjunto de resultados posibles de un experimento. Puede ser un resultado individual o una combinación de resultados.

Ejemplo:
- En el lanzamiento de un dado, el evento "obtener un número par" incluye los resultados 2, 4 y 6.

## Probabilidades

La probabilidad asigna una medida de incertidumbre a un evento, generalmente entre 0 y 1. Un valor de 0 significa que el evento es imposible, mientras que un valor de 1 significa que es seguro.

Ejemplo:
- La probabilidad de obtener un 3 al lanzar un dado justo es 1/6, ya que hay 6 resultados posibles y solo uno de ellos es un 3.

In [None]:
import random

# Lanzar una moneda
def lanzar_moneda():
    resultado = random.choice(['cara', 'cruz'])
    return resultado

# Simular 1000 lanzamientos de moneda
lanzamientos = [lanzar_moneda() for _ in range(1000)]

# Calcular la probabilidad de obtener cara
probabilidad_cara = lanzamientos.count('cara') / len(lanzamientos)
print(f"Probabilidad de obtener cara: {probabilidad_cara:.2f}")

# Lanzar un dado
def lanzar_dado():
    resultado = random.randint(1, 6)
    return resultado

# Simular 1000 lanzamientos de dado
lanzamientos_dado = [lanzar_dado() for _ in range(1000)]

# Calcular la probabilidad de obtener un 3
probabilidad_3 = lanzamientos_dado.count(3) / len(lanzamientos_dado)
print(f"Probabilidad de obtener un 3: {probabilidad_3:.2f}")

# Unión e Intersección de Eventos

Antes de entrar en probabilidad condicional, es útil entender las operaciones de unión e intersección de eventos.

- Unión (A ∪ B): La unión de dos eventos A y B incluye todos los resultados que están en A, en B, o en ambos.
- Intersección (A ∩ B): La intersección de dos eventos A y B incluye todos los resultados que están tanto en A como en B.

## Ejemplo: Unión e Intersección

Supongamos que lanzamos un dado y definimos dos eventos:
- A: Obtener un número par {2, 4, 6}
- B: Obtener un número mayor a 3 {4, 5, 6}

### Unión
La unión de A y B es el conjunto de resultados que están en A, en B, o en ambos:
$$ A \cup B = \{2, 4, 5, 6\} $$

### Intersección
La intersección de A y B es el conjunto de resultados que están tanto en A como en B:
$$ A \cap B = \{4, 6\} $$

In [None]:
import random

# Simulación del lanzamiento de un dado
def lanzar_dado():
    return random.randint(1, 6)

# Simular 1000 lanzamientos
lanzamientos = [lanzar_dado() for _ in range(1000)]

# Definir los eventos
evento_A = [2, 4, 6]  # Números pares
evento_B = [4, 5, 6]  # Números mayores a 3

# Calcular la unión
union = [x for x in lanzamientos if x in evento_A or x in evento_B]
prob_union = len(union) / len(lanzamientos)
print(f"Probabilidad de A ∪ B: {prob_union:.2f}")

# Calcular la intersección
interseccion = [x for x in lanzamientos if x in evento_A and x in evento_B]
prob_interseccion = len(interseccion) / len(lanzamientos)
print(f"Probabilidad de A ∩ B: {prob_interseccion:.2f}")

# Probabilidad Condicional

La probabilidad condicional es la probabilidad de que ocurra un evento dado que otro evento ya ha ocurrido.

La fórmula para la probabilidad condicional de un evento A dado que ha ocurrido un evento B es:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

donde $P(A \cap B)$ es la probabilidad de que ambos eventos A y B ocurran.

## Ejemplo: Probabilidad Condicional

Supongamos que queremos calcular la probabilidad de que un número sea par dado que es mayor a 3 en el lanzamiento de un dado.

Definimos los eventos:
- A: Obtener un número par {2, 4, 6}
- B: Obtener un número mayor a 3 {4, 5, 6}

Ya sabemos que:
- $P(A \cap B) = \text{Probabilidad de obtener 4 o 6} = \frac{2}{6} = \frac{1}{3}$
- $P(B) = \text{Probabilidad de obtener un número mayor a 3} = \frac{3}{6} = \frac{1}{2}$

La probabilidad condicional es:
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{\frac{1}{3}}{\frac{1}{2}} = \frac{2}{3} $$

In [None]:
# Definir los eventos
evento_A = [2, 4, 6]  # Números pares
evento_B = [4, 5, 6]  # Números mayores a 3

# Filtrar los lanzamientos para B
lanzamientos_B = [x for x in lanzamientos if x in evento_B]

# Calcular la intersección de A y B
interseccion_AB = [x for x in lanzamientos if x in evento_A and x in evento_B]

# Calcular la probabilidad condicional P(A|B)
prob_B = len(lanzamientos_B) / len(lanzamientos)
prob_interseccion_AB = len(interseccion_AB) / len(lanzamientos)
prob_A_dado_B = prob_interseccion_AB / prob_B
print(f"Probabilidad de A dado B (número par dado que es mayor a 3): {prob_A_dado_B:.2f}")

## Ejemplo: Probabilidad Condicional con una Baraja de Cartas

En este ejemplo, vamos a encontrar la probabilidad de que una carta sea un as dado que es una carta de corazones utilizando tanto el cálculo teórico como una simulación en Python.

### Cálculo Teórico

Queremos encontrar la probabilidad condicional $P(\text{As}|\text{Corazones})$, que es la probabilidad de que una carta sea un as dado que es de corazones.

#### Pasos del Cálculo Teórico

1. **Número total de cartas en la baraja:** 52
2. **Número de cartas de corazones:** 13 (cada palo tiene 13 cartas)
3. **Número de ases en la baraja:** 4
4. **Número de ases de corazones:** 1

La fórmula para la probabilidad condicional es:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$

donde:
- $P(A)$ es la probabilidad de que la carta sea un as.
- $P(B)$ es la probabilidad de que la carta sea de corazones.
- $P(A \cap B)$ es la probabilidad de que la carta sea un as y de corazones.

5. **Probabilidad de que la carta sea de corazones $P(B)$:**

$$ P(B) = \frac{13}{52} = \frac{1}{4} $$

6. **Probabilidad de que la carta sea un as y de corazones $P(A \cap B)$:**

$$ P(A \cap B) = \frac{1}{52} $$

7. **Probabilidad condicional $P(\text{As}|\text{Corazones})$:**

$$ P(\text{As}|\text{Corazones}) = \frac{P(A \cap B)}{P(B)} = \frac{\frac{1}{52}}{\frac{1}{4}} = \frac{1}{52} \times 4 = \frac{1}{13} $$

Por lo tanto, la probabilidad condicional teórica de que una carta sea un as dado que es de corazones es $\frac{1}{13}$.

### Simulación en Python

A continuación, corroboramos este cálculo teórico con una simulación en Python.

In [None]:
import random

# Definimos la baraja de cartas
palos = ['corazones', 'diamantes', 'tréboles', 'picas']
valores = ['2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K', 'A']
baraja = [(valor, palo) for palo in palos for valor in valores]

# Definimos el total de simulaciones
total_simulaciones = 10000

# Simulamos sacar una carta
sacadas = [random.choice(baraja) for _ in range(total_simulaciones)]

# Evento B: La carta es de corazones
evento_B = [carta for carta in sacadas if carta[1] == 'corazones']

# Evento A ∩ B: La carta es un as y de corazones
evento_A_and_B = [carta for carta in sacadas if carta[0] == 'A' and carta[1] == 'corazones']

# Calcular la probabilidad condicional P(A|B)
total_B = len(evento_B)
total_A_and_B = len(evento_A_and_B)

prob_condicional = total_A_and_B / total_B

# Imprimimos los resultados
print(f"Total de cartas sacadas: {total_simulaciones}")
print(f"Total de veces que la carta es de corazones: {total_B}")
print(f"Total de veces que la carta es un as y de corazones: {total_A_and_B}")
print(f"Probabilidad de sacar un as dado que es de corazones (conteo directo): {prob_condicional:.4f}")



# Introducción a las Distribuciones de Probabilidad

Las distribuciones de probabilidad son fundamentales en la teoría de la probabilidad y las estadísticas. Describen cómo se distribuyen los valores de una variable aleatoria y nos permiten modelar fenómenos aleatorios en el mundo real. Comprender las distribuciones de probabilidad es esencial para realizar predicciones, inferencias estadísticas, controlar la calidad y realizar simulaciones.

Existen diferentes tipos de distribuciones de probabilidad, cada una con sus propias características y aplicaciones. En esta sección, exploraremos tres de las distribuciones más comunes: la distribución normal, la distribución binomial y la distribución de Poisson.

## Distribución Normal

La distribución normal, también conocida como la distribución gaussiana o de campana, es ampliamente utilizada en estadísticas. Se caracteriza por tener una forma de campana simétrica y es ideal para describir muchos fenómenos en la vida real, como las alturas de las personas o las puntuaciones en un examen.

La distribución normal está completamente definida por dos parámetros: la media (o valor esperado) y la desviación estándar. La media representa el valor central de la distribución, mientras que la desviación estándar mide la dispersión de los datos alrededor de la media. Cuanto más pequeña sea la desviación estándar, más estrecha será la campana y viceversa.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Generar datos simulados con distribución normal
media = 0
desviacion_estandar = 1
datos = np.random.normal(media, desviacion_estandar, 1000)

# Graficar la distribución
plt.hist(datos, bins=30, density=True, alpha=0.6, color='g')

# Graficar la curva de distribución normal
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = np.exp(-0.5*((x - media) / desviacion_estandar)**2) / (desviacion_estandar * np.sqrt(2 * np.pi))
plt.plot(x, p, 'k', linewidth=2)
plt.title("Distribución Normal")
plt.show()

## Distribución Binomial

La distribución binomial se utiliza cuando estamos interesados en el número de éxitos en una serie de ensayos independientes y de igual probabilidad. Es comúnmente aplicada en situaciones donde solo hay dos resultados posibles, como éxito o fracaso, sí o no, o positivo y negativo.

Esta distribución está definida por dos parámetros: el número de ensayos (n) y la probabilidad de éxito en un solo ensayo (p). A través de la distribución binomial, podemos calcular la probabilidad de obtener un número específico de éxitos en n ensayos.

En el siguiente ejemplo, estamos considerando 10 ensayos (n = 10) con una probabilidad de éxito de 0.5 en cada ensayo (p = 0.5).

La gráfica adjunta muestra la función de masa de probabilidad (pmf) de la distribución binomial. Cada punto en la gráfica representa la probabilidad de obtener un número específico de éxitos en los 10 ensayos.

### Interpretación del Gráfico

- **Eje X (Número de éxitos):** Representa el número de éxitos posibles en los 10 ensayos, desde 0 hasta 10.
- **Eje Y (Probabilidad):** Representa la probabilidad de obtener cada número de éxitos.

### Observaciones

- **Valor Máximo:** El punto más alto en la gráfica corresponde a obtener 5 éxitos en los 10 ensayos, lo cual tiene una probabilidad de aproximadamente 0.25 (o 25%). Esto se debe a que con una probabilidad de éxito de 0.5, el número esperado de éxitos es la mitad del número de ensayos, es decir, 5.
- **Simetría:** La gráfica es simétrica alrededor de 5 éxitos, lo que refleja que la probabilidad de éxito y fracaso es la misma (0.5). En otras palabras, la probabilidad de obtener 4 éxitos es la misma que la de obtener 6 éxitos, la probabilidad de obtener 3 éxitos es la misma que la de obtener 7 éxitos, y así sucesivamente.
- **Distribución:** La distribución muestra que es más probable obtener un número de éxitos cercano a 5, y menos probable obtener un número muy bajo (0, 1) o muy alto (9, 10) de éxitos.

In [None]:
from scipy.stats import binom
import matplotlib.pyplot as plt

# Parámetros de la distribución binomial
n = 10  # número de ensayos
p = 0.5  # probabilidad de éxito en cada ensayo

# Generar datos simulados con distribución binomial
x = np.arange(0, n+1)
binomial = binom.pmf(x, n, p)

# Graficar la distribución
plt.plot(x, binomial, 'bo', ms=8)
plt.vlines(x, 0, binomial, colors='b', lw=5)
plt.title("Distribución Binomial")
plt.xlabel("Número de éxitos")
plt.ylabel("Probabilidad")
plt.show()

### ¿Contraintuitivo?

El ejemplo anterior puede haberte dejado con dudas, vamos a realizar una simulación con algo más terrenal. El ejemplo anterior podría corresponder fácilmente con el lanzamiento de una moneda y el cálculo de las veces que sale cara.

### Cálculo Teórico

La probabilidad teórica de obtener exactamente 5 caras en 10 lanzamientos de una moneda justa se puede calcular utilizando la fórmula de la distribución binomial:

$$ P(X = 5) = \binom{10}{5} (0.5)^5 (0.5)^5 = 0.25 $$

Esto significa que, teóricamente, hay un 25% de probabilidad de obtener exactamente 5 caras en 10 lanzamientos.

### Simulación en Python

Para verificar este resultado, realizamos una simulación de 10,000 experimentos de 10 lanzamientos de una moneda justa cada uno. Contamos cuántas veces obtenemos exactamente 5 caras y calculamos la probabilidad simulada.

In [None]:
import random

# Definir el número de simulaciones y lanzamientos
total_simulaciones = 10000
lanzamientos_por_simulacion = 10

# Función para simular el lanzamiento de una moneda
def lanzar_moneda():
    return random.choice(['cara', 'cruz'])

# Contar cuántas veces se obtienen exactamente 5 caras en 10 lanzamientos
exitos_5_caras = 0

for _ in range(total_simulaciones):
    lanzamientos = [lanzar_moneda() for _ in range(lanzamientos_por_simulacion)]
    caras = lanzamientos.count('cara')
    if caras == 5:
        exitos_5_caras += 1

# Calcular la probabilidad simulada
probabilidad_simulada = exitos_5_caras / total_simulaciones

print(f"Probabilidad simulada de obtener exactamente 5 caras en 10 lanzamientos: {probabilidad_simulada:.2f}")

### Interpretación del Resultado
El resultado de la simulación confirma la probabilidad teórica de que, en 10 lanzamientos de una moneda justa, hay aproximadamente un 25% de probabilidad de obtener exactamente 5 caras. Este resultado es coherente con la distribución binomial, que modela el número de éxitos en una serie de ensayos independientes con probabilidad constante de éxito.

## Distribución de Poisson

La distribución de Poisson es otra distribución discreta que se utiliza para modelar la ocurrencia de eventos raros o poco frecuentes en un intervalo de tiempo o espacio específico. Se caracteriza por ser asimétrica y por tener una media (λ) que representa la tasa promedio de ocurrencia de eventos.

### Interpretación del Gráfico
La gráfica muestra la función de masa de probabilidad (pmf) de la distribución de Poisson con una tasa promedio de ocurrencia de eventos ($\lambda$) de 3. Cada punto en la gráfica representa la probabilidad de que ocurra un número específico de eventos en un intervalo de tiempo o espacio dado.

#### Eje X (Número de eventos)
Representa el número de eventos posibles, desde 0 hasta 14.

#### Eje Y (Probabilidad)
Representa la probabilidad de que ocurra cada número de eventos.

### Observaciones
- **Valor Máximo:** El punto más alto en la gráfica corresponde al valor de $\lambda$, que en este caso es 3. Esto significa que la probabilidad más alta es para que ocurran exactamente 3 eventos en el intervalo dado.
- **Asimetría:** La distribución es asimétrica, con una cola más larga hacia la derecha. Esto refleja que hay una mayor probabilidad de tener pocos eventos y una menor probabilidad de tener muchos eventos.
- **Distribución:** La distribución de Poisson muestra que es más probable tener un número de eventos cercano a la tasa promedio $\lambda$ (3 en este caso), y menos probable tener un número muy alto de eventos.

In [None]:
from scipy.stats import poisson
import matplotlib.pyplot as plt

# Parámetro de la distribución de Poisson
lambda_ = 3  # tasa promedio de ocurrencia de eventos

# Generar datos simulados con distribución de Poisson
x = np.arange(0, 15)
poisson_dist = poisson.pmf(x, lambda_)

# Graficar la distribución
plt.plot(x, poisson_dist, 'bo', ms=8)
plt.vlines(x, 0, poisson_dist, colors='b', lw=5)
plt.title("Distribución de Poisson")
plt.xlabel("Número de eventos")
plt.ylabel("Probabilidad")
plt.show()

### Ejemplo Práctico
Supongamos que estamos modelando el número de llamadas que recibe un centro de atención telefónica por hora. Si en promedio se reciben 3 llamadas por hora ($\lambda = 3$), podemos usar la distribución de Poisson para calcular la probabilidad de recibir diferentes números de llamadas en una hora.

La gráfica muestra que:
- La probabilidad de recibir exactamente 3 llamadas en una hora es la más alta.
- La probabilidad de recibir 0, 1, 2, 4, 5, etc., llamadas disminuye a medida que nos alejamos de 3.

### Simulación Manual
Para verificar el comportamiento de la distribución de Poisson, realizamos una simulación en Python.

In [None]:
import random

# Parámetros
lambda_ = 3  # tasa promedio de ocurrencia de eventos
total_simulaciones = 10000

# Contar cuántas veces ocurren exactamente 3 eventos en las simulaciones
exitos_3_eventos = 0

for _ in range(total_simulaciones):
    eventos = 0
    for _ in range(lambda_ * 10):  # Usamos un factor de 10 para tener más granularidad en la simulación
        if random.random() < lambda_ / (lambda_ * 10):
            eventos += 1
    if eventos == 3:
        exitos_3_eventos += 1

# Calcular la probabilidad simulada
probabilidad_simulada = exitos_3_eventos / total_simulaciones

print(f"Probabilidad simulada de obtener exactamente 3 eventos: {probabilidad_simulada:.2f}")

# Importancia de las Distribuciones de Probabilidad

Entender las distribuciones de probabilidad es esencial en el análisis de datos por varias razones:

- **Predicción y Modelado:** Nos permiten modelar y predecir eventos futuros en función de patrones observados en datos históricos. Por ejemplo, podemos usar la distribución normal para predecir el comportamiento futuro de las ventas de una tienda.

- **Inferencia Estadística:** Ayudan en la toma de decisiones y en la inferencia estadística. Podemos utilizar distribuciones de probabilidad para calcular intervalos de confianza, realizar pruebas de hipótesis y tomar decisiones basadas en datos.

- **Control de Calidad:** En la industria y la fabricación, las distribuciones de probabilidad se utilizan para controlar la calidad de los productos y garantizar que cumplan con los estándares.

- **Simulación:** En campos como la simulación por computadora, las distribuciones de probabilidad se emplean para generar datos que imiten situaciones reales y evaluar diferentes escenarios.

# Conclusión

En esta clase, hemos explorado los fundamentos de la probabilidad y su relación con el análisis de datos. Desde la definición de probabilidad hasta la comprensión de experimentos, eventos y espacio muestral, hemos construido una base sólida. También hemos discutido la probabilidad condicional, las distribuciones de probabilidad y cómo estos conceptos se aplican en el análisis de datos.

A medida que avanzamos en este módulo, profundizaremos en estos temas y los aplicaremos en situaciones del mundo real. La probabilidad es una herramienta poderosa que nos permite tomar decisiones informadas en un entorno incierto, y dominar estos conceptos es esencial para convertirse en un analista de datos competente.