<a href="https://colab.research.google.com/github/abxda/python-stats/blob/main/STAT_Semana_13.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Introducción a la Probabilidad Multivariable: Repaso de Conceptos Básicos

La probabilidad multivariable se enfoca en el estudio de la probabilidad en situaciones donde intervienen dos o más variables aleatorias. Esta rama de la probabilidad tiene relevancia en diversas disciplinas, como la estadística, la ingeniería y la ciencia de datos. A continuación, se revisan los conceptos clave, acompañados de un ejemplo práctico en Python.

#### 1. Variables Aleatorias

Una **variable aleatoria** es una función que asigna un valor numérico a cada resultado de un experimento aleatorio. Dependiendo de los valores que puede tomar, las variables aleatorias se dividen en:

- **Discretas**: Toman un número finito o contable de valores (por ejemplo, el número de caras al lanzar una moneda).
- **Continuas**: Pueden tomar cualquier valor dentro de un intervalo (por ejemplo, la altura de una persona).

En probabilidad multivariable, se trabaja con dos o más variables aleatorias de forma simultánea. Por ejemplo, el peso y la altura de una persona pueden considerarse como dos variables aleatorias conjuntas.

**Ejemplo Práctico en Python:**

Vamos a simular dos variables aleatorias discretas: el lanzamiento de dos dados. Luego, calcularemos la probabilidad conjunta de que el primer dado sea 3 y el segundo dado sea 5.


In [1]:

import numpy as np

# Simulación de lanzamientos de dos dados
np.random.seed(42)
dados = np.random.randint(1, 7, size=(10000, 2))

# Probabilidad de que el primer dado sea 3 y el segundo dado sea 5
evento = (dados[:, 0] == 3) & (dados[:, 1] == 5)
probabilidad_conjunta = np.mean(evento)

print(f"La probabilidad conjunta de obtener un 3 en el primer dado y un 5 en el segundo dado es {probabilidad_conjunta:.4f}")


La probabilidad conjunta de obtener un 3 en el primer dado y un 5 en el segundo dado es 0.0273


### Complemento: Cálculo Teórico de la Probabilidad Conjunta

En el ejemplo anterior, realizamos una simulación para calcular la probabilidad conjunta de obtener un 3 en el primer dado y un 5 en el segundo dado. Sin embargo, también es posible calcular esta probabilidad de manera teórica utilizando el concepto de **variables independientes**.

#### Probabilidad Teórica de la Conjunción de Eventos

Dado que el resultado de cada dado es independiente, la probabilidad conjunta de obtener un 3 en el primer dado y un 5 en el segundo dado se puede calcular como el producto de las probabilidades individuales de cada evento.

1. **Probabilidad de obtener un 3 en el primer dado:**
   - Un dado tiene 6 caras, por lo que la probabilidad de obtener un 3 es $ \frac{1}{6} $.

2. **Probabilidad de obtener un 5 en el segundo dado:**
   - Similarmente, la probabilidad de obtener un 5 en el segundo dado es $ \frac{1}{6} $.

3. **Probabilidad conjunta de obtener un 3 en el primer dado y un 5 en el segundo dado:**
   - Dado que los eventos son independientes, la probabilidad conjunta se calcula multiplicando las probabilidades individuales:
   
   $
   P(\text{3 en el primer dado y 5 en el segundo dado}) = P(\text{3 en el primer dado}) \times P(\text{5 en el segundo dado})
   $
   $
   P(\text{3 en el primer dado y 5 en el segundo dado}) = \frac{1}{6} \times \frac{1}{6} = \frac{1}{36}
   $

Por lo tanto, la **probabilidad teórica** de obtener un 3 en el primer dado y un 5 en el segundo dado es $ \frac{1}{36} $, que es aproximadamente 0.0278.

#### Comparación con la Simulación

En la simulación anterior, calculamos la probabilidad conjunta utilizando 10,000 lanzamientos de dados. Si comparamos el resultado de la simulación con la probabilidad teórica, podemos verificar la precisión del método de simulación:


In [7]:
probabilidad_teorica = 1/36
print(f"La probabilidad teórica de obtener un 3 en el primer dado y un 5 en el segundo dado es {probabilidad_teorica:.4f}")


La probabilidad teórica de obtener un 3 en el primer dado y un 5 en el segundo dado es 0.0278


Este cálculo confirma que, bajo el supuesto de independencia, la probabilidad de obtener un 3 en el primer dado y un 5 en el segundo dado es consistentemente $ \frac{1}{36} $.

Este enfoque teórico es fundamental para validar los resultados de simulaciones y entender cómo se comportan las variables aleatorias en diferentes escenarios.

### 2. Independencia y Dependencia de Sucesos: Ejemplo Mejorado

En probabilidad, la independencia y dependencia de sucesos sirven para entender cómo los eventos pueden o no influir en la probabilidad de otros. Para ilustrar claramente la **dependencia**, vamos a utilizar un ejemplo con la extracción de cartas de una baraja, ya que es un escenario donde la relación entre eventos es evidente.

#### Ejemplo Teórico: Extracción de Cartas sin Reposición

Consideremos una baraja estándar de 52 cartas, sin comodines. Supongamos que extraemos dos cartas de la baraja **sin reposición**, lo que significa que no devolvemos la primera carta a la baraja antes de extraer la segunda. Este escenario es un ejemplo claro de **dependencia** entre eventos.

- **Evento A:** Extraer una carta específica (por ejemplo, el As de Corazones) en la primera extracción.
- **Evento B:** Extraer una carta específica (por ejemplo, el Rey de Picas) en la segunda extracción.

Si el evento A ocurre (se extrae el As de Corazones), el número total de cartas en la baraja disminuye a 51, lo que afecta la probabilidad de extraer el Rey de Picas en el evento B. Esto demuestra que los eventos A y B son **dependientes**, ya que la probabilidad de B depende de lo que sucedió en A.

**Probabilidad Teórica:**

1. **Probabilidad de Evento A (P(A)):** La probabilidad de extraer el As de Corazones en la primera extracción es $ P(A) = \frac{1}{52} $.

2. **Probabilidad de Evento B (P(B|A)):** Si ya hemos extraído el As de Corazones, la baraja ahora tiene 51 cartas, y la probabilidad de extraer el Rey de Picas en la segunda extracción es $ P(B|A) = \frac{1}{51} $.

La **probabilidad conjunta** de que ocurran ambos eventos, es decir, extraer primero el As de Corazones y luego el Rey de Picas, se calcula como:

$
P(A \cap B) = P(A) \times P(B|A) = \frac{1}{52} \times \frac{1}{51} = \frac{1}{2652}
$

#### Ejemplo Práctico en Python: Simulación de Extracción de Cartas sin Reposición

Para reforzar el concepto, realizaremos una simulación en Python que replica el escenario descrito:


In [2]:
import random

# Crear una baraja de cartas
baraja = list(range(1, 53))  # 52 cartas

# Simulación de la extracción de dos cartas sin reposición
random.seed(42)
primera_carta = random.choice(baraja)
baraja.remove(primera_carta)
segunda_carta = random.choice(baraja)

print(f"Primera carta extraída: {primera_carta}")
print(f"Segunda carta extraída: {segunda_carta}")


Primera carta extraída: 41
Segunda carta extraída: 8


En esta simulación, extraemos dos cartas consecutivamente sin devolver la primera carta a la baraja. El hecho de que la baraja cambie después de la primera extracción muestra claramente la **dependencia** entre las dos extracciones. Por ejemplo, si la primera carta extraída es el As de Corazones, la probabilidad de extraer el Rey de Picas en la segunda extracción ya no es $ \frac{1}{52} $, sino $ \frac{1}{51} $, ya que queda una carta menos en la baraja.

#### Comparación con el Escenario Independiente

Para contrastar, imaginemos que en lugar de extraer las cartas sin reposición, las devolviéramos a la baraja después de cada extracción. En este caso, cada extracción sería **independiente** de las demás. La probabilidad de extraer el As de Corazones en la primera extracción sería $ \frac{1}{52} $, y la probabilidad de extraer el Rey de Picas en la segunda extracción también sería $ \frac{1}{52} $, independientemente de lo que sucedió en la primera extracción.

En este escenario independiente, la **probabilidad conjunta** de extraer primero el As de Corazones y luego el Rey de Picas sería:

$
P(A \cap B) = P(A) \times P(B) = \frac{1}{52} \times \frac{1}{52} = \frac{1}{2704}
$

Como podemos ver, en un escenario independiente, la probabilidad conjunta es menor que en el caso dependiente, lo que refuerza el hecho de que la dependencia entre eventos puede afectar significativamente las probabilidades.


El ejemplo de la extracción de cartas sin reposición es un caso clásico de **dependencia** entre eventos, ya que la probabilidad de la segunda carta depende del resultado de la primera extracción. Este tipo de dependencia es común en muchos escenarios de la vida real, y entenderlo es clave para realizar análisis probabilísticos precisos.

A través de la comparación con un escenario independiente, queda claro cómo la dependencia altera las probabilidades y cómo las situaciones dependientes requieren un enfoque más detallado en el cálculo de probabilidades conjuntas.

### 3. Probabilidad Condicionada: Conceptos y Ejemplos

La **probabilidad condicionada** es un concepto clave en la teoría de la probabilidad que se refiere a la probabilidad de que ocurra un evento dado que ya ha ocurrido otro evento. Este concepto es especialmente útil en situaciones donde la ocurrencia de un evento puede influir en la probabilidad de otro evento.

#### Definición Formal

La probabilidad condicionada de un evento A dado que ha ocurrido un evento B, se denota como $ P(A|B) $ y se define de la siguiente manera:

$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$

Donde:
- $ P(A|B) $ es la probabilidad de que ocurra A dado que ha ocurrido B.
- $ P(A \cap B) $ es la probabilidad de que ocurran ambos eventos A y B simultáneamente.
- $ P(B) $ es la probabilidad de que ocurra B.

La fórmula muestra que la probabilidad condicionada se calcula dividiendo la probabilidad conjunta de A y B por la probabilidad de B. Esto tiene sentido intuitivo: si ya sabemos que B ha ocurrido, restringimos nuestro análisis a los casos donde B es verdadero y luego medimos la probabilidad de que A también ocurra dentro de ese contexto.

#### Ejemplo Teórico: Probabilidad Condicionada en la Vida Real

Imaginemos un escenario cotidiano: un día lluvioso y el tráfico en la ciudad. Queremos calcular la probabilidad de que haya tráfico (evento A) dado que ha llovido (evento B).

- **P(A):** La probabilidad de que haya tráfico en un día cualquiera, independientemente del clima, podría ser del 30%.
- **P(B):** La probabilidad de que llueva en un día cualquiera podría ser del 20%.
- **P(A ∩ B):** La probabilidad de que haya tráfico y que también esté lloviendo podría ser del 15%.

Ahora, queremos saber cuál es la **probabilidad condicionada** de que haya tráfico sabiendo que ha llovido:

$
P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.15}{0.20} = 0.75
$

Esto significa que si sabemos que ha llovido, la probabilidad de que haya tráfico aumenta al 75%, lo que tiene sentido intuitivo, ya que la lluvia suele causar más tráfico.

#### Relación con la Independencia de Eventos

Es importante destacar que si los eventos A y B son **independientes**, entonces la probabilidad condicionada $ P(A|B) $ es igual a $ P(A) $. Esto se debe a que en un escenario de independencia, la ocurrencia de B no afecta la probabilidad de A.

En términos matemáticos, si A y B son independientes, entonces:

$
P(A|B) = P(A)
$

#### Ejemplo Práctico en Python: Probabilidad Condicionada con Dados

Para ilustrar cómo funciona la probabilidad condicionada, utilizaremos un ejemplo con dados. Queremos calcular la probabilidad de que la suma de dos dados sea 7, dado que sabemos que el primer dado ha mostrado un número par.

**Configuración del Problema:**

- **Evento A:** La suma de los dos dados es 7.
- **Evento B:** El primer dado muestra un número par.

Usaremos simulaciones para calcular esta probabilidad condicionada.




In [8]:
import numpy as np

# Simulación de lanzamientos de dos dados
np.random.seed(42)
dados = np.random.randint(1, 7, size=(10000, 2))

# Definir los eventos A y B
evento_A = np.sum(dados, axis=1) == 7  # Suma de los dados es 7
evento_B = dados[:, 0] % 2 == 0  # Primer dado es par

# Calcular P(A ∩ B)
P_A_y_B = np.mean(evento_A & evento_B)

# Calcular P(B)
P_B = np.mean(evento_B)

# Calcular P(A|B)
P_A_dado_B = P_A_y_B / P_B

print(f"La probabilidad de que la suma sea 7, dado que el primer dado es par, es {P_A_dado_B:.4f}")


La probabilidad de que la suma sea 7, dado que el primer dado es par, es 0.1528


In [10]:
evento_A

array([False, False,  True, ...,  True, False, False])

In [11]:
evento_B

array([ True, False, False, ..., False, False, False])

En este código, calculamos la probabilidad de que la suma de los dos dados sea 7, dado que el primer dado muestra un número par. Este ejemplo ayuda a visualizar cómo la condición impuesta (primer dado par) afecta la probabilidad del resultado (suma 7).

#### Comparación con la Probabilidad No Condicionada

Para ver el impacto de la condición, podemos comparar la probabilidad condicionada con la probabilidad no condicionada (sin información adicional sobre el primer dado):


In [9]:
# Calcular P(A)
P_A = np.mean(evento_A)

print(f"La probabilidad de que la suma sea 7 (sin condición) es {P_A:.4f}")


La probabilidad de que la suma sea 7 (sin condición) es 0.1602


Al comparar ambas probabilidades, observamos cómo la información adicional (condición) cambia nuestra expectativa sobre el resultado.

#### Aplicaciones de la Probabilidad Condicionada

La probabilidad condicionada tiene muchas aplicaciones en diferentes campos:

1. **Medicina:** Calcular la probabilidad de que un paciente tenga una enfermedad dada cierta sintomatología (diagnóstico médico).
   
2. **Finanzas:** Evaluar el riesgo de un activo financiero dado el comportamiento reciente del mercado.
   
3. **Inteligencia Artificial:** En sistemas de clasificación y predicción, como en los modelos de Naive Bayes, donde se asume independencia condicional entre variables.

4. **Seguros:** Estimar la probabilidad de un accidente automovilístico dado que el conductor tiene un historial de manejo seguro o vive en una zona de alto riesgo.



### Redes Bayesianas: Un Mapa para las Relaciones entre Variables

Imagina que eres un detective trabajando en un caso complicado. Tienes varias pistas, posibles sospechosos y evidencias, pero no está claro cómo encajan todas las piezas. Para resolver este enigma, necesitas una forma de organizar la información y entender las conexiones entre todos los elementos. Aquí es donde entran en juego las **Redes Bayesianas**.

#### ¿Qué es una Red Bayesiana?

Una **Red Bayesiana** es un modelo gráfico que representa relaciones de dependencia y causalidad entre variables. Imagina que es un mapa que te ayuda a ver cómo las diferentes piezas de información están conectadas. Las redes bayesianas están formadas por:

- **Nodos:** Estos representan las variables del sistema, que pueden ser eventos, características, o estados. En el caso del detective, los nodos podrían ser "arma homicida", "sospechoso", "hora del crimen", "coartada", etc.

- **Flechas (arcos dirigidos):** Estas flechas indican una influencia causal entre los nodos. Si una flecha va del nodo A al nodo B, significa que A influye en B. Por ejemplo, la flecha que va desde "el sospechoso tenía el arma homicida" a "el sospechoso cometió el crimen" muestra que tener el arma aumenta la probabilidad de que el sospechoso sea culpable.

#### ¿Cómo Funciona una Red Bayesiana?

1. **Estructura gráfica**: La red consiste en nodos que representan variables aleatorias y arcos que representan las dependencias entre ellas. Los nodos pueden ser variables observables o no observables (ocultas).

2. **Probabilidades condicionales**: Cada nodo tiene una tabla de probabilidades condicionales que describe la probabilidad de ese nodo dado los valores de sus nodos padres.

3. **Inferencia probabilística**: A partir de la estructura de la red y las probabilidades condicionales, se puede realizar inferencia probabilística. Es decir, se pueden calcular las probabilidades de variables de interés dados algunos valores observados.

4. **Aprendizaje**: Las redes bayesianas pueden ser construidas de forma manual o aprendidas automáticamente a partir de datos.

5. **Aplicaciones**: Se utilizan en una amplia variedad de campos como medicina, finanzas, sistemas expertos, clasificación, detección de anomalías, entre otros.


Cada nodo en una red bayesiana tiene una probabilidad asociada. Esta probabilidad puede ser:

- **Probabilidad a priori:** Es la probabilidad inicial de un evento antes de obtener nueva información. Por ejemplo, antes de cualquier investigación, puedes pensar que la probabilidad de que el sospechoso sea culpable es baja.

- **Probabilidad a posteriori:** Es la probabilidad actualizada después de obtener nueva evidencia. Si descubres que el sospechoso estaba en la escena del crimen, esta nueva información aumenta la probabilidad de que sea culpable.

Las flechas en la red bayesiana indican cómo se actualizan las probabilidades entre nodos cuando obtenemos nueva información. Este proceso de actualización se basa en el **Teorema de Bayes**, que nos permite ajustar nuestras creencias a la luz de la nueva evidencia.

#### Ejemplo Práctico: Investigando un Crimen

Para ver cómo funciona una red bayesiana en acción, volvamos al escenario del detective. Supongamos que en nuestra red tenemos los siguientes nodos:

- **Sospechoso en la escena del crimen.**
- **Sospechoso tenía el arma homicida.**
- **El crimen ocurrió a medianoche.**
- **El sospechoso tiene una coartada.**

Imagina que inicialmente piensas que es poco probable que el sospechoso sea culpable. Sin embargo, encuentras evidencia de que estaba en la escena del crimen. Esta nueva información aumenta la probabilidad de que sea el culpable. A medida que obtienes más pruebas, como el hecho de que tenía el arma homicida, puedes seguir ajustando tu análisis.

El siguiente diagrama muestra cómo se relacionan estos nodos:

```plaintext
[Sospechoso en la escena] ---> [Sospechoso cometió el crimen] <--- [Sospechoso tenía el arma homicida]
                                  ^
                                  |
                      [El crimen ocurrió a medianoche]
```

Las flechas muestran la influencia causal entre los diferentes elementos, y la red nos ayuda a visualizar cómo una variable afecta a otra.

#### ¿Para Qué Sirven las Redes Bayesianas?

Las redes bayesianas son extremadamente útiles en una amplia gama de aplicaciones:

- **Medicina:** Ayudan a diagnosticar enfermedades, predecir la efectividad de tratamientos y determinar factores de riesgo. Por ejemplo, un médico puede usar una red bayesiana para evaluar la probabilidad de una enfermedad basándose en síntomas y antecedentes médicos.

- **Inteligencia Artificial:** Son esenciales para construir sistemas que aprenden de los datos, toman decisiones y realizan predicciones. Un sistema de recomendación, como los que usan plataformas de streaming, puede utilizar redes bayesianas para predecir las preferencias del usuario.

- **Finanzas:** En el ámbito financiero, se utilizan para evaluar riesgos, predecir el comportamiento del mercado y detectar fraudes. Una red bayesiana podría, por ejemplo, estimar la probabilidad de un colapso del mercado en función de diferentes indicadores económicos.

- **Ingeniería:** Se emplean para diagnosticar fallos, optimizar procesos y controlar sistemas. En la ingeniería de software, una red bayesiana podría identificar la causa de un fallo en un sistema complejo.

#### Ventajas de las Redes Bayesianas

Las redes bayesianas ofrecen varias ventajas que las hacen ideales para analizar sistemas complejos:

- **Visualización:** Ayudan a entender mejor las relaciones entre variables, permitiendo que veas cómo un cambio en una variable afecta a las demás.

- **Razonamiento Probabilístico:** Facilitan el modelado de la incertidumbre y permiten actualizar las creencias a medida que se obtiene nueva información, lo que es crucial en situaciones donde los datos son incompletos o inciertos.

- **Toma de Decisiones:** Permiten tomar decisiones más informadas al evaluar el impacto de diferentes factores y escenarios, ayudando a encontrar la mejor solución en situaciones complejas.

#### Ejemplo Práctico en Python: Implementación de una Red Bayesiana

Ahora, veamos cómo podemos implementar una red bayesiana en Python utilizando la librería `pgmpy`.




In [None]:
!pip install pgmpy

In [16]:
from pgmpy.models import BayesianNetwork
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination

# Definir la estructura de la red bayesiana
# Aquí estamos definiendo las relaciones causales entre las variables.
# 'Sospechoso en la escena' influye en 'Sospechoso cometió el crimen'.
# 'Sospechoso tenía el arma homicida' también influye en 'Sospechoso cometió el crimen'.
# 'El crimen ocurrió a medianoche' tiene una relación con 'Sospechoso cometió el crimen'.
# Estas relaciones se representan mediante flechas en la red.
model = BayesianNetwork([
    ('Sospechoso en la escena', 'Sospechoso cometió el crimen'),
    ('Sospechoso tenía el arma homicida', 'Sospechoso cometió el crimen'),
    ('El crimen ocurrió a medianoche', 'Sospechoso cometió el crimen')
])

# Definir las probabilidades condicionales para cada nodo
# En este caso, estamos definiendo la probabilidad de que el sospechoso esté en la escena.
# cpd_sospechoso_escena representa esta probabilidad:
# - 80% de probabilidad de estar en la escena (0.8) y 20% de no estar (0.2).
# En otros ejemplos, este parámetro podría ajustarse en función de datos observados o estimaciones.
cpd_sospechoso_escena = TabularCPD(variable='Sospechoso en la escena', variable_card=2, values=[[0.8], [0.2]])

# Definir la probabilidad de que el sospechoso tenga el arma homicida
# Aquí, asumimos que hay un 90% de probabilidad de que el sospechoso tuviera el arma homicida y un 10% de que no.
# Al igual que antes, estos valores pueden ajustarse en función de la evidencia o datos.
cpd_arma_homicida = TabularCPD(variable='Sospechoso tenía el arma homicida', variable_card=2, values=[[0.9], [0.1]])

# Definir la probabilidad de que el crimen ocurriera a medianoche
# Se establece que hay un 70% de probabilidad de que el crimen ocurriera a medianoche y un 30% de que no.
# Estos valores pueden cambiar según el contexto o la evidencia disponible.
cpd_crimen_medianoche = TabularCPD(variable='El crimen ocurrió a medianoche', variable_card=2, values=[[0.7], [0.3]])

# Definir la probabilidad condicional del crimen basado en todas las evidencias
# Esta es la probabilidad de que el sospechoso cometiera el crimen dada la combinación de todas las variables anteriores.
# Aquí, tenemos un conjunto de probabilidades basadas en diferentes combinaciones de variables. Por ejemplo:
# - Si el sospechoso estuvo en la escena, tenía el arma homicida, y el crimen ocurrió a medianoche,
#   la probabilidad de que cometió el crimen es 95% (0.95).
# - Si ninguna de estas condiciones se cumple, la probabilidad es solo del 1% (0.01).
# Estos valores se pueden ajustar de manera similar a partir de datos o suposiciones previas.
cpd_crimen = TabularCPD(variable='Sospechoso cometió el crimen', variable_card=2,
                        values=[[0.95, 0.85, 0.8, 0.4, 0.3, 0.1, 0.05, 0.01],
                                [0.05, 0.15, 0.2, 0.6, 0.7, 0.9, 0.95, 0.99]],
                        evidence=['Sospechoso en la escena', 'Sospechoso tenía el arma homicida', 'El crimen ocurrió a medianoche'],
                        evidence_card=[2, 2, 2])

# Añadir las probabilidades condicionales (CPDs) al modelo
# Cada uno de los CPDs definidos anteriormente se agrega al modelo para construir la red completa.
model.add_cpds(cpd_sospechoso_escena, cpd_arma_homicida, cpd_crimen_medianoche, cpd_crimen)

# Validar el modelo
# Esta línea asegura que el modelo esté correctamente definido y que todas las probabilidades condicionales estén en su lugar.
assert model.check_model()

# Realizar inferencia utilizando la eliminación de variables
# Aquí utilizamos el método VariableElimination para realizar inferencias sobre nuestro modelo.
# Estamos calculando la probabilidad de que el sospechoso cometiera el crimen dado que estuvo en la escena.
inference = VariableElimination(model)
probabilidad_crimen = inference.query(variables=['Sospechoso cometió el crimen'], evidence={'Sospechoso en la escena': 1})

# Imprimir el resultado de la inferencia
# El resultado mostrará la probabilidad de que el sospechoso cometiera el crimen dado que estuvo en la escena.
print(probabilidad_crimen)


+---------------------------------+-------------------------------------+
| Sospechoso cometió el crimen    |   phi(Sospechoso cometió el crimen) |
| Sospechoso cometió el crimen(0) |                              0.2198 |
+---------------------------------+-------------------------------------+
| Sospechoso cometió el crimen(1) |                              0.7802 |
+---------------------------------+-------------------------------------+


Para comprender cómo se construyó la tabla de probabilidad condicional para `cpd_crimen`, es importante entender cómo funcionan las redes bayesianas y cómo se definen las probabilidades condicionales en función de diferentes combinaciones de eventos.

### Contexto

En una red bayesiana, cuando una variable depende de otras variables, definimos la **probabilidad condicional** de esa variable en función de todas las combinaciones posibles de los eventos de los que depende. En este caso, la probabilidad de que el "Sospechoso cometió el crimen" depende de tres eventos:

1. **Sospechoso en la escena** (Sí/No)
2. **Sospechoso tenía el arma homicida** (Sí/No)
3. **El crimen ocurrió a medianoche** (Sí/No)

Cada una de estas variables tiene dos posibles valores (Sí o No), lo que da lugar a un total de $ 2 \times 2 \times 2 = 8 $ combinaciones posibles de eventos.

### Desglose de la Tabla

El parámetro `values` en `cpd_crimen` contiene las probabilidades condicionales para cada una de estas combinaciones. Aquí está el desglose de las combinaciones y cómo se interpretan los valores:

- **Combinación 1:** Sospechoso en la escena = Sí, Tenía el arma = Sí, Crimen a medianoche = Sí.
  - Probabilidad de que cometió el crimen = 0.95 (alto)
  - Probabilidad de que NO cometió el crimen = 0.05

- **Combinación 2:** Sospechoso en la escena = Sí, Tenía el arma = Sí, Crimen a medianoche = No.
  - Probabilidad de que cometió el crimen = 0.85
  - Probabilidad de que NO cometió el crimen = 0.15

- **Combinación 3:** Sospechoso en la escena = Sí, Tenía el arma = No, Crimen a medianoche = Sí.
  - Probabilidad de que cometió el crimen = 0.80
  - Probabilidad de que NO cometió el crimen = 0.20

- **Combinación 4:** Sospechoso en la escena = Sí, Tenía el arma = No, Crimen a medianoche = No.
  - Probabilidad de que cometió el crimen = 0.40
  - Probabilidad de que NO cometió el crimen = 0.60

- **Combinación 5:** Sospechoso en la escena = No, Tenía el arma = Sí, Crimen a medianoche = Sí.
  - Probabilidad de que cometió el crimen = 0.30
  - Probabilidad de que NO cometió el crimen = 0.70

- **Combinación 6:** Sospechoso en la escena = No, Tenía el arma = Sí, Crimen a medianoche = No.
  - Probabilidad de que cometió el crimen = 0.10
  - Probabilidad de que NO cometió el crimen = 0.90

- **Combinación 7:** Sospechoso en la escena = No, Tenía el arma = No, Crimen a medianoche = Sí.
  - Probabilidad de que cometió el crimen = 0.05
  - Probabilidad de que NO cometió el crimen = 0.95

- **Combinación 8:** Sospechoso en la escena = No, Tenía el arma = No, Crimen a medianoche = No.
  - Probabilidad de que cometió el crimen = 0.01 (muy baja)
  - Probabilidad de que NO cometió el crimen = 0.99

### Interpretación de la Tabla

El parámetro `values` se estructura en dos filas:

- La **primera fila** contiene las probabilidades de que el sospechoso **cometió el crimen** para cada una de las combinaciones de eventos.
- La **segunda fila** contiene las probabilidades de que el sospechoso **NO cometió el crimen** para esas mismas combinaciones.

El orden de las combinaciones sigue la secuencia de estados binarios de las tres variables de evidencia. Es decir, se combinan todas las posibilidades de estas variables en un orden determinado:

1. [1, 1, 1]
2. [1, 1, 0]
3. [1, 0, 1]
4. [1, 0, 0]
5. [0, 1, 1]
6. [0, 1, 0]
7. [0, 0, 1]
8. [0, 0, 0]

Donde `1` significa "Sí" y `0` significa "No".

### Cómo Construir Esta Tabla en Otros Ejemplos

Para construir una tabla similar en otros ejemplos, debes:

1. **Identificar las variables de las que depende el evento principal.** En este caso, el evento principal es "Sospechoso cometió el crimen", y depende de tres variables (Sospechoso en la escena, Sospechoso tenía el arma homicida, y El crimen ocurrió a medianoche).

2. **Determinar todas las combinaciones posibles de estos eventos.** Si cada variable tiene dos estados posibles (Sí/No), el número total de combinaciones será $2^n$, donde $n$ es el número de variables de las que depende.

3. **Asignar probabilidades condicionales para cada combinación.** Basándote en datos, suposiciones o conocimientos previos, asigna probabilidades para cada combinación de eventos.

4. **Verificar que las probabilidades para cada combinación sumen 1.** Esto asegura que la tabla esté correctamente normalizada.

### Ejemplo en Otro Contexto

Imaginemos que estás modelando la probabilidad de que un estudiante apruebe un examen basado en dos factores: si estudió y si durmió bien la noche anterior. Tendrías 4 combinaciones posibles:

1. Estudió y durmió bien.
2. Estudió pero no durmió bien.
3. No estudió pero durmió bien.
4. No estudió y no durmió bien.

Asignarías probabilidades para aprobar o no aprobar en cada uno de estos casos, y construirías la tabla de la misma manera.

Espero que esta explicación aclare cómo se construyó la tabla y cómo podrías hacerlo en otros ejemplos.


Este código construye una red bayesiana con tres nodos y establece las probabilidades condicionales. Luego, realiza una inferencia para calcular la probabilidad de que el sospechoso haya cometido el crimen dado que estaba en la escena.


Las redes bayesianas son una herramienta poderosa para analizar y modelar sistemas donde múltiples variables interactúan entre sí. Actúan como un mapa que nos guía a través de la complejidad, permitiendo visualizar las relaciones causales, modelar la incertidumbre y tomar decisiones más informadas.