# Probabilidad

## Nociones básicas de probabilidad

Existen 2 escuelas de probabilidad
- **Laplace**: Es _frecuentista_. Define la probabilidad como "la cantidad de casos favorables, dividido por los casos totales". Requiere por tanto definir qué es un _caso favorable_ (evento específico), y cuáles son los _casos totales_ o _número de experimentos_ (n).
    - **Ejemplo**: Si de una bolsa de bolitas escojo 100 veces una bolita, y 40 son azules, y 60 son rojas, entonces la probabilidad de que una bolita sea azul es de 0.4, y la probabilidad de que una bolita sea roja es de 0.6.
- **Bayes**: Define la probabilidad introduciendo una probabilidad _"a priori"_ (conocimiento previo que se tiene del fenómeno) para el cálculo de la probabilidad _"a posteriori"_; Combina el conocimiento _a priori_ con la evidencia dada por datos para obtener la probabilidad. Utiliza para su cálculo _el teorema de Bayes_.
    
En este curso se hará foco en el cálculo _frecuentista_ de probabilidad. Luego, en el módulo de _Machine Learning_, se profundizará un poco más en el _Teorema de Bayes_.

### Definición frecuentista de probabilidad
- También se llama _probabilidad empírica_. 
- Se sustenta en _frecuencias relativas_ (número de veces que se observó un evento).
- Si _n_ es grande (mayor cantidad de experimentos) converge a la _probabilidad teórica_ (de la población).
- Entiende como un _juicio_ donde evaluamos experimentos aleatorios que producen una serie de resultados.
- Cuando decimos que _"la probabilidad que salga sello al lanzar una moneda es del 50%"_, estamos considerando dos elementos:
    - **Un número de experimentos** (cantidad de veces que se lanzó una moneda, no definidos en este ejemplo)
    - **Un evento específico** (obtener un sello, lo cual se da en la mitad de los experimentos)

## Espacio muestral

- Se denota como $\Omega$ o $S$
- Conjunto de _todos los posibles resultados_ de un experimento aleatorio. 
    - Un experimento aleatorio es aquel donde, al realizarlo, _no sabemos lo que va a ocurrir_.
    - Existe también el _espacio de probabilidad_, que contiene dentro de sus elementos al espacio muestral, pero no lo revisaremos en este curso. 

## Definición básica de probabilidad (según enfoque frecuentista)

$$
P(A) = \frac{A}{n}
$$
- $A$: _Evento específico_ al cual se le asigna un número no negativo que representa la verosimilitud de ocurrencia.
    - El evento aleatorio es un _subconjunto_ o del espacio muestral, o equivalente a éste; $A \subseteq \Omega $
- $n$: Hace referencia a la _cantidad de experimentos_.
- $P(A)$: Probabilidad del evento $A$.

## Definición de elementos dentro de un espacio muestral
- Resulta que la definición del espacio muestral y sus elementos también surge de la conceptualización y operacionalización de los datos.


### Ejemplo GOT:

In [43]:
import pandas as pd

# Se leen los datos
df_got = pd.read_csv("got_battles.csv")

# Se transponen los elementos seleccionados al azar para facilitar la lectura. OJO, se observa muchos "NaN", puede afectar el cálculo de frecuencia
df_got.sample(3, random_state=42).T

Unnamed: 0,33,36,4
me,Second Seige of Storm's End,Siege of Raventree,Battle of the Whispering Wood
year,300,300,298
battle_number,34,37,5
attacker_king,Joffrey/Tommen Baratheon,Joffrey/Tommen Baratheon,Robb Stark
defender_king,Stannis Baratheon,Robb Stark,Joffrey/Tommen Baratheon
attacker_1,Baratheon,Bracken,Stark
attacker_2,,Lannister,Tully
attacker_3,,,
attacker_4,,,
defender_1,Baratheon,Blackwood,Lannister


### Datos nulos

In [44]:
import numpy as np

# En numpy, los nulos corresponden a np.nan
np.nan

nan

In [3]:
# En python nativo, corresponde a None
None

In [4]:
# Con pandas, podemos validar si un dato es nulo con el método isnull(), que devuelve True en caso de que el dato entregado sea equivalente a un "nulo"
pd.isnull(np.nan), pd.isnull(None)

(True, True)

In [45]:
# Podemos acceder a un dato específico del DataFrame usando "loc": El primer valor corresponde al índice de la fila, y el segundo al nombre de la columna
pd.isnull(df_got.loc[33, "attacker_size"])

True

### Primer ejemplo: Consideraremos nuestro espacio muestral como solamente los reyes conocidos
- Recordar que la definición del espacio muestral depende de la conceptualización y operacionalización de los datos. En este primer caso, se conceptualiza como pertenecientes al espacio muestral _solo los reyes conocidos_.
- Más adelante, se _imputará_ a los reyes no conocidos, realizándose _otra operacionalización de los datos_, y por ende definiendo un espacio muestral diferente.

In [46]:
# El método unique() entrega todos los distintos valores presentes en una Serie de pandas
# Eliminalos los nulos con dropna() porque un nulo no lo consideramos un rey válido, sino que corresponde a un caso donde no se sabe o no se registró el dato
reyes_conocidos = df_got["attacker_king"].dropna().unique()

print(f"Para el experimento aleatorio 'Que una batalla sea inicializada por un rey', el espacio muestral es {reyes_conocidos}")

Para el experimento aleatorio 'Que una batalla sea inicializada por un rey', el espacio muestral es ['Joffrey/Tommen Baratheon' 'Robb Stark' 'Balon/Euron Greyjoy'
 'Stannis Baratheon']


#### Cantidad de experimentos para el espacio muestral "reyes conocidos"
- Para definir el número de experimentos considerando el espacio muestral "reyes conocidos", debemos considerar solamente los experimentos aleatorios _que contengan los elementos de este espacio muestral_. 
- En este caso, se considera un "experimento aleatorio" cada batalla. Es decir, cada fila del set de datos.
- Por lo tanto, para definir la cantidad de experimentos asociada al espacio muestral "reyes conocidos", _no se debe considerar las batallas (experimentos) donde no se conoce el rey atacante_, ya que _los datos nulos no pertenecen al espacio muestral definido previamente_.

In [47]:
# Para eliminar de un DataFrame las filas que contengan datos nulos en una o más columnas específicas, se utiliza el método dropna() y el parámetro subset, que recibe una lista de columnas
n_para_reyes_conocidos = df_got.dropna(subset=["attacker_king"]).shape[0]

print(
    f"La cantidad de experimentos (n), para el espacio muestral 'reyes conocidos', equivale a la cantidad de filas del set de datos que no considera a los"
    f" registros que tengan 'nulo' en la columna 'attacker_king'. De esta forma, en este primer ejemplo, 'n' corresponde a: {n_para_reyes_conocidos} experimentos."
)

La cantidad de experimentos (n), para el espacio muestral 'reyes conocidos', equivale a la cantidad de filas del set de datos que no considera a los registros que tengan 'nulo' en la columna 'attacker_king'. De esta forma, en este primer ejemplo, 'n' corresponde a: 36 experimentos.


### Segundo ejemplo: Considerando nuestro espacio muestran incluyendo todos los experimentos
- Para el resto de ejemplos en esta sesión, se utiliza _otra operacionalización de datos_, donde se considera como 'n' la cantidad de filas del set de datos completo, incluyendo en este caso entonces aquellas batallas donde no se conoce el rey atacante.

In [50]:
# Primero almacenamos 'n', la cantidad de experimentos, que corresponde a todas las batallas
n = df_got.shape[0]
print(f"La cantidad de experimentos totales equivale a la cantidad de filas del set de datos (cantidad de batallas): {n}")

La cantidad de experimentos totales equivale a la cantidad de filas del set de datos (cantidad de batallas): 38


- Por tanto, esto define _un nuevo espacio muestral_, donde se deberá "definir" algún valor _no nulo_ asociado a los registros donde `attacker_king` es nulo. 

In [51]:
# Se explora la cantidad de nulos en el set de datos
df_got.isna().sum()

me                     0
year                   0
battle_number          0
attacker_king          2
defender_king          3
attacker_1             0
attacker_2            28
attacker_3            35
attacker_4            36
defender_1             1
defender_2            36
defender_3            38
defender_4            38
attacker_outcome       1
battle_type            1
major_death            1
major_capture          1
attacker_size         14
defender_size         19
attacker_commander     1
defender_commander    10
summer                 1
location               1
region                 0
note                  33
dtype: int64

- Se explora primero la frecuencia relativa de datos nulos, así como para cada rey, utilizando `value_counts` en la columna `attacker_king`.
- Recordar que en el enfoque frecuentista de Laplace, _la frecuencia relativa corresponde a la probabilidad_.

In [52]:
df_got["attacker_king"].value_counts(
    normalize=True, # Cuando es "False" (valor por defecto) entrega frecuencia absoluta. Damos "True" para obtener frecuencia relativa, equivalente a probabilidad frecuentista
    dropna=False # Cuando es "True" (valor por defecto) no considera los registros nulos. Debemos incluir los nulos (indicando False), para que los casos "favorables" (cada categoria) se divida en los totales (38 casos en lugar de 36)
)

Joffrey/Tommen Baratheon    0.368421
Robb Stark                  0.263158
Balon/Euron Greyjoy         0.184211
Stannis Baratheon           0.131579
NaN                         0.052632
Name: attacker_king, dtype: float64

In [53]:
# Alternativamente, se puede solicitar la frecuencia absoluta y dividir por el número de filas del DataFrame (numero de experimentos)
df_got["attacker_king"].value_counts() / n

Joffrey/Tommen Baratheon    0.368421
Robb Stark                  0.263158
Balon/Euron Greyjoy         0.184211
Stannis Baratheon           0.131579
Name: attacker_king, dtype: float64

#### Nota
- Si no se usara `dropna=False`, se obtendría otras frecuencias, que NO equivalen a las probabilidades para el evento específico y espacio muestral definidos en este caso (ejemplo 2)
- Lo que se obtiene en cambio son las frecuencias relativas, o probabilidades, de lo revisado en el ejemplo 1, donde no consideraba como experimentos donde no se conocía el rey

In [54]:
df_got["attacker_king"].value_counts(normalize=True, dropna=True)

Joffrey/Tommen Baratheon    0.388889
Robb Stark                  0.277778
Balon/Euron Greyjoy         0.194444
Stannis Baratheon           0.138889
Name: attacker_king, dtype: float64

#### (Continuando con el ejemplo 2...)
- Se realiza la _imputación de nulos_ utilizando el método `fillna()`, el cual recibe como argumento el valor por el cual se quiere reemplazar los datos nulos encontrados.
- Se puede aplicar `fillna()` tanto al `DataFrame` completo como a una `Serie` específica.
- En este caso, se aplica solo a la columna `attacker_king`, y se imputará los datos nulos con el valor "Otro rey". Se debe asignar este reemplazo a la serie original con `=`.

In [56]:
df_got["attacker_king"] = df_got["attacker_king"].fillna("Otro rey")

- Esta vez, se realiza nuevamente `value_counts()` con `dropna=True`, y como ya no hay datos nulos, se obtiene las mismas frecuencias que se obtenía antes de la imputación

In [57]:
df_got["attacker_king"].value_counts(normalize=True)

Joffrey/Tommen Baratheon    0.368421
Robb Stark                  0.263158
Balon/Euron Greyjoy         0.184211
Stannis Baratheon           0.131579
Otro rey                    0.052632
Name: attacker_king, dtype: float64

In [59]:
# Ejemplo frecuencia absoluta (cantidad de casos)
df_got["attacker_king"].value_counts()

Joffrey/Tommen Baratheon    14
Robb Stark                  10
Balon/Euron Greyjoy          7
Stannis Baratheon            5
Otro rey                     2
Name: attacker_king, dtype: int64

- Finalmente, se obtiene el nuevo espacio muestral luego de la imputación de nulos

In [58]:
reyes_fillna = df_got["attacker_king"].unique()

print(f"El espacio muestral corresponde a: {reyes_fillna}")

El espacio muestral corresponde a: ['Joffrey/Tommen Baratheon' 'Robb Stark' 'Balon/Euron Greyjoy'
 'Stannis Baratheon' 'Otro rey']


## Cálculo de probabilidad
### Se define el evento específico para obtener su probabilidad
- Se tomará como _evento específico_ para calcular su probabilidad que _una batalla sea inicializada por un rey Baratheon_.
- Para ello, se almacenará las probabilidades obtenidas con `value_counts` en la variable `probabilidades_reyes`

In [60]:
probabilidades_reyes = df_got["attacker_king"].value_counts(normalize=True)

- Para obtener específicamente la probabilidad del evento señalado, se hace uso de `get` aplicado a la Serie almacenada en `probabilidades_reyes`; Al igual que en un diccionario, en una serie de pandas puedo acceder al valor de un índice con 'get'.
- Es preferible usar "get" ya que no lanza una excepción cuando el índice solicitado no existe, sino que solo retorna "None".

In [61]:
# Ejemplo "get" en diccionario de python
ejemplo = {"a": 1}
ejemplo.get("b")

In [63]:
probabilidad_evento_baratheon = probabilidades_reyes.get("Joffrey/Tommen Baratheon")

print(f"La probabilidad de que una batalla sea iniciada por un 'Baratheon' (evento específico) es de {round(probabilidad_evento_baratheon, 2)}")

La probabilidad de que una batalla sea iniciada por un 'Baratheon' (evento específico) es de 0.37


## Condiciones a cumplir

Toda probabilidad debe cumplir una serie de condiciones, conocidas como los _Axiomas de Kolmogorov_:
- **Nonegatividad**: $P(A) \geq 0, \forall A \subseteq \Omega$. Esta expresión se lee como _"La probabilidad del evento "A" es mayor o igual a 0, para todo evento A subconjunto o equivalente al espacio muestral Omega"_. 
- **Normalización**: $P(\Omega)=1$. La probabilidad del espacio muestral es 1. Esto significa que la cota superior, es decir, la máxima probabilidad posible de cualquier evento, es 1. Se le llama también "certidumbre", ya que indica que siempre ocurrirá alguno de los eventos en $\Omega$.
- **Aditividad**: Para una colección infinita de eventos excluyentes, la probabilidad de que ellos ocurran conjuntamente equivale a la suma de las probabilidades de que cada uno ocurra por separado.
$$
\begin{align}
P\left(\bigcup_{i=1}^{\infty}A_i\right) &= \sum_{i=1}^{\infty}P(A_i) \\
P(A_1 \cup A_2 \cup A_3 \cup...) &= P(A_1) + P(A_2) + P(A_3) +...
\end{align}
$$
<br />

    - **Nota**: Cuando se "une" probabilidades, equivale al operador lógico "or"; "Puede ocurrir lo uno O lo otro". Cuando las probabilidades se "intersectan", equivale al operador lógico "and"; "Debe ocurrir lo uno Y lo otro".
    - **Ejemplo Axioma 3**: "La probabilidad al lanzar una moneda de obtener cara _**o**_ sello, **_es igual_** a la probabilidad de obtener cara **_más_** la probabilidad de obtener sello".

- Efectivamente, en nuestro experimento aleatorio "Que una batalla sea inicializada por un rey", todos los eventos posibles definidos (los distintos reyes) ocurren con probabilidad mayor o igual a cero... (Axioma 1)

In [66]:
for a, p in probabilidades_reyes.items(): # Se itera el índice (a) y el valor (p) de cada elemento de la serie
    print(f"La probabilidad del evento {a} {'es mayor o igual a 0' if p >=0 else 'no es mayor o igual a 0'}")
    
    # Programáticamente, podemos usar un "assert"; En caso de que la condición no se cumpla, lanzará una excepción
    assert p >= 0

La probabilidad del evento Joffrey/Tommen Baratheon es mayor o igual a 0
La probabilidad del evento Robb Stark es mayor o igual a 0
La probabilidad del evento Balon/Euron Greyjoy es mayor o igual a 0
La probabilidad del evento Stannis Baratheon es mayor o igual a 0
La probabilidad del evento Otro rey es mayor o igual a 0


... y menor o igual a 1 (Axioma 2)

In [67]:
for a, p in probabilidades_reyes.items(): 
    print(f"La probabilidad del evento {a} {'es menor o igual a 1' if p <=1 else 'no es menor o igual a 1'}")
    assert p <= 1

La probabilidad del evento Joffrey/Tommen Baratheon es menor o igual a 1
La probabilidad del evento Robb Stark es menor o igual a 1
La probabilidad del evento Balon/Euron Greyjoy es menor o igual a 1
La probabilidad del evento Stannis Baratheon es menor o igual a 1
La probabilidad del evento Otro rey es menor o igual a 1


- A su vez, la suma de las probabilidades de cada evento (cada rey posible, incluyendo los desconocidos) equivale a la unión de las probabilidades de cada evento (Axioma 3). 

In [68]:
import numpy as np
# Suma de todas las probabilidades
suma_probs = probabilidades_reyes.sum()

# Llenamos los "reyes nulos" en todo el set
df_got["attacker_king"] = df_got["attacker_king"].fillna("Otro rey")

# Obtenemos la lista de eventos (reyes) actualizada
reyes_fillna = df_got["attacker_king"].unique()

# Se hace una lista con todos los eventos posibles
eventos = [
    df_got["attacker_king"] == r
    for r in reyes_fillna
]

# Se hace una selección donde ocurra la unión de cada evento; Esto se hace con el el método logical_or de numpy
union_eventos = df_got[np.logical_or.reduce(eventos)]

# Se obtiene la probabilidad de la unión de eventos
prob_union = union_eventos.shape[0] / n

assert suma_probs == prob_union

print(f"La probabilidad de la unión de eventos {'es igual' if prob_union == suma_probs else 'no es igual'} a la suma de las probabilidades de cada evento")

La probabilidad de la unión de eventos es igual a la suma de las probabilidades de cada evento


In [69]:
# Forma iterativa equivalente a la compresion de lista
eventos = []
for r in reyes_fillna:
    eventos.append(df_got["attacker_king"] == r)

- La unión de las probabilidades de todos los eventos posibles en nuestro espacio muestral, corresponde a la probabilidad de $\Omega$, que es 1 (Axioma 2).

In [70]:
print(f"La suma de las probabilidades de todos los eventos es {suma_probs}")
print(f"La unión de las probabilidades es {prob_union}")

assert suma_probs == prob_union == 1

La suma de las probabilidades de todos los eventos es 1.0
La unión de las probabilidades es 1.0


## Unión de eventos
- Formalmente, si tenemos un conjunto de datos donde observamos dos eventos A y B en un espacio muestral, la unión corresponde a todo dato que satisfaga por lo menos uno de los eventos.
- Ésta definición equivale al operador _or_ de Python
- Se puede expresar como $P(A\cup B)$

In [71]:
# Ejemplo operador "or"
animal = "gato"
color = "azul"

# Usar == en lugar de "is" para evitar warning
if animal == "gato" or color == "azul":
    print("O es un gato, o es azul!")

O es un gato, o es azul!


- En nuestro ejemplo de GOT, definiremos:
    - Evento A: Que un rey Baratheon inicie una batalla
    - Evento B: Que el rey Rob Stark inicie una batalla

In [73]:
# Se define los eventos
evento_a = df_got["attacker_king"] == 'Joffrey/Tommen Baratheon'
evento_b = df_got["attacker_king"] == 'Robb Stark'

# Se selecciona en los datos donde se cumpla alguno de los eventos
a_u_b = df_got[
    evento_a | evento_b # Cuando se trabaja con datos de numpy, se debe usar "&" para "and" y "|" para "or"
]

# IMPORTANTE, si los eventos no se almacenan en variables, y se escriben directamente, deben ir entre paréntesis
assert df_got[
    (df_got["attacker_king"] == 'Joffrey/Tommen Baratheon') | (df_got["attacker_king"] == 'Robb Stark')
].equals(a_u_b) # podemos comprobar que dos DataFrame son iguales con el método "equals"; Retorna True si los DataFrame son iguales, y False si no lo son

- Se calcula $P(A \cup B)$:

$$
\begin{align}
P(A \cup B) &= \frac{A \cup B}{n} \\
P(A \cup B) &= \frac{\text{N° de Batallas Baratheon o Rob Stark}}{\text{N° Batallas totales}}
\end{align}
$$
<br />

- Recordar que `shape[0]` entrega la cantidad de filas de un `DataFrame`. Por tanto, para el caso del `DataFrame` almacenado en `a_u_b`, entrega la cantidad de ocurrencias de que una batalla fuera iniciada por un rey Baratheon o Rob Stark (numerador).

In [74]:
prob_a_u_b = a_u_b.shape[0] / n

print(f"La probabilidad de que una batalla sea inicializada por un rey Baratheon o por el rey Rob Stark es de {round(prob_a_u_b, 2)}")

La probabilidad de que una batalla sea inicializada por un rey Baratheon o por el rey Rob Stark es de 0.63


In [78]:
# Axioma 3: La probabilidad de la unión de eventos excluyentes es igual a la suma de las probabilidades separadas de dichos eventos
assert prob_a_u_b == probabilidades_reyes.get('Joffrey/Tommen Baratheon') + probabilidades_reyes.get('Robb Stark')

## Intersección de eventos

- Formalmente, si tenemos un conjunto de datos donde observamos dos eventos A y B en un espacio muestral, aquellos casos donde ocurren ambos corresponde a la intersección de los eventos.
- Ésta definición equivale al operador _and_ de Python
- Se puede expresar como $P(A \cap B)$

In [79]:
# Ejemplo operador and

if animal == "gato" and color == "azul":
    print("Es un gato azul!")

Es un gato azul!


- ¿Qué ocurrirá en nuestro ejemplo de GOT si calculamos $P(A \cap B)$?

$$
\begin{align}
P(A \cap B) &= \frac{A \cap B}{n} \\
P(A \cap B) &= \frac{\text{N° de Batallas Baratheon y Rob Stark}}{\text{N° Batallas totales}}
\end{align}
$$

In [80]:
# Se selecciona en los datos donde se cumpla ambos eventos
a_int_b = df_got[evento_a & evento_b]

# Se calcula probabilidad de a intersectado b
prob_a_int_b = a_int_b.shape[0] / n

print(f"La probabilidad de que una batalla sea inicializada por un rey Baratheon y por el rey Rob Stark es de {round(prob_a_int_b, 2)}")

La probabilidad de que una batalla sea inicializada por un rey Baratheon y por el rey Rob Stark es de 0.0


- Como nuestros eventos son _excluyentes_ (no puede ocurrir ambos a la vez), la probabilidad de su intersección es 0 

# Probabilidad condicional

## Objetivo de la Probabilidad Condicional

- Buscamos responder a la verosimilitud de ocurrencia de un evento A, condicional a su ocurrencia en otro evento B.
- El objetivo es resolver el siguiente problema:

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

- Donde:
    - $P(A|B)$: Probabilidad condicional del evento A _dado_ el evento B

### Muertes importantes en batallas Baratheon

$$
\begin{align}
P(\text{Muerte Importante} | \text{Batalla Baratheon}) &= \frac{P(\text{Muerte Importante} \cap \text{Batalla Baratheon})}{P(\text{Batalla Baratheon})} \\
P(\text{Muerte Importante} | \text{Batalla Baratheon}) &= \frac{\frac{\text{Muerte Importante } \cap \text{ Batalla Baratheon}}{n}}{\frac{\text{Batalla Baratheon}}{n}} \\
P(\text{Muerte Importante} | \text{Batalla Baratheon}) &= \frac{\text{Muerte Importante } \cap \text{ Batalla Baratheon}}{\text{Batalla Baratheon}} \\
P(\text{Muerte Importante} | \text{Batalla Baratheon}) &= \frac{\text{N° de Batallas con una Muerte Importante y Atacante Baratheon}}{\text{N° Batallas Baratheon}}
\end{align}
$$

- **Evento A**: Muerte importante en una batalla cualquiera.
- **Evento B**: Batalla originada por un Baratheon.
- **Probabilidad condicional A dado B**: Probabilidad de muerte importante en batalla Baratheon.

In [81]:
# Se explora las columnas
df_got.columns

Index(['me', 'year', 'battle_number', 'attacker_king', 'defender_king',
       'attacker_1', 'attacker_2', 'attacker_3', 'attacker_4', 'defender_1',
       'defender_2', 'defender_3', 'defender_4', 'attacker_outcome',
       'battle_type', 'major_death', 'major_capture', 'attacker_size',
       'defender_size', 'attacker_commander', 'defender_commander', 'summer',
       'location', 'region', 'note'],
      dtype='object')

In [82]:
# Se explora los valores posibles de las muertes importantes (major_death)
df_got["major_death"].value_counts()

0.0    24
1.0    13
Name: major_death, dtype: int64

- Primero calculamos la probabilidad condicional $P(A|B)$ en forma iterativa. Recordar que esta forma es más costosa computacionalmente.

In [83]:
muerte_y_baratheon = 0
baratheon = 0

for index, row in df_got.iterrows():
    if row["attacker_king"] == "Joffrey/Tommen Baratheon":
        baratheon += 1
        
        if row["major_death"] == 1:
            muerte_y_baratheon += 1

prob_a_dado_b = muerte_y_baratheon / baratheon            
print(f"La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por un Baratheon es de {round(prob_a_dado_b, 2)}")

La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por un Baratheon es de 0.36


- Ahora aplicando selección matricial

In [84]:
a_y_b = df_got[
    (df_got["attacker_king"] == "Joffrey/Tommen Baratheon") # Que se cumpla la condición de que la batalla fue iniciada por un Baratheon
    & (df_got["major_death"] == 1)                          # Y que se cumpla la condición de que sea una muerte importante
].shape[0]                                                  # Se obtiene la cantidad de casos

prob_a_y_b = a_y_b / n

prob_b = probabilidades_reyes.get("Joffrey/Tommen Baratheon")

assert prob_a_dado_b == prob_a_y_b / prob_b

# Funciones

## Puntos importantes a considerar
- Las funciones pueden tener parámetros de ingreso, los cuales se pueden definir por defecto.
- Las funciones no devuelven resultados por defecto, éstos se deben pedir de manera explícita con _return_.
- Siempre incluir _docstrings_, que deben responder los siguientes puntos:
    - ¿Cuál es el objetivo de la función?
    - ¿Qué parámetros entran?
    - ¿Qué parámetros salen?

- Definiremos una función que permita calcular la probabilidad condicional de que se produzca una muerte importante en una batalla dado un rey específico

In [85]:
# Se define la función
def get_prob_condicional_muerte_importante_rey(
    data, # Importante pedir el set de datos, ya que la función debe programarse asumiendo un entorno aislado del jupyter notebook en ejecución
    nombre_rey, # Solicitamos como parámetro obligatorio el rey del cual se quiere obtener la probabilidad condicional
    es_muerte_importante = 1, # Se asigna el valor por defecto 1 para el parámetro que indica el valor de si la muerte es importante o no
    rey_col = "attacker_king", # Dejamos como opcional el nombre de la columna del nombre del rey atacante
    muerte_col = "major_death" # Dejamos como opcional el nombre de la columna de si es una muerte importante o no
):
    """
        El docstring debe ir inmediatamente luego de la definición de la función, en el bloque interior de ésta
        
        Objetivo:
            - Retornar la probabilidad condicional de ocurrencia de una muerte importante en una batalla dado que ésta fue inicializada por un rey específino
            
        Parámetros:
            - data (DataFrame): Set de datos. Obligatorio.
            - nombre_rey (str): Nombre del rey de la probabilidad condicional (evento B). Obligatorio.
            - es_muerte_importante (int): Indica si se considera una muerte importante para la probabilidad condicional (evento A). Opcional, por defecto 1.
            - rey_col (str): Nombre de la columna donde están los reyes. Opcional, por defecto "attacker_king"
            - muerte_col (str): Nombre de la columna donde se indica si hubo una muerte importante. Opcional, por defecto "major_death"
            
        Retorno:
           - prob_a_dado_b (float): Probabilidad condicional del evento A dado el evento B
    """                                                
    
    # Para la lógica de nuestra función reutilizamos el código ya hecho para el caso particular, reemplazando por los parámetros donde corresponda
    a_y_b = data[
        (data[rey_col] == nombre_rey)
        & (data[muerte_col] == es_muerte_importante)                          
    ].shape[0]                                                  

    # Ojo, se debe obtener "n" dentro del alcance de la función
    n = data.shape[0] 
    prob_a_y_b = a_y_b / n 

    # Ojo, se debe obtener las probabilidades de reyes para el alcance de la función    
    probabilidades_reyes = data[rey_col].value_counts(normalize=True, dropna=False)
    prob_b = probabilidades_reyes.get(nombre_rey)
    
    prob_a_dado_b = prob_a_y_b / prob_b
    
    # Se retorna la probabilidad condicional
    return prob_a_dado_b

- Se llama a la función para cada Rey

In [87]:
reyes_fillna

array(['Joffrey/Tommen Baratheon', 'Robb Stark', 'Balon/Euron Greyjoy',
       'Stannis Baratheon', 'Otro rey'], dtype=object)

In [88]:
for rey in reyes_fillna:
    prob_a_dado_b = get_prob_condicional_muerte_importante_rey(df_got, rey) # Solo pasamos com argumento los correspondientes a los parámetros obligatorios
    print(f"La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por {rey} es de {round(prob_a_dado_b, 2)}")

La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por Joffrey/Tommen Baratheon es de 0.36
La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por Robb Stark es de 0.5
La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por Balon/Euron Greyjoy es de 0.0
La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por Stannis Baratheon es de 0.6
La probabilidad de que se produzca una muerte importante, dado que la batalla fue iniciada por Otro rey es de 0.0


# Reflexión

- Ahora que sabemos que la frecuencia relativa corresponde a la probabilidad, y que esto se acerca a la probabilidad teórica en la medida que tenemos más experimentos, aplicaremos una mejor imputación de los datos nulos utilizando estas probabilidades.
- Primero, volveremos a dejar como "dato nulo" las batallas donde existe "Otro rey" en `attacker_king`. Esto lo podemos hacer sobreescribiendo la columna utilizando `replace`.

In [89]:
df_got["attacker_king"] = df_got["attacker_king"].replace( # Replace se puede aplicar a una Serie o al DataFrame completo
    ["Otro rey"],                                          # Recibe como primer argumento la lista de valores originales
    [np.nan]                                               # Y como segundo argumento la lista de valores a reemplazar, segun las posiciones (índices) en la lista anterior
)

# Corroboramos que debe haber 2 datos nulos
assert df_got["attacker_king"].isna().sum() == 2

- Volvemos a almacenar las probabilidades de cada rey, considerando solo las batallas con rey conocido

In [90]:
probabilidades_reyes = df_got["attacker_king"].value_counts(normalize=True, dropna=True)
probabilidades_reyes

Joffrey/Tommen Baratheon    0.388889
Robb Stark                  0.277778
Balon/Euron Greyjoy         0.194444
Stannis Baratheon           0.138889
Name: attacker_king, dtype: float64

- Para imputar los datos nulos, se hará uso de la función `random.choice` de `numpy`

In [93]:
# Los reyes del espacio muestral corresponden a los índices en nuestra Serie probabilidades_reyes
posibles_reyes = probabilidades_reyes.index

# Cada vez que se ejecuta, escoge un rey al azar, asignando la misma probabilidad a cada ejecución. Ejecuta esta celda varias veces para obtener distintos reyes
np.random.choice(posibles_reyes)

'Balon/Euron Greyjoy'

- Dentro de `random.choice`, pasaremos además como argumento del parámetro `p` las probabilidades correspondientes a cada rey

In [96]:
# Los valores de las probabilidades corresponden a los índices en nuestra Serie probabilidades_reyes
probabilidades_de_cada_rey = probabilidades_reyes.values

# Ejecuta esta celda varias veces. Pocas veces debiese salir Stannis Baratheon, porque tiene poca probabilidad asignada
np.random.choice(
    posibles_reyes,
    p=probabilidades_de_cada_rey # "p" permite asignar una probabilidad de elección a cada rey entregado en posibles_reyes, haciendo la asignación a cada uno según los índices en cada lista
)

'Joffrey/Tommen Baratheon'

- Se inputa los valores nulos usando `fillna` y `np.random.choice`

In [97]:
df_got["attacker_king"] = df_got["attacker_king"].fillna(np.random.choice(posibles_reyes, p=probabilidades_de_cada_rey))

# Vemos las nuevas frecuencias
df_got["attacker_king"].value_counts(normalize=True)

Joffrey/Tommen Baratheon    0.421053
Robb Stark                  0.263158
Balon/Euron Greyjoy         0.184211
Stannis Baratheon           0.131579
Name: attacker_king, dtype: float64

- En este caso sí cambió un poco las frecuencias de cada rey al imputar nulos, pero sabemos que _al tener más experimentos_ (en este caso solo teniamos 38), la probabilidad obtenida convergerá a la teórica.