In [25]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/got_battles.csv')

df.head()

Unnamed: 0,me,year,battle_number,attacker_king,defender_king,attacker_1,attacker_2,attacker_3,attacker_4,defender_1,...,major_death,major_capture,attacker_size,defender_size,attacker_commander,defender_commander,summer,location,region,note
0,Battle of the Golden Tooth,298,1,Joffrey/Tommen Baratheon,Robb Stark,Lannister,,,,Tully,...,1.0,0.0,15000.0,4000.0,Jaime Lannister,"Clement Piper, Vance",1.0,Golden Tooth,The Westerlands,
1,Battle at the Mummer's Ford,298,2,Joffrey/Tommen Baratheon,Robb Stark,Lannister,,,,Baratheon,...,1.0,0.0,,120.0,Gregor Clegane,Beric Dondarrion,1.0,Mummer's Ford,The Riverlands,
2,Battle of Riverrun,298,3,Joffrey/Tommen Baratheon,Robb Stark,Lannister,,,,Tully,...,0.0,1.0,15000.0,10000.0,"Jaime Lannister, Andros Brax","Edmure Tully, Tytos Blackwood",1.0,Riverrun,The Riverlands,
3,Battle of the Green Fork,298,4,Robb Stark,Joffrey/Tommen Baratheon,Stark,,,,Lannister,...,1.0,1.0,18000.0,20000.0,"Roose Bolton, Wylis Manderly, Medger Cerwyn, H...","Tywin Lannister, Gregor Clegane, Kevan Lannist...",1.0,Green Fork,The Riverlands,
4,Battle of the Whispering Wood,298,5,Robb Stark,Joffrey/Tommen Baratheon,Stark,Tully,,,Lannister,...,1.0,1.0,1875.0,6000.0,"Robb Stark, Brynden Tully",Jaime Lannister,1.0,Whispering Wood,The Riverlands,


In [26]:
# ME significa Major Event o evento principal
print(df.shape)
print(df.me.nunique())

(38, 25)
38


## Probabilidad

Dado un evento $A$ y un espacio muestral $\Omega$, la probabilidad de $A$ es:

\begin{equation}
Pr(A) = \frac{\text{# ocurrencias de } A}{\text{ elementos en }\Omega}
\end{equation}

In [27]:
df['major_death'].value_counts()

0.0    24
1.0    13
Name: major_death, dtype: int64

In [28]:
# Probabilidad de 'major death' en un ME
df['major_death'].value_counts()/len(df)

0.0    0.631579
1.0    0.342105
Name: major_death, dtype: float64

## Intersección de Eventos

* Formalmente, si tenemos un conjunto de datos donde observamos dos eventos A y B en un espacio muestral, aquellos casos donde ocurren ambos pertenecen a la intersección de los eventos.
* Ésta definición equivale al operador and de Python:
* Se puede expresar como $Pr(A \cap B)$

En el siguiente ejemplo, calcularemos la probabilidad de intersección de 
- A: Ocurre una muerte (major_death)
- B: Ocurre un secuestro (major_capture)

In [29]:
# Creamos un arreglo booleano que contiene True si se cumplen las
# condiciones A y B
counter = np.logical_and(df['major_death'] == 1,
                         df['major_capture'] == 1)

In [30]:
np.unique(counter, return_counts=True)

(array([False,  True]), array([32,  6]))

## Unión de Eventos

* Se puede expresar como $Pr(A \cup B)$

In [31]:
counter = np.logical_or(df['major_death'] == 1,
                         df['major_capture'] == 1)

In [32]:
np.unique(counter, return_counts=True)

(array([False,  True]), array([20, 18]))

## Probabilidad Condicional

\begin{equation}
Pr(A|B) = \frac{Pr(A\cap B)}{Pr(B)}
\end{equation}

En este caso, nuestros eventos A y B serán:
- A: Ocurre una muerte principal (major death)
- B: El rey atacante es 'Joffrey/Tommen Baratheon'

### Calcular $Pr(A\cap B)$

In [33]:
# Contar en cuantos episodios se dan los eventos A y B simultáneamente
muerte_baratheon = 0
for index, row in df.iterrows():
    if( row.attacker_king == 'Joffrey/Tommen Baratheon') and (row.major_death == 1):
        muerte_baratheon += 1

muerte_baratheon

5

(Notar que no dividimos por el total de eventos, porque al dividir $Pr(A\cap B$ con $Pr(B)$ se "simplifican" los denominadores)

### Calcular $Pr(B)$

In [34]:
# Batallas baratheon
batallas_baratheon = df.attacker_king.value_counts()['Joffrey/Tommen Baratheon']
batallas_baratheon

14

### Calcular $Pr(A|B)$

In [35]:
prob_condicional = muerte_baratheon/batallas_baratheon
print('Pr(Major Death | King Baratheon): {}'.format(prob_condicional))

Pr(Major Death | King Baratheon): 0.35714285714285715
