<a href="https://colab.research.google.com/github/francomanca93/fundamentos-de-estadistica-con-python/blob/eventos-aleatorios/3.%20Aplicar%20conceptos%20de%20probabilidad%20a%20eventos%20aleatorios/6_Probabilidad_condicional_Teorema_de_Bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Probabilidad condicional - Teorema de Bayes

El teorema de bayes nos permite inferir la probabilidad de un evento A cuando tenemos informacion parcial de este evento y  condicionado a un evento B cuando tenemos información total de este. 

Debemos tener en cuenta 3 conceptos claves:
- Probabilidad univariada
- Probabilidad conjunta bivariada
- Probabilidad condicional

Una vez entendido estos conceptos podremos ver el Teorema de Bayes

## Configuramos nuestro notebook

Montamos drive para acceder a la base de datos con la cual vamos a trabajar

In [1]:
#Montamos Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import numpy as np
import pandas as pd
import scipy.stats

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

  import pandas.util.testing as tm


In [3]:
ls '/content/drive/My Drive/Colab Notebooks/fundamentos-de-estadistica-con-python/datos/'

bicicletas-compartidas.csv  datos_profesora.py  juego-azar.csv  [0m[01;34m__pycache__[0m/


In [4]:
cd '/content/drive/My Drive/Colab Notebooks/fundamentos-de-estadistica-con-python/datos/'

/content/drive/My Drive/Colab Notebooks/fundamentos-de-estadistica-con-python/datos


Vamos a usar un juego de azar como ejemplo del teorema de bayes.

Presentamos un escenario donde tenemos 10 esferas, cada una marcada con un numero de 1 a 3, y un color que puede ser negro o blanco. Vamos a seleccionar una esfera aleatoriamente de esta caja de 10 esferas y queremos calcular la probabilidad de obtener un color, un numero y/o a que pase esto simultaneamente.

In [5]:
df_juego = pd.read_csv('juego-azar.csv', sep=';')
df_juego.columns

Index(['bola', 'color', 'numero'], dtype='object')

In [6]:
df_juego

Unnamed: 0,bola,color,numero
0,1,blanco,1
1,2,negro,1
2,3,negro,1
3,4,negro,1
4,5,blanco,2
5,6,negro,2
6,7,negro,2
7,8,blanco,3
8,9,blanco,3
9,10,negro,3


## Probabilidades univariadas

En estadística, una [distribución univariante](https://es.qwe.wiki/wiki/Univariate_distribution) es una distribución de probabilidad de una sola variable aleatoria .

In [7]:
df_juego.numero.value_counts()

1    4
3    3
2    3
Name: numero, dtype: int64

In [8]:
df_juego.numero.value_counts()/len(df_juego)

1    0.4
3    0.3
2    0.3
Name: numero, dtype: float64

In [9]:
df_juego.color.value_counts()/len(df_juego)

negro     0.6
blanco    0.4
Name: color, dtype: float64

## Probabilidades bivariadas

Dadas las variables aleatorias, que se definen en un espacio de probabilidad, la distribución de probabilidad conjunta para es una distribución de probabilidad que da la probabilidad de que cada una de ellas caiga en cualquier rango particular o conjunto discreto de valores especificados para esa variable. En el caso de solo dos variables aleatorias, esto se llama [distribución bivariada](https://es.qwe.wiki/wiki/Joint_probability_distribution), pero el concepto se generaliza a cualquier número de variables aleatorias, dando una distribución multivariante.

In [10]:
df_juego.groupby(['color', 'numero']).size()/len(df_juego)

color   numero
blanco  1         0.1
        2         0.1
        3         0.2
negro   1         0.3
        2         0.2
        3         0.1
dtype: float64

## Probabilidad condicional

[Probabilidad condicional](https://es.wikipedia.org/wiki/Probabilidad_condicionada) es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B. La probabilidad condicional se escribe P(A|B) o P(A/B), y se lee «la probabilidad de A dado B».

No tiene por qué haber una relación causal o temporal entre A y B. A puede preceder en el tiempo a B, sucederlo o pueden ocurrir simultáneamente. A puede causar B, viceversa o pueden no tener relación causal. Las relaciones causales o temporales son nociones que no pertenecen al ámbito de la probabilidad. Pueden desempeñar un papel o no, dependiendo de la interpretación que se le dé a los eventos. 

Calculemos la probabilidad de que la esfera tenga un color blanco dado que la esfera tenga el numero 2.

In [11]:
df_juego.groupby(['color', 'numero']).size() # revisemos los casos

color   numero
blanco  1         1
        2         1
        3         2
negro   1         3
        2         2
        3         1
dtype: int64

In [12]:
# P(A/B) = P(B/2) = 1 / 3 (Hay una esfera )
1 / 3

0.3333333333333333

## Teorema de bayes

En términos más generales y menos matemáticos, el [teorema de Bayes](https://es.wikipedia.org/wiki/Teorema_de_Bayes) es de enorme relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B dado A.

![teorema de bayes](https://imgur.com/RgweTit.png)

In [13]:
# P(A)

# P(A/B)

# P(B)

# p_blanca = 4/10

# p(p_blanca|1) + p(p_blanca|2) + p(p_blanca|3)
#       1       +       1       +     2

# p(blanco) = p(p_blanca|1)*p(1) + p(p_blanca|2)*p(2) + p(p_blanca|3)*p(3)

(1/4)*(4/10) + (1/3)*(3/10) + (2/3)*(3/10)



0.4

Las formulas vistas son sencillas de aplicar pero muy importantes. Nos permite llegar a conclusiones sobre un evento A cuando no conocemos su probabilidad utilizando la probabilidad de un evento B y la probabilidad condicionada del evento A dado B.

## Realizando las funciones

In [14]:
def prob(df, column):
  '''Probabilidad de un evento aleatorio univariado.
  Parameters:
  -----------
  - df : dataframe de pandas
  - column : str, nombre de la columna. 
  Returns:
  -----------
  - return df[column].value_counts()/len(df)
  '''
  return df[column].value_counts()/len(df)

In [15]:
prob(df_juego, 'color')

negro     0.6
blanco    0.4
Name: color, dtype: float64

In [16]:
def prob_conj(df, column1, column2):
  '''Probabilidad de un evento aleatorio dadas dos variables.
  Parameters:
  -----------
  - df : dataframe de pandas
  - column1, column2  : str, nombre de la columna. 
  Returns:
  -----------
  - return df.groupby([column1, column2]).size()/len(df)
  '''
  return df.groupby([column1, column2]).size()/len(df)

In [17]:
prob_conj(df_juego, 'color', 'numero')

color   numero
blanco  1         0.1
        2         0.1
        3         0.2
negro   1         0.3
        2         0.2
        3         0.1
dtype: float64

In [18]:
def bayes_teorem(df, column1, column2, idx1, idx2):
  p_ba = prob_conj(df, column2, column1)[idx2][idx1]
  p_a = prob(df_juego, column1)[idx1]
  p_b = prob(df_juego, column2)[idx2]

  return (p_ba * p_a / p_b)

In [19]:
bayes_teorem(df_juego, 'numero', 'color', 2, 'blanco')

0.075