# Probabilidad condicional

*Si tengo dos eventos que dependen el uno del otro,¿cuál es la probabilidad de que ocurran ambos?*

Notación: 
- P(A,B) es la probabilidad de que A y B ocurran. 
- P (A|B): probabilidad de B dado que A ha ocurrido

*Doy a mis alumnos dos pruebas. El 60% de mis estudiantes aprobaron ambas pruebas, pero la primera prueba fue más fácil: el 80% aprobó esa. ¿Qué porcentaje de estudiantes que aprobaron la primera prueba también aprobaron la segunda?*
- A= pasar la primera prueba
- B = pasar la segunda prueba. 

*Así que estamos pidiendo P(A| B)- la probabilidad de B a dado A*

- P(A| B)= 0.6/0.8=0.75

*Asi es corecto decir que la posibilidad de que los alumnos que aprobaron el examen A, es del 75%, con respecto al examen B.*

# Actividad de probabilidad condicional y ejercicio

A continuación se muestra un código para crear algunos datos falsos sobre la cantidad de cosas que las personas compran según su rango de edad.

Genera 100,000 "personas" aleatorias y las asigna aleatoriamente como si estuvieran en sus 20, 30, 40, 50, 60 o 70 años.

Luego asigna una menor probabilidad para que los jóvenes compren cosas.

Al final, tenemos dos diccionarios de Python:

"totals" contiene el número total de personas en cada grupo de edad.
"purchases" contiene el número total de cosas compradas por personas en cada grupo de edad.
El gran total de compras es en totalPurchases, y sabemos que el número total de personas es 100,000.

Vamos a ejecutarlo y echar un vistazo:

In [2]:
from numpy import random
random.seed(0)

totals = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
purchases = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
totalPurchases = 0
for _ in range(100000):
    ageDecade = random.choice([20, 30, 40, 50, 60, 70])
    purchaseProbability = float(ageDecade) / 100.0
    totals[ageDecade] += 1
    if (random.random() < purchaseProbability):
        totalPurchases += 1
        purchases[ageDecade] += 1

In [3]:
totals

{20: 16576, 30: 16619, 40: 16632, 50: 16805, 60: 16664, 70: 16704}

In [4]:
purchases

{20: 3392, 30: 4974, 40: 6670, 50: 8319, 60: 9944, 70: 11713}

In [5]:
totalPurchases

45012

Juguemos con la probabilidad condicional.

Primero calculemos P(E| F), donde E es "purchases" y F es "estás en tus 30 años". La probabilidad de que alguien en sus 30 años compre algo es solo el porcentaje de cuántos 30 años compraron algo:

In [6]:
PEF = float(purchases[30]) / float(totals[30])
print('La posibilidad de que alguien de 30 años compre algo es de..',str(PEF))

La posibilidad de que alguien de 30 años compre algo es de.. 0.29929598652145134


P(F) es solo la probabilidad de ser 30 en este conjunto de datos:

In [7]:
PF = float(totals[30]) / 100000.0
print('La posibilidad de que alguien de 30 años compre algo en este conjunto de datos es de..',str(PF))

La posibilidad de que alguien de 30 años compre algo en este conjunto de datos es de.. 0.16619


Y P(E) es la probabilidad general de comprar algo, independientemente de su edad:

In [8]:
PE = float(totalPurchases) / 100000.0
print('La posibilidad de que alguien independiente de su edad compre algo es de..',str(PE))

La posibilidad de que alguien independiente de su edad compre algo es de.. 0.45012


Si E y F fueran independientes, entonces esperaríamos P(E | F) ser aproximadamente lo mismo que P(E). Pero no lo son; P(E) es 0,45 y P(E| F) es 0,3. Entonces, eso nos dice que E y F son dependientes (que sabemos que son en este ejemplo).

P(E,F) es diferente de P(E| F). P(E,F) sería la probabilidad de estar en sus 30 años y comprar algo, de la población total, no solo de la población de personas de 30 años:

In [10]:
print("La posibilidad de que alguien de la poblacion total con 30 años compre algo es de..  " + str(float(purchases[30]) / 100000.0))

La posibilidad de que alguien de la poblacion total con 30 años compre algo es de..  0.04974


Calculemos también el producto de P(E) y P(F), P(E)P(F):

In [19]:
print("P(30's)P(Purchase)" + str(PE * PF))

P(30's)P(Purchase)0.07480544280000001


Algo que puedes aprender en estadísticas es que P(E,F) = P(E)P(F), pero esto supone que E y F son independientes. Hemos encontrado aquí que P(E,F) es aproximadamente 0.05, mientras que P(E)P(F) es aproximadamente 0.075. Entonces, cuando E y F son dependientes, y tenemos una probabilidad condicional, no podemos decir simplemente que P (E, F) = P (E) P (F).

También podemos comprobar que P(E| F) = P(E,F)/P(F), que es la relación que mostramos en las diapositivas, y efectivamente, es:

In [11]:
print('La probabilidad de comprar algo y de tener 30 años es de..   ',(purchases[30] / 100000.0) / PF)

La probabilidad de comprar algo y de tener 30 años es de..    0.29929598652145134


# Tarea
*Modifique el código anterior de modo que la probabilidad de compra NO varíe con la edad, haciendo que E y F sean realmente independientes.*

*A continuación, confirme que P(E| F) es aproximadamente lo mismo que P(E), mostrando que la probabilidad condicional de compra para una edad dada no es diferente de la probabilidad a priori de compra independientemente de la edad.*


In [12]:
from numpy import random
random.seed(0)

totals = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
purchases = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
totalPurchases = 0
for _ in range(100000):
    ageDecade = random.choice([20, 30, 40, 50, 60, 70])
    purchaseProbability = 0.4
    totals[ageDecade] += 1
    if (random.random() < purchaseProbability):
        totalPurchases += 1
        purchases[ageDecade] += 1

*A continuación calcularemos P(E| F) para algunos grupos de edad, vamos a elegir a los de 30 años de nuevo:*

In [13]:
PEF = float(purchases[30]) / float(totals[30])
print('La posibilidad de que alguien de 30 años compre algo es de..',str(PEF))

La posibilidad de que alguien de 30 años compre algo es de.. 0.3987604549010169


Ahora calcularemos P(E)

In [14]:
PE = float(totalPurchases) / 100000.0
print('La posibilidad de que alguien independiente de su edad compre algo es de..',str(PE))

La posibilidad de que alguien independiente de su edad compre algo es de.. 0.4003


**P(E| F) está bastante cerca de P(E), por lo que podemos decir que E y F son probablemente variables independientes.**