# Conditional Probability Activity & Exercise

Below is some code to create some fake data on how much stuff people purchase given their age range.

It generates 100,000 random "people" and randomly assigns them as being in their 20's, 30's, 40's, 50's, 60's, or 70's.

It then assigns a lower probability for young people to buy stuff.

In the end, we have two Python dictionaries:

"totals" contains the total number of people in each age group.
"purchases" contains the total number of things purchased by people in each age group.
The grand total of purchases is in totalPurchases, and we know the total number of people is 100,000.

Let's run it and have a look:

Abaixo está um código para criar alguns dados falsos sobre a quantidade de coisas que as pessoas compram de acordo com sua faixa etária.

Ele gera 100.000 "pessoas" aleatórias e as atribui aleatoriamente como tendo 20, 30, 40, 50, 60 ou 70 anos.

Em seguida, atribui uma probabilidade menor de os jovens comprarem coisas.

No final, temos dois dicionários Python:

"totais" contém o número total de pessoas em cada faixa etária.
“compras” contém o número total de itens adquiridos por pessoas em cada faixa etária.
O total geral de compras está em totalCompras, e sabemos que o número total de pessoas é 100.000.

Vamos executá-lo e dar uma olhada:

In [11]:
from numpy import random
random.seed(0)

totals = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
purchases = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
totalPurchases = 0
for _ in range(100000):
    ageDecade = random.choice([20, 30, 40, 50, 60, 70])
    purchaseProbability = float(ageDecade) / 100.0
    totals[ageDecade] += 1
    if (random.random() < purchaseProbability):
        totalPurchases += 1
        purchases[ageDecade] += 1

In [12]:
totals

{20: 16576, 30: 16619, 40: 16632, 50: 16805, 60: 16664, 70: 16704}

In [13]:
purchases

{20: 3392, 30: 4974, 40: 6670, 50: 8319, 60: 9944, 70: 11713}

In [14]:
totalPurchases

45012

Let's play with conditional probability.

First let's compute P(E|F), where E is "purchase" and F is "you're in your 30's". The probability of someone in their 30's buying something is just the percentage of how many 30-year-olds bought something:

Vamos brincar com probabilidade condicional.

Primeiro vamos calcular P(E|F), onde E é "compra" e F é "você está na casa dos 30 anos". A probabilidade de alguém na faixa dos 30 anos comprar algo é apenas a porcentagem de quantas pessoas de 30 anos compraram algo:

In [15]:
PEF = float(purchases[30]) / float(totals[30])
print('P(purchase | 30s): ' + str(PEF))

P(purchase | 30s): 0.29929598652145134


P(F) is just the probability of being 30 in this data set:

P(F) é apenas a probabilidade de ser 30 neste conjunto de dados:

In [16]:
PF = float(totals[30]) / 100000.0
print("P(30's): " +  str(PF))

P(30's): 0.16619


And P(E) is the overall probability of buying something, regardless of your age:

E P(E) é a probabilidade geral de comprar algo, independentemente da sua idade:

In [17]:
PE = float(totalPurchases) / 100000.0
print("P(Purchase):" + str(PE))

P(Purchase):0.45012


If E and F were independent, then we would expect P(E | F) to be about the same as P(E). But they're not; P(E) is 0.45, and P(E|F) is 0.3. So, that tells us that E and F are dependent (which we know they are in this example.)

Se E e F fossem independentes, então esperaríamos que P(E | F) fosse aproximadamente igual a P(E). Mas eles não são; P(E) é 0,45 e P(E|F) é 0,3. Então, isso nos diz que E e F são dependentes (o que sabemos que são neste exemplo).

P(E,F) is different from P(E|F). P(E,F) would be the probability of both being in your 30's and buying something, out of the total population - not just the population of people in their 30's:

P(E,F) é diferente de P(E|F). P(E,F) seria a probabilidade de ambos estarem na casa dos 30 anos e comprarem algo, da população total - não apenas da população de pessoas na faixa dos 30 anos:

In [18]:
print("P(30's, Purchase)" + str(float(purchases[30]) / 100000.0))

P(30's, Purchase)0.04974


Let's also compute the product of P(E) and P(F), P(E)P(F):

Vamos também calcular o produto de P(E) e P(F), P(E)P(F):

In [19]:
print("P(30's)P(Purchase)" + str(PE * PF))

P(30's)P(Purchase)0.07480544280000001


Something you may learn in stats is that P(E,F) = P(E)P(F), but this assumes E and F are independent. We've found here that P(E,F) is about 0.05, while P(E)P(F) is about 0.075. So when E and F are dependent - and we have a conditional probability going on - we can't just say that P(E,F) = P(E)P(F).

We can also check that P(E|F) = P(E,F)/P(F), which is the relationship we showed in the slides - and sure enough, it is:

Algo que você pode aprender nas estatísticas é que P(E,F) = P(E)P(F), mas isso pressupõe que E e F são independentes. Descobrimos aqui que P(E,F) é cerca de 0,05, enquanto P(E)P(F) é cerca de 0,075. Portanto, quando E e F são dependentes - e temos uma probabilidade condicional em andamento - não podemos simplesmente dizer que P(E,F) = P(E)P(F).

Também podemos verificar que P(E|F) = P(E,F)/P(F), que é a relação que mostramos nos slides - e com certeza, é:

In [20]:
print((purchases[30] / 100000.0) / PF)

0.29929598652145134


## Your Assignment

Modify the code above such that the purchase probability does NOT vary with age, making E and F actually independent.

Then, confirm that P(E|F) is about the same as P(E), showing that the conditional probability of purchase for a given age is not any different than the a-priori probability of purchase regardless of age.


Modifique o código acima de forma que a probabilidade de compra NÃO varie com a idade, tornando E e F realmente independentes.

Em seguida, confirme que P(E|F) é quase igual a P(E), mostrando que a probabilidade condicional de compra para uma determinada idade não é diferente da probabilidade de compra a priori, independentemente da idade.


In [2]:
from numpy import random
random.seed(0)

totals = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
purchases = {20:0, 30:0, 40:0, 50:0, 60:0, 70:0}
totalPurchases = 0

for _ in range(100000):
    ageDecade = random.choice([20, 30, 40, 50, 60, 70])
    purchaseProbability = random.uniform(0, 100) / 100.0  # Gera um número entre 0 e 1
    totals[ageDecade] += 1
    if random.random() < purchaseProbability:
        totalPurchases += 1
        purchases[ageDecade] += 1


In [3]:
totals

{20: 16833, 30: 16646, 40: 16631, 50: 16637, 60: 16579, 70: 16674}

In [4]:
purchases

{20: 8349, 30: 8423, 40: 8419, 50: 8201, 60: 8196, 70: 8417}

In [5]:
totalPurchases

50005

In [6]:
PEF = float(purchases[30]) / float(totals[30])
print('P(purchase | 30s): ' + str(PEF))

P(purchase | 30s): 0.506007449237054


In [7]:
PF = float(totals[30]) / 100000.0
print("P(30's): " +  str(PF))

P(30's): 0.16646


In [8]:
PE = float(totalPurchases) / 100000.0
print("P(Purchase):" + str(PE))

P(Purchase):0.50005


In [9]:
print("P(30's, Purchase)" + str(float(purchases[30]) / 100000.0))

P(30's, Purchase)0.08423


In [10]:
print((purchases[30] / 100000.0) / PF)

0.506007449237054
