# **TTI109 - Estatística**
# **Aula 08 - Probabilidade Condicional**

Nessa aula vamos aprender a:

* Calcular probabilidades condicionais em tabelas de distribuição conjunta de frequências;
* Empregar as leis da adição e da multiplicação no cálculo de probabilidades.

# Probabilidades condicionais - Esportes
O conjunto de dados a seguir relaciona os esportes preferidos de 300 pessoas. Execute o código e inspecione algumas linhas do DataFrame.

In [6]:
import pandas as pd
import numpy as np

# Criação do pandas DataFrame
esportes = pd.DataFrame({'gênero': np.repeat(np.array(['Masculino', 'Feminino']), 150),
                         'esporte': np.repeat(np.array(['Beisebol', 'Basquete',
                                                        'Futebol', 'Vôlei',
                                                        'Beisebol', 'Basquete',
                                                        'Futebol', 'Vôlei']),
                                              (34, 40, 58, 18, 34, 52, 20, 44))})

In [7]:
# Inspeção de algumas linhas do painel de dados
esportes.head(-5)

Unnamed: 0,gênero,esporte
0,Masculino,Beisebol
1,Masculino,Beisebol
2,Masculino,Beisebol
3,Masculino,Beisebol
4,Masculino,Beisebol
...,...,...
290,Feminino,Vôlei
291,Feminino,Vôlei
292,Feminino,Vôlei
293,Feminino,Vôlei


## Tabela de distribuição conjunta de frequências
O cálculo de probabiidades condicionais fica facilitado a partir de uma tabela de distribuição conjunta de frequências. No caso desse exemplo, a tabela indicará as ocorrências de cada esporte em função do gênero do entrevistado. As colunas e linhas de rótulo "All" revelam os totais de ocorrências.

In [8]:
# Construção da tabela de distrbuição conjunta
dist_conj = pd.crosstab(index=esportes['gênero'],
                        columns=esportes['esporte'], margins=True)

# Inspeção da tabela de distribuição conjunta
display(dist_conj)

esporte,Basquete,Beisebol,Futebol,Vôlei,All
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,52,34,20,44,150
Masculino,40,34,58,18,150
All,92,68,78,62,300


## Cálculo de probabilidades condicionais
Use a tabela de distribuição conjunta da célula anterior e calcule a probabilidade de que um indivíduo sorteado aleatoriamente:

*   seja do gênero masculino, visto que seu esporte preferido é o beisebol.
*   tenha por esporte preferido o basquete, dado que seja do gênero feminino.

No cáclulo dessas probabilidades, use o método `iloc` do `Pandas DataFrame` para localizar a informação desejada em termos das coordenadas de linha e coluna da tabela de distribuição conjunta.



In [9]:
# Probabilidade de ser do gênero masculino, dado que é fã de beisebol
prob = dist_conj.iloc[1, 1] / dist_conj.iloc[2, 1]
print(f'P(Masculino|Beisebol) = {prob*100:.2f}%')

P(Masculino|Beisebol) = 50.00%


In [10]:
# Probabilidade de ser fã de basquete, dado que é do gênero feminino
prob = dist_conj.iloc[0, 0] / dist_conj.iloc[0, 4]
print(f'P(Basquete|Feminino) = {prob*100:.2f}%')

P(Basquete|Feminino) = 34.67%


## Distribuição conjunta normalizada pelas colunas

Para determinar todas as probabilidades condicionais do tipo $P(\text{Gênero}|\text{Esporte})$, basta normalizar a tabela de distribuição conjunta usando as colunas.

In [12]:
''' Tabela de distribuição conjunta normalizada pelas colunas: Em nosso exemplo,
exibe todas as probabilidades condicionais do tipo P(Gênero|Esporte)'''
dist_conj_colunas = pd.crosstab(index=esportes['gênero'],
                                columns=esportes['esporte'],
                                margins=True, normalize='columns')

# Inspeção da tabela
display(dist_conj_colunas)

esporte,Basquete,Beisebol,Futebol,Vôlei,All
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,0.565217,0.5,0.25641,0.709677,0.5
Masculino,0.434783,0.5,0.74359,0.290323,0.5


## Distribuição conjunta normalizada pelas linhas (índice)

Em contraste, para determinar todas as probabilidades condicionais do tipo $P(\text{Esporte}|\text{Gênero})$, basta normalizar a tabela de distribuição conjunta usando as linhas (ou seja, os índices).

In [13]:
''' Tabela de distribuição conjunta normalizada pelas linhas: Em nosso exemplo,
exibe todas as probabilidades condicionais do tipo P(Esporte|Gênero)'''
dist_conj_linhas = pd.crosstab(index=esportes['gênero'],
                                columns=esportes['esporte'],
                                margins=True, normalize='index')

# Inspeção da tabela
display(dist_conj_linhas)

esporte,Basquete,Beisebol,Futebol,Vôlei
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Feminino,0.346667,0.226667,0.133333,0.293333
Masculino,0.266667,0.226667,0.386667,0.12
All,0.306667,0.226667,0.26,0.206667


# As leis da multiplicação e da adição
Vamos usar a tabela de distribuição conjunta de frequências relativa à preferência por esportes (em sua forma original).

In [14]:
display(dist_conj)

esporte,Basquete,Beisebol,Futebol,Vôlei,All
gênero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,52,34,20,44,150
Masculino,40,34,58,18,150
All,92,68,78,62,300


Vamos aplicar as regras da adição e da multiplicação para calcular as probabilidades de que um indivíduo:
* seja do gênero masculino e tenha preferência pelo vôlei;
* seja fã de futebol e seja do gênero feminino;
* seja fã de basquete ou beisebol;
* seja fã de beisebol ou seja do gênero feminino.

In [15]:
# P(Masculino e Vôlei) = P(Masculino) * P(Vôlei|Masculino)
P1 = (dist_conj.iloc[1, 4]/dist_conj.iloc[2, 4])*(dist_conj.iloc[1, 3]/dist_conj.iloc[1, 4])
print(f'P(Masculino e Vôlei) = {P1*100:.2f}%')

P(Masculino e Vôlei) = 6.00%


In [16]:
# P(Futebol e Feminino) = P(Futebol) * P(Feminino|Futebol)
P2 = (dist_conj.iloc[2, 2]/dist_conj.iloc[2, 4])*(dist_conj.iloc[0, 2]/dist_conj.iloc[2, 2])
print(f'P(Futebol e Feminino) = {P2*100:.2f}%')

P(Futebol e Feminino) = 6.67%


In [17]:
# P(Basquete ou Futebol) = P(Basquete) + P(Futebol)
P3 = dist_conj.iloc[2, 0]/dist_conj.iloc[2, 4] + dist_conj.iloc[2, 2]/dist_conj.iloc[2, 4]
print(f'P(Basquete ou Futebol) = {P3*100:.2f}%')

P(Basquete ou Futebol) = 56.67%


In [19]:
# P(Beisebol ou Feminino) = P(Beisebol) + P(Feminino) - P(Beisebol e Feminino)

# P(Beisebol)
Pbeisebol = dist_conj.iloc[2, 1]/dist_conj.iloc[2, 4]

# P(Feminino)
Pfeminino = dist_conj.iloc[0, 4]/dist_conj.iloc[2, 4]

# P(Beisebol e Feminino) = P(Beisebol) * P(Feminino|Beisebol)
Pbei_fem = Pbeisebol * dist_conj.iloc[0, 1]/dist_conj.iloc[2, 1]

# P(Beisebol ou Feminino)
P4 = Pbeisebol + Pfeminino - Pbei_fem
print(f'P(Beisebol ou Feminino) = {P4*100:.2f}%')

P(Beisebol ou Feminino) = 61.33%


# Probabilidades condicionais - automóveis
O conjunto de dados a seguir reune informações sobre a montadora, o modelo, o tipo e a classificação (nota atribuída por imprensa qualificada) de alguns automóveis.

In [20]:
# Construção do conjunto de dados
auto = pd.DataFrame({'montadora': ['ford', 'chevy', 'ford',
                                   'ford', 'ford', 'toyota'],
                     'modelo': ['mustang', 'camaro', 'fiesta',
                                'focus', 'taurus', 'camry'],
                     'nota': ['A', 'B', 'C', 'A', 'B', 'B'],
                     'tipo': ['coupe', 'coupe', 'sedan',
                              'sedan', 'sedan', 'sedan']})
# Inspeção da tabela
display(auto)

Unnamed: 0,montadora,modelo,nota,tipo
0,ford,mustang,A,coupe
1,chevy,camaro,B,coupe
2,ford,fiesta,C,sedan
3,ford,focus,A,sedan
4,ford,taurus,B,sedan
5,toyota,camry,B,sedan


Construa a tabela de distrbuição conjunta de frequências usando o tipo do automóvel como indexador de linhas e as respectivas notas como colunas. A seguir, calcule a probabilidade de um automóvel:

*   ser classificado com nota A, dado que é do tipo sedan.
*   ser do tipo coupe, dado que foi avaliado com nota B.



In [21]:
# Construção da tabela de distribuição conjunta
tabela = pd.crosstab(auto.tipo, auto.nota, margins=True)
# Inspeção da tabela
display(tabela)

nota,A,B,C,All
tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
coupe,1,1,0,2
sedan,1,2,1,4
All,2,3,1,6


In [22]:
# P(A|sedan)
prob1 = tabela.iloc[1, 0] / tabela.iloc[1, 3]
print(f'P(A|sedan) = {prob1*100:.2f}%')

P(A|sedan) = 25.00%


In [23]:
# P(coupe|B)
prob2 = tabela.iloc[0, 1] / tabela.iloc[2, 1]
print(f'P(coupe|B) = {prob2*100:.2f}%')

P(coupe|B) = 33.33%


Verifique seus cálculos ao construir versões da tabela de distribuição conjunta normalizadas pelas colunas e linhas.

In [24]:
# Probabilidades condicionais: P(nota|tipo)
print('** Probabilidades condicionais: P(nota|tipo) **')
tabela_linhas = pd.crosstab(auto.tipo, auto.nota,
                            margins=True, normalize="index")
display(tabela_linhas)

** Probabilidades condicionais: P(nota|tipo) **


nota,A,B,C
tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
coupe,0.5,0.5,0.0
sedan,0.25,0.5,0.25
All,0.333333,0.5,0.166667


In [25]:
# Probabilidades condicionais: P(tipo|nota)
print('** Probabilidades condicionais: P(tipo|nota) **')
tabela_colunas = tabela_linhas = pd.crosstab(auto.tipo, auto.nota,
                            margins=True, normalize="columns")

display(tabela_colunas)

** Probabilidades condicionais: P(tipo|nota) **


nota,A,B,C,All
tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
coupe,0.5,0.333333,0.0,0.333333
sedan,0.5,0.666667,1.0,0.666667
