# Aplicações práticas

# 2.3 Exercício 3: Bebidas e Feridos

## A. Enunciado 

Para analisar a associação entre o consumo de bebidas alcoólicas (1. sim; 2. não) e os ferimentos (1. Mortal, 2. Não mortal) em acidentes rodoviários, a Direção-Geral de Viação dispõe do registo dos seguintes dados recolhidos aleatoriamente entre julho e setembro dos últimos 3 anos: 28 casos mortais, 146 casos não mortais, 89 sinistrados que consumiram bebidas alcoólicas e 85 que não consumiram. As variáveis são ambas nominais, pois definem-se apenas pelo nome. O estudo é longitudinal, e desconhece-se à partida a informação cruzada sobre as duas variáveis, apenas se conhecendo os totais marginais (Tabela 1). Os dados disponíveis também estão organizados em um dicionário em Python.



# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.
from statsmodels.stats.contingency_tables import Table  # Analisa tabelas de contingência para estudo de variáveis categóricas, útil em testes de hipóteses e análises de associação entre variáveis.
from scipy.stats import hypergeom  # Aplica a distribuição hipergeométrica para análises estatísticas, útil em testes de sobreposição e em situações onde se deseja calcular probabilidades sem reposição.

## Funções Personalizadas

In [2]:
import sys

# Adicionar o caminho do diretório ao sys.path
sys.path.append(r"C:\Users\ricar\OneDrive\Área de Trabalho\Livro\Cap_02\socialdataanalysis")

from association import analisar_independencia_variaveis_tabela_contingencia
from association import calcular_odds_ratio_razao_risco_discrepancia
from association import resolver_sistema_equacoes_dada_variavel_tabela_contingencia
from association import calcular_distribuicao_probabilidades_e_decisao_hipotese

## Tabela 1: Tabela de Contingência

In [3]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = ['Bebidas', 'Feridos']
categorias = {
    grupos[0]: ['1. Sim', '2. Não',],
    grupos[1]: ['1. Mortais', '2. Não Mortais'],
}

# Definir os dados da tabela como listas ou um dicionário com os totais marginais
data = {
    categorias[grupos[0]][0]: [None, None],  # Valores desconhecidos
    categorias[grupos[1]][1]: [None, None],  # Valores desconhecidos
    "Total": [89, 85]  # Totais marginais das linhas
}

# Criar o DataFrame
tabela_contingencia = pd.DataFrame(data, index=[categorias[grupos[0]][0], categorias[grupos[0]][1]])

# Adicionar a linha Total com os totais marginais das colunas e o total geral
tabela_contingencia.loc["Total"] = [28, 146, 174]

# Renomeando as linhas e colunas para corresponder aos grupos "Bebidas" e "Feridos"
tabela_contingencia.index.name = grupos[0]
tabela_contingencia.columns.name = grupos[1]

# Mostrar o DataFrame
display(tabela_contingencia)

Feridos,1. Sim,2. Não Mortais,Total
Bebidas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1. Sim,,,89
2. Não,,,85
Total,28.0,146.0,174


<font color="blue">
    
### 2.3.1. Probabiblidade de todos os acontecimentos possíveis
</font>

<font color="blue">

#### a) A probabilidade dos acontecimentos para a Tabela 1, e do acontecimento mais provável.</font>
<font color="blue">
    
#### b)	Determinar as regiões de aceitação e de rejeição da H0, em termos das contagens para a célula a11.</font>


In [5]:
# Uso da função própria calcular_distribuicao_probabilidades_e_decisao_hipotese
df_formated, acceptance_range, rejection_range = calcular_distribuicao_probabilidades_e_decisao_hipotese(tabela_contingencia, 0.05)

display(df_formated.style.hide(axis='index'))

print(f"Probabilidade do acontecimento mais provável: P(a11={df_formated['y_value'][0]}) = {df_formated['p_value'][0]}")

print(f"Região de Aceitação: {acceptance_range}")
print(f"Região de Rejeição: {rejection_range}")

y_value,p_value,cum_sum
14,0.162,0.162
15,0.157,0.319
13,0.141,0.46
16,0.129,0.589
12,0.104,0.693
17,0.09,0.784
11,0.065,0.849
18,0.053,0.902
10,0.034,0.936
19,0.026,0.962


Probabilidade do acontecimento mais provável: P(a11=14) = 0.162
Região de Aceitação: [10, 19]
Região de Rejeição: [0, 9] U [20, 28]



<font color="blue">
    
#### c)	Probabilidade de ocorrerem 12 casos entre os sinistrados que consumiram bebidas alcoólicas e morreram. </font>

In [6]:
# Calculando probabilidade pontual
M = tabela_contingencia.iloc[2, 2] # total da amostra
n = tabela_contingencia.iloc[0, 2] # total marginal da linha
N = tabela_contingencia.iloc[2, 0] # total marginal da coluna

expected_a11 = 12
p_expected_a11 = hypergeom.pmf(expected_a11, M, n, N)

# Imprimindo
print(f"P(a11={expected_a11}) = {p_expected_a11:.4f}")

P(a11=12) = 0.1041


<font color="blue">

#### d) Probabilidade de ocorrerem no máximo 12 casos entre os sinistrados que consumiram bebidas alcoólicas e morreram.</font>

In [7]:
# Calculando probabilidade acumulada
expected_a11 = 12
p_expected_a11 = hypergeom.cdf(expected_a11, M, n, N)

# Imprimindo
print(f"P(a11<={expected_a11}) = {p_expected_a11:.4f}")

P(a11<=12) = 0.2261


<font color="blue">

#### e) Probabilidade de ocorrerem 71 casos entre os sinistrados que não consumiram bebidas alcoólicas e não morreram.</font>


In [8]:
# Uso da função própria resolver_sistema_equacoes_dada_variavel_tabela_contingencia
solucao = resolver_sistema_equacoes_dada_variavel_tabela_contingencia(tabela_contingencia, 'a22=71')

# Visualização
print(solucao)

{'a11': 14, 'a12': 14, 'a21': 75, 'a22': 71}


In [9]:
# Calculando probabilidade pontual
expected_a11 = 14
p_expected_a11 = hypergeom.pmf(expected_a11, M, n, N)

# Imprimindo
print(f"P(a11={expected_a11}) = {p_expected_a11:.4f}")

P(a11=14) = 0.1617


<font color="blue">

#### f) Probabilidade de ocorrerem 13 a 16 casos entre os sinistrados que consumiram bebidas alcoólicas e morreram</font>

In [10]:
# P(a11_lower<=a11<=a11_higher) = P(a11<=a11_higher) - P(a11<a11_lower)

# P(a11<=a11_higher)
a11_higher = 16
p_cum_a11_higher = hypergeom.cdf(a11_higher, M, n, N)

# P(a11<a11_lower)
a11_lower = 13
p_cum_a11_lower = hypergeom.cdf(a11_lower-1, M, n, N) # -1 por ser < e não <=

# P (a11_lower<=a11<=a11_higher)
p_interval_a11 = p_cum_a11_higher - p_cum_a11_lower

# Imprimindo
print(f"P({a11_higher}<=P<={a11_lower}) = {p_interval_a11:.4f}")

P(16<=P<=13) = 0.5893


<font color="blue">
As seguintes questões fazem-se para a ocorrência observada de 20 casos entre os sinistrados que consumiram bebidas alcoólicas e morreram.  
    
### 2.3.2. Frequência esperada, T. Bayes, e resíduos ajustados estandardizados.
</font>

In [11]:
# Uso da função própria resolver_sistema_equacoes_dada_variavel_tabela_contingencia
solucao = resolver_sistema_equacoes_dada_variavel_tabela_contingencia(tabela_contingencia, 'a11=20')

# Visualização
print(solucao)

{'a12': 8, 'a21': 69, 'a22': 77, 'a11': 20}


In [12]:
# Criando um DataFrame a partir do dicionário de solução
# Transformando o dicionário em uma lista de listas, que representará as linhas e colunas da tabela de contingência
data = [
    [solucao['a11'], solucao['a21']],  # Primeira linha
    [solucao['a12'], solucao['a22']]   # Segunda linha
]

# Criando o DataFrame com os dados e especificando os nomes das linhas e colunas
tabela_contingencia = pd.DataFrame(data, 
                                   index=[
                                       categorias[grupos[0]][0], categorias[grupos[0]][1]
                                   ], 
                                   columns=[
                                       categorias[grupos[1]][0], categorias[grupos[1]][1]
                                   ])

# Definindo nomes para os índices e colunas
tabela_contingencia.index.name = grupos[0]
tabela_contingencia.columns.name = grupos[1]


# Convertendo frações para inteiros
tabela_contingencia = tabela_contingencia.applymap(lambda x: int(x))

# Visualizando a tabela de contingência
display(tabela_contingencia)

Feridos,1. Mortais,2. Não Mortais
Bebidas,Unnamed: 1_level_1,Unnamed: 2_level_1
1. Sim,20,69
2. Não,8,77


In [13]:
## FREQUÊNCIAS ESPERADAS ##

# Encapsulando a tabela para análises no statsmodels
tabela_analise = Table(tabela_contingencia)

# Calculando as frequências esperadas (fe)
frequencias_esperadas = tabela_analise.fittedvalues

# Exibindo as fe
display(frequencias_esperadas.round(1))

Feridos,1. Mortais,2. Não Mortais
Bebidas,Unnamed: 1_level_1,Unnamed: 2_level_1
1. Sim,14.3,74.7
2. Não,13.7,71.3


In [14]:
# Resíduos de Pearson (não ajustados)
residuos_nao_ajustados = tabela_analise.resid_pearson

# Resíduos ajustados estandardizados
residuos_estandardizados = tabela_analise.standardized_resids

# Visualizando
display(residuos_estandardizados.round(1))

Feridos,1. Mortais,2. Não Mortais
Bebidas,Unnamed: 1_level_1,Unnamed: 2_level_1
1. Sim,2.3,-2.3
2. Não,-2.3,2.3


<font color="blue">

#### g) A frequência esperada nos 20 casos entre os sinistrados que consumiram bebidas alcoólicas e morreram. Comente com base nos resíduos. </font>


In [15]:
# Impressão de configuração específica
evento_grupo0 = categorias[grupos[0]][0] # Bebidas: 1. Sim
evento_grupo1 = categorias[grupos[1]][0] # Feridos: 1. Mortais
print(f"Fe({evento_grupo0}, {evento_grupo1}) = {frequencias_esperadas.loc[evento_grupo0, evento_grupo1]:.1f}")

Fe(1. Sim, 1. Mortais) = 14.3


<font color="blue">

#### h) Sabendo que morreu, a probabilidade de ter consumido bebidas alcoólicas, usando o teorema de Bayes. Compare-a com a probabilidade de morrer. </font>

In [17]:
## PROBABILIDADES CONDICIONADAS ##

# Calculando P(grupo0|grupo1)
prob_cond_grupo0_dado_grupo1 = tabela_contingencia.div(tabela_contingencia.sum(axis=0), axis=1)

# Calculando P(grupo1|grupo0)
prob_cond_grupo1_dado_grupo0 = tabela_contingencia.div(tabela_contingencia.sum(axis=1), axis=0)

# Exibindo as probabilidades condicionadas com arredondamento para 3 casas decimais
print(f"Probabilidade Condicionada P({grupos[0]}|{grupos[1]}):")
display(prob_cond_grupo0_dado_grupo1.round(3))

# Impressão de configuração específica
evento = categorias[grupos[0]][0]
condicao = categorias[grupos[1]][0]
print(f"P({evento}|{condicao}) = {prob_cond_grupo0_dado_grupo1.loc[evento, condicao]:.3f}")

Probabilidade Condicionada P(Bebidas|Feridos):


Feridos,1. Mortais,2. Não Mortais
Bebidas,Unnamed: 1_level_1,Unnamed: 2_level_1
1. Sim,0.714,0.473
2. Não,0.286,0.527


P(1. Sim|1. Mortais) = 0.714


<font color="blue">
    
### 2.3.3. Teste de Yates
</font>

<font color="blue">

#### i)	A significância da associação, usando o teste de independência da correção de continuidade de Yates, por se conhecer à partida apenas os totais marginais.</font>

<font color="blue">

#### j)	O valor do nível de significância do teste de Yates.</font>

In [18]:
analisar_independencia_variaveis_tabela_contingencia(tabela_contingencia, 
                                                     mostrar_pearson=True, 
                                                     mostrar_continuity=True, 
                                                     mostrar_likelihood=True, 
                                                     mostrar_fisher=True)

Unnamed: 0_level_0,Value,df,Asymp. Sig. (2-sided),Exact Sig. (2-sided),Exact Sig. (1-sided)
Test,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pearson Chi-Square,5.49,1.0,0.019,,
Continuity Correction,4.57,1.0,0.033,,
Likelihood Ratio,5.66,1.0,0.017,,
Fisher`s Exact Test,2.79,,,0.023,0.015
N. of Valid Cases,174.0,,,,


a. 0 cells (0.00%) have expected count less than 5. The minimum expected count is 13.68.


<font color="blue">
    
### 2.3.4. Odds ratio e RP
</font>

<font color="blue">
    
#### k) A intensidade da associação significante entre as duas variáveis, recorrendo ao odds ratio (OR). Analisar a discrepância entre OR e RP.
</font>

In [19]:
calcular_odds_ratio_razao_risco_discrepancia(tabela_contingencia, print_results=True)

Unnamed: 0,Value,95% CI Lower,95% CI Upper
Odds Ratio for Bebidas (1. Sim / 2. Não),2.79,1.155,6.739
RR (ou RP) for Feridos = 1. Mortais,2.388,1.112,5.127
RR (ou RP) for Feridos = 2. Não Mortais,0.856,0.751,0.976
N. of Valid Cases,174.0,,


Discrepância = 0.168 e (θ * p21) = 0.263
