# Aplicações práticas

# 2.15 Exercício 15: Associação entre Cinto Ferimentos por Localização e Sexo

## A. Enunciado 

Numa amostra aleatória de 68,699 passageiros envolvidos em acidentes de viação, pretende-se analisar a associação existente entre o uso de cinto de segurança (1. Não, 2. Sim) e a ocorrência ou não de ferimentos graves (1. Não, 2. Sim), segmentada pela localização (1. Urbana, 2. Rural) e pelo sexo (1. Mulher, 2. Homem). A informação encontra-se na linha Count da Tabela 1 e no ficheiro "cap02_exerc15_Cinto Ferimentos Localização Sexo.sav" do SPSS e também estão organizados em um dicionário em Python.







# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.

## Funções Personalizadas

In [2]:
!pip install socialdataanalysis
!pip install --upgrade socialdataanalysis
from socialdataanalysis import gerar_tabela_contingencia
from socialdataanalysis import complementar_tabela_contingencia_com_analise_estatistica
from socialdataanalysis import complementar_e_filtrar_tabelas_contingencia
from socialdataanalysis import analisar_frequencias_esperadas
from socialdataanalysis import eliminacao_reversa_com_comparacao_llm
from socialdataanalysis import calcular_e_exibir_odds_ratios_llm
from socialdataanalysis import criar_tabela_contingencia_expandida_llm

## Dados Fornecidos

In [3]:
# Dicionário com dados categorizados representando grupos e suas frequências
dados = {
    'Sexo': [1, 1, 1, 1, 1, 1, 1, 1,
             2, 2, 2, 2, 2, 2, 2, 2,],
    'Localização': [1, 1, 1, 1, 2, 2, 2, 2,
                    1, 1, 1, 1, 2, 2, 2, 2,],
    'Cinto': [1, 1, 2, 2, 1, 1, 2, 2,
              1, 1, 2, 2, 1, 1, 2, 2,],
    'Feridos': [1, 2, 1, 2, 1, 2, 1, 2,
                1, 2, 1, 2, 1, 2, 1, 2,],
    'Freq': [7287, 996, 11587, 759, 3246, 973, 6134, 757, 
             10381, 812, 10969, 380, 6123, 1084, 6693, 513]
}

# Criando o DataFrame a partir do dicionário
dados = pd.DataFrame(dados)

# Convertendo as colunas para inteiros, se necessário
dados = dados.astype(int)

# Visualizando o dataframe
display(dados)

Unnamed: 0,Sexo,Localização,Cinto,Feridos,Freq
0,1,1,1,1,7287
1,1,1,1,2,996
2,1,1,2,1,11587
3,1,1,2,2,759
4,1,2,1,1,3246
5,1,2,1,2,973
6,1,2,2,1,6134
7,1,2,2,2,757
8,2,1,1,1,10381
9,2,1,1,2,812


## Tabela 1: Tabela de Contingência

In [4]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = dados.columns[:-1].tolist()  # Todos exceto a última coluna
categorias = {
    grupos[0]: ['1. Mulher', '2. Homem'],
    grupos[1]: ['1. Urbana', '2. Rural'],
    grupos[2]: ['1. Não', '2. Sim'],
    grupos[3]: ['1. Não', '2. Sim']
}

tabela_contingencia = gerar_tabela_contingencia(dados, grupos, categorias)

display(tabela_contingencia)

Unnamed: 0_level_0,Unnamed: 1_level_0,Feridos,1. Não,2. Sim
Sexo,Localização,Cinto,Unnamed: 3_level_1,Unnamed: 4_level_1
1. Mulher,1. Urbana,1. Não,7287,996
1. Mulher,1. Urbana,2. Sim,11587,759
1. Mulher,2. Rural,1. Não,3246,973
1. Mulher,2. Rural,2. Sim,6134,757
2. Homem,1. Urbana,1. Não,10381,812
2. Homem,1. Urbana,2. Sim,10969,380
2. Homem,2. Rural,1. Não,6123,1084
2. Homem,2. Rural,2. Sim,6693,513


## Tabela de Contingência com Cálculos

In [5]:
complementar_e_filtrar_tabelas_contingencia(tabela_contingencia, complementar_tabela_contingencia_com_analise_estatistica)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Feridos,1. Não,2. Sim,Total
Sexo,Localização,Cinto,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1. Mulher,1. Urbana,1. Não,Count,7287.0,996.0,8283.0
1. Mulher,1. Urbana,1. Não,Expected Count,7578.3,704.7,8283.0
1. Mulher,1. Urbana,1. Não,% within Cinto,88.0,12.0,100.0
1. Mulher,1. Urbana,2. Sim,Count,11587.0,759.0,12346.0
1. Mulher,1. Urbana,2. Sim,Expected Count,11295.7,1050.3,12346.0
1. Mulher,1. Urbana,2. Sim,% within Cinto,93.9,6.1,100.0
1. Mulher,1. Urbana,Total,Count,18874.0,1755.0,20629.0
1. Mulher,1. Urbana,Total,Expected Count,18874.0,1755.0,20629.0
1. Mulher,1. Urbana,Total,% within Cinto,91.5,8.5,100.0
1. Mulher,2. Rural,1. Não,Count,3246.0,973.0,4219.0


<font color="blue">    
    
### 2.15.1. Pressupostos dos testes do Qui-Quadrado
</font>

<font color="blue">
    
#### a) Verificar a observância dos pressupostos dos testes do Qui-Quadrado.
</font>

In [6]:
analisar_frequencias_esperadas(tabela_contingencia)


Análise para: 1. Mulher


Fo: Feridos  1. Não  2. Sim
Cinto                  
1. Não     7287     996
2. Sim    11587     759

Fe: Feridos   1. Não  2. Sim
Cinto                   
1. Não    7578.3   704.7
2. Sim   11295.7  1050.3

 a. 0 células (0.00%) têm uma frequência esperada menor que 5. A frequência esperada mínima é 704.67.
----------------------------------------------------------------------------------------------------

Análise para: 1. Mulher


Fo: Feridos  1. Não  2. Sim
Cinto                  
1. Não     3246     973
2. Sim     6134     757

Fe: Feridos  1. Não  2. Sim
Cinto                  
1. Não   3562.0   657.0
2. Sim   5818.0  1073.0

 a. 0 células (0.00%) têm uma frequência esperada menor que 5. A frequência esperada mínima é 656.96.
----------------------------------------------------------------------------------------------------

Análise para: 2. Homem


Fo: Feridos  1. Não  2. Sim
Cinto                  
1. Não    10381     812
2. Sim    10969     380

Fe: F

<font color="blue">    
    
### 2.15.2. Modelo loglinear
</fonte>

<font color="blue">
    
#### b) A exploração do modelo loglinear que melhor define a associação entre as variáveis, para explorar a existência de interação entre as variáveis. 

</font>

In [7]:
satured_model, adjusted_model = eliminacao_reversa_com_comparacao_llm(dados, display_models=True, compare_models=False)


Modelo Saturado:
                  Generalized Linear Model Regression Results                  
Dep. Variable:                   Freq   No. Observations:                   16
Model:                            GLM   Df Residuals:                        0
Model Family:                 Poisson   Df Model:                           15
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -76.730
Date:                Sat, 25 May 2024   Deviance:                  -6.8225e-12
Time:                        20:23:10   Pearson chi2:                 6.86e-22
No. Iterations:                     6   Pseudo R-squ. (CS):              1.000
Covariance Type:            nonrobust                                         
                                     coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------------------

<font color="blue">
    
#### c) A confirmação do modelo escolhido.
</font>

In [8]:
satured_model, adjusted_model = eliminacao_reversa_com_comparacao_llm(dados, display_models=False, compare_models=True)


Comparação entre Modelos Saturado e Ajustado:

AIC Modelo Saturado: 185.46
AIC Modelo Ajustado: 185.00

Teste de Razão de Verossimilhança (LRT):

LR stat: 3.543, Diferença no Número de Parâmetros: 2, p-value: 0.170


<font color="blue">
    
#### d) A significância da associação e sua intensidade através do odds rácio.
- d.1) (Cinto\*Localização\*Sexo)
- d.2) (Cinto\*Ferimento\*Localização)
- d.3) (Ferimento\*Sexo)
</font>

In [9]:
calcular_e_exibir_odds_ratios_llm(adjusted_model)


Odds Ratios (ORs) e Intervalos de Confiança (ICs) de 95%: 

--------------------------------------------------------------------------------
Intercept: OR=50589.178, IC 95%=(34233.982, 74758.027)
--------------------------------------------------------------------------------
Sexo: OR=2.107, IC 95%=(1.804, 2.461)
--------------------------------------------------------------------------------
Localização: OR=0.100, IC 95%=(0.077, 0.130)
--------------------------------------------------------------------------------
Cinto: OR=2.365, IC 95%=(1.950, 2.870)
--------------------------------------------------------------------------------
Feridos: OR=0.182, IC 95%=(0.133, 0.249)
--------------------------------------------------------------------------------
Sexo:Localização: OR=1.549, IC 95%=(1.401, 1.713)
--------------------------------------------------------------------------------
Sexo:Feridos: OR=0.642, IC 95%=(0.563, 0.732)
----------------------------------------------------------

In [10]:
df_ext = criar_tabela_contingencia_expandida_llm(dados, grupos, categorias, adjusted_model)
df_ext

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,observed,observed,expected,expected,residuals,residuals
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,1. Não,2. Sim,1. Não,2. Sim,1. Não,2. Sim
Sexo,Localização,Cinto,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1. Mulher,1. Urbana,1. Não,7287,996,7315.64,1005.75,-28.64,-9.75
1. Mulher,1. Urbana,2. Sim,11587,759,11534.29,773.32,52.71,-14.32
1. Mulher,2. Rural,1. Não,3246,973,3255.75,944.05,-9.75,28.95
1. Mulher,2. Rural,2. Sim,6134,757,6148.32,761.88,-14.32,-4.88
2. Homem,1. Urbana,1. Não,10381,812,10352.36,802.25,28.64,9.75
2. Homem,1. Urbana,2. Sim,10969,380,11021.71,365.68,-52.71,14.32
2. Homem,2. Rural,1. Não,6123,1084,6113.25,1112.95,9.75,-28.95
2. Homem,2. Rural,2. Sim,6693,513,6678.68,508.12,14.32,4.88
