# Aplicações práticas

# 2.14 Exercício 14: Associação entre Hemisfério e Tumor por Sítio.

## A. Enunciado 

Uma amostra aleatória de 94 pacientes recolhidos em 1996 (Everitt, B.S., 1996) pretende analisar a associação entre a incidência dos tumores (1. benignos, 2. malignos) e os hemisférios (1. esquerdo, 2. direito) do córtex cerebral, para três locais possíveis em cada hemisfério (1. local 1, 2. local 2, 3. local 3). Os dados encontram-se no ficheiro "cap02-exerc14_Hemisfério Tumor Local.sav" do IBM-SPSS e na linha Count da Tabela 1, constituindo um total de 12 células (3x2x2).







# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.

## Funções Personalizadas

In [2]:
from socialdataanalysis import gerar_tabela_contingencia
from socialdataanalysis import analisar_frequencias_esperadas
from socialdataanalysis import complementar_tabela_contingencia_com_analise_estatistica
from socialdataanalysis import complementar_e_filtrar_tabelas_contingencia
from socialdataanalysis import eliminacao_reversa_com_comparacao_llm
from socialdataanalysis import calcular_e_exibir_odds_ratios_llm
from socialdataanalysis import criar_tabela_contingencia_expandida_llm

## Dados Fornecidos

In [3]:
# Dicionário com dados categorizados representando grupos e suas frequências
dados = {
    'Sítios': [1, 1, 1, 1,
               2, 2, 2, 2,
               3, 3, 3, 3],
    'Hemisfério': [1, 1, 2, 2,
                   1, 1, 2, 2,
                   1, 1, 2, 2,], 
    'Tumor': [1, 2, 1, 2,
              1, 2, 1, 2,
              1, 2, 1, 2,],
    'Freq': [17, 5, 6, 5, 
             12, 3, 7, 5,
             11, 3, 11, 9,]
}

# Criando o DataFrame a partir do dicionário
dados = pd.DataFrame(dados)

# Convertendo as colunas para inteiros, se necessário
dados = dados.astype(int)

# Visualizando o dataframe
display(dados)

Unnamed: 0,Sítios,Hemisfério,Tumor,Freq
0,1,1,1,17
1,1,1,2,5
2,1,2,1,6
3,1,2,2,5
4,2,1,1,12
5,2,1,2,3
6,2,2,1,7
7,2,2,2,5
8,3,1,1,11
9,3,1,2,3


## Tabela 1: Tabela de Contingência

In [4]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = dados.columns[:-1].tolist()  # Todos exceto a última coluna
categorias = {
    grupos[0]: ['1. Sítio 1', '2. Sítio 2', '3. Sítio 3'],
    grupos[1]: ['1. Esquerdo', '2. Direito'],
    grupos[2]: ['1. Benigno', '2. Maligno'],
}

tabela_contingencia = gerar_tabela_contingencia(dados, grupos, categorias)

display(tabela_contingencia)

Unnamed: 0_level_0,Tumor,1. Benigno,2. Maligno
Sítios,Hemisfério,Unnamed: 2_level_1,Unnamed: 3_level_1
1. Sítio 1,1. Esquerdo,17,5
1. Sítio 1,2. Direito,6,5
2. Sítio 2,1. Esquerdo,12,3
2. Sítio 2,2. Direito,7,5
3. Sítio 3,1. Esquerdo,11,3
3. Sítio 3,2. Direito,11,9


## Tabela de Contingência com Cálculos

In [5]:
complementar_e_filtrar_tabelas_contingencia(tabela_contingencia, complementar_tabela_contingencia_com_analise_estatistica)

Unnamed: 0_level_0,Unnamed: 1_level_0,Tumor,1. Benigno,2. Maligno,Total
Sítios,Hemisfério,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1. Sítio 1,1. Esquerdo,Count,17.0,5.0,22.0
1. Sítio 1,1. Esquerdo,Expected Count,15.3,6.7,22.0
1. Sítio 1,1. Esquerdo,% within Hemisfério,77.3,22.7,100.0
1. Sítio 1,2. Direito,Count,6.0,5.0,11.0
1. Sítio 1,2. Direito,Expected Count,7.7,3.3,11.0
1. Sítio 1,2. Direito,% within Hemisfério,54.5,45.5,100.0
1. Sítio 1,Total,Count,23.0,10.0,33.0
1. Sítio 1,Total,Expected Count,23.0,10.0,33.0
1. Sítio 1,Total,% within Hemisfério,69.7,30.3,100.0
2. Sítio 2,1. Esquerdo,Count,12.0,3.0,15.0


<font color="blue">    
    
### 2.14.1. Pressupostos dos testes do Qui-Quadrado
</font>

<font color="blue">
    
#### a) Verificar a observância dos pressupostos dos testes do Qui-Quadrado.
</font>

In [6]:
analisar_frequencias_esperadas(tabela_contingencia)


Análise para: 1. Sítio 1


Fo: Tumor        1. Benigno  2. Maligno
Hemisfério                         
1. Esquerdo          17           5
2. Direito            6           5

Fe: Tumor        1. Benigno  2. Maligno
Hemisfério                         
1. Esquerdo        15.3         6.7
2. Direito          7.7         3.3

 a. 1 células (25.00%) têm uma frequência esperada menor que 5. A frequência esperada mínima é 3.33.
----------------------------------------------------------------------------------------------------

Análise para: 2. Sítio 2


Fo: Tumor        1. Benigno  2. Maligno
Hemisfério                         
1. Esquerdo          12           3
2. Direito            7           5

Fe: Tumor        1. Benigno  2. Maligno
Hemisfério                         
1. Esquerdo        10.6         4.4
2. Direito          8.4         3.6

 a. 2 células (50.00%) têm uma frequência esperada menor que 5. A frequência esperada mínima é 3.56.
---------------------------------------------

<font color="blue">    
    
### 2.13.2. Modelo loglinear
</fonte>

<font color="blue">
    
#### b) A exploração do modelo loglinear que melhor define a associação entre as variáveis, por se ter violado a hipótese de homogeneidade. 

</font>

In [7]:
satured_model, adjusted_model = eliminacao_reversa_com_comparacao_llm(dados, display_models=True, compare_models=False)


Modelo Saturado:
                  Generalized Linear Model Regression Results                  
Dep. Variable:                   Freq   No. Observations:                   12
Model:                            GLM   Df Residuals:                        4
Model Family:                 Poisson   Df Model:                            7
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -23.092
Date:                Sat, 25 May 2024   Deviance:                      0.72063
Time:                        20:21:18   Pearson chi2:                    0.703
No. Iterations:                     5   Pseudo R-squ. (CS):             0.8593
Covariance Type:            nonrobust                                         
                              coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------------
Interce

<font color="blue">
    
#### c) A confirmação do modelo escolhido e significância associação.
</font>

In [8]:
satured_model, adjusted_model = eliminacao_reversa_com_comparacao_llm(dados, display_models=False, compare_models=True)


Comparação entre Modelos Saturado e Ajustado:

AIC Modelo Saturado: 62.18
AIC Modelo Ajustado: 58.20

Teste de Razão de Verossimilhança (LRT):

LR stat: 0.014, Diferença no Número de Parâmetros: 2, p-value: 0.993


<font color="blue">
    
#### d) A intensidade da associação, através do odds rácio.
</font>

In [9]:
calcular_e_exibir_odds_ratios_llm(adjusted_model)


Odds Ratios (ORs) e Intervalos de Confiança (ICs) de 95%: 

--------------------------------------------------------------------------------
Intercept: OR=1134.819, IC 95%=(97.129, 13258.846)
--------------------------------------------------------------------------------
Sítios: OR=0.452, IC 95%=(0.208, 0.984)
--------------------------------------------------------------------------------
Hemisfério: OR=0.067, IC 95%=(0.013, 0.344)
--------------------------------------------------------------------------------
Tumor: OR=0.096, IC 95%=(0.022, 0.413)
--------------------------------------------------------------------------------
Sítios:Hemisfério: OR=1.745, IC 95%=(1.051, 2.897)
--------------------------------------------------------------------------------
Hemisfério:Tumor: OR=2.879, IC 95%=(1.172, 7.071)
--------------------------------------------------------------------------------


In [10]:
criar_tabela_contingencia_expandida_llm(dados, grupos, categorias, adjusted_model)

Unnamed: 0_level_0,Unnamed: 1_level_0,observed,observed,expected,expected,residuals,residuals
Unnamed: 0_level_1,Unnamed: 1_level_1,1. Benigno,2. Maligno,1. Benigno,2. Maligno,1. Benigno,2. Maligno
Sítios,Hemisfério,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
1. Sítio 1,1. Esquerdo,17,5,16.59,4.56,0.41,0.44
1. Sítio 1,2. Direito,6,5,5.62,4.45,0.38,0.55
2. Sítio 2,1. Esquerdo,12,3,13.09,3.6,-1.09,-0.6
2. Sítio 2,2. Direito,7,5,7.73,6.12,-0.73,-1.12
3. Sítio 3,1. Esquerdo,11,3,10.32,2.84,0.68,0.16
3. Sítio 3,2. Direito,11,9,10.64,8.43,0.36,0.57
