# Aplicações práticas

# 2.10 Exercício 10: Universidades e Tempo de estudo para Exame

## A. Enunciado 

Com base em uma amostra aleatória de 196 alunos do curso de Gestão de Recursos Humanos de três universidades de Lisboa (1. Nova; 2. ISCTE-IUL; 3. ISEG), recolhida por meio de um questionário lançado em 2024 sobre os hábitos de estudo dos estudantes universitários, pretende-se avaliar as diferenças existentes no que se refere ao tempo diário dedicado ao estudo na época de exames (1. tempo ≤ 6 horas; 2. de 6 a 9 horas, inclusive; 3. mais de 9 horas). A variável "universidade" é nominal, por se definir apenas pelo nome. Note-se que, embora o número de horas de estudo seja uma variável ordinal (nome e ordem), por não se esperar um comportamento crescente ou decrescente segundo as universidades, optou-se pela análise da associação considerando ambas as variáveis como nominais. Os dados constam da linha "Count" da Tabela 1, do arquivo "cap02_exerc 10_Universidades Exame.sav" e estão organizados em um dicionário em Python. Ambas as variáveis são nominais porque se definem apenas pelo nome. O estudo é transversal.

# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.

## Funções Personalizadas

In [1]:
!pip install socialdataanalysis

from socialdataanalysis import analisar_independencia_variaveis_tabela_contingencia
from socialdataanalysis import gerar_tabela_contingencia
from socialdataanalysis import calcular_odds_ratio_razao_risco_discrepancia
from socialdataanalysis import complementar_tabela_contingencia_com_analise_estatistica
from socialdataanalysis import decompor_tabela_contingencia

## Dados Fornecidos

In [3]:
# Dicionário com dados categorizados representando grupos e suas frequências
dados = {
    'Tempo_estudo': [1, 1, 1, 2, 2, 2, 3, 3, 3],
    'Universidade': [1, 2, 3, 1, 2, 3, 1, 2, 3],
    'Freq': [20, 3, 4, 25, 18, 33, 13, 31, 49]
}

# Criando o DataFrame a partir do dicionário
dados = pd.DataFrame(dados)

# Convertendo as colunas para inteiros, se necessário
dados = dados.astype(int)

# Visualizando o dataframe
display(dados)

Unnamed: 0,Tempo_estudo,Universidade,Freq
0,1,1,20
1,1,2,3
2,1,3,4
3,2,1,25
4,2,2,18
5,2,3,33
6,3,1,13
7,3,2,31
8,3,3,49


## Tabela 1: Tabela de Contingência

In [4]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = dados.columns[:-1].tolist()  # Todos exceto a última coluna
categorias = {
    grupos[0]: ['1. Até 6h', '2. Mais de 6 até 9h', '3. Mais de 9h',],
    grupos[1]: ['1. Nova', '2. ISCTE', '3. ISEG',],
}

tabela_contingencia = gerar_tabela_contingencia(dados, grupos, categorias)

display(tabela_contingencia)

Universidade,1. Nova,2. ISCTE,3. ISEG
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1. Até 6h,20,3,4
2. Mais de 6 até 9h,25,18,33
3. Mais de 9h,13,31,49


## Tabela de Contingência com Cálculos

In [5]:
# Função personalizada complementar_tabela_contingencia_com_analise_estatistica
combined_df = complementar_tabela_contingencia_com_analise_estatistica(tabela_contingencia)

# Visualizando resultado
display(combined_df)

Unnamed: 0_level_0,Universidade,1. Nova,2. ISCTE,3. ISEG,Total
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1. Até 6h,Count,20.0,3.0,4.0,27.0
1. Até 6h,Expected Count,8.0,7.2,11.8,27.0
1. Até 6h,% within Tempo_estudo,74.1,11.1,14.8,100.0
1. Até 6h,% within Universidade,34.5,5.8,4.7,13.8
1. Até 6h,% of Total,10.2,1.5,2.0,13.8
1. Até 6h,Standardized Residual,4.2,-1.6,-2.3,
1. Até 6h,Adjusted Residual,5.5,-2.0,-3.3,
2. Mais de 6 até 9h,Count,25.0,18.0,33.0,76.0
2. Mais de 6 até 9h,Expected Count,22.5,20.2,33.3,76.0
2. Mais de 6 até 9h,% within Tempo_estudo,32.9,23.7,43.4,100.0


<font color="blue">    
    
### 2.10.1. Teste do rácio da verosimilhança e hipoteses
</font>

<font color="blue">
    
#### a) Analisar a associação entre as variáveis, usando o teste do rácio da verosimilhança G², por a tabela ser i x j diferente de 2 x 2.
</font>

In [6]:
analisar_independencia_variaveis_tabela_contingencia(tabela_contingencia, 
                                                     mostrar_pearson=True, 
                                                     mostrar_continuity=False, 
                                                     mostrar_likelihood=True, 
                                                     mostrar_fisher=False)

Unnamed: 0_level_0,Value,df,Asymp. Sig. (2-sided)
Test,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pearson Chi-Square,37.12,4.0,0.0
Likelihood Ratio,35.89,4.0,0.0
N. of Valid Cases,196.0,,


a. 0 cells (0.00%) have expected count less than 5. The minimum expected count is 7.16.


<font color="blue">
    
### 2.10.2. Decomposição do teste G2
</font>

<font color="blue">
    
#### b) Aprofundar a associação entre universidades e número de horas de estudo em época de exames.
</font>

In [7]:
# Função personalizada complementar_tabela_contingencia_com_analise_estatistica  
subtabelas = decompor_tabela_contingencia(tabela_contingencia)

<IPython.core.display.Math object>

<IPython.core.display.Math object>

Unnamed: 0_level_0,Universidade,1. Nova,2. ISCTE&3. ISEG,Total
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1. Até 6h,Count,20.0,7.0,27.0
1. Até 6h,Expected Count,8.0,19.0,27.0
1. Até 6h,% within Tempo_estudo,74.1,25.9,100.0
1. Até 6h,% within Universidade,34.5,5.1,13.8
1. Até 6h,% of Total,10.2,3.6,13.8
1. Até 6h,Standardized Residual,4.2,-2.8,
1. Até 6h,Adjusted Residual,5.5,-5.5,
2. Mais de 6 até 9h&3. Mais de 9h,Count,38.0,131.0,169.0
2. Mais de 6 até 9h&3. Mais de 9h,Expected Count,50.0,119.0,169.0
2. Mais de 6 até 9h&3. Mais de 9h,% within Tempo_estudo,22.5,77.5,100.0


<IPython.core.display.Math object>

Unnamed: 0_level_0,Universidade,1. Nova,2. ISCTE&3. ISEG,Total
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2. Mais de 6 até 9h,Count,25.0,51.0,76.0
2. Mais de 6 até 9h,Expected Count,17.1,58.9,76.0
2. Mais de 6 até 9h,% within Tempo_estudo,32.9,67.1,100.0
2. Mais de 6 até 9h,% within Universidade,65.8,38.9,45.0
2. Mais de 6 até 9h,% of Total,14.8,30.2,45.0
2. Mais de 6 até 9h,Standardized Residual,1.9,-1.0,
2. Mais de 6 até 9h,Adjusted Residual,2.9,-2.9,
3. Mais de 9h,Count,13.0,80.0,93.0
3. Mais de 9h,Expected Count,20.9,72.1,93.0
3. Mais de 9h,% within Tempo_estudo,14.0,86.0,100.0


<IPython.core.display.Math object>

Unnamed: 0_level_0,Universidade,2. ISCTE,3. ISEG,Total
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1. Até 6h,Count,3.0,4.0,7.0
1. Até 6h,Expected Count,2.6,4.4,7.0
1. Até 6h,% within Tempo_estudo,42.9,57.1,100.0
1. Até 6h,% within Universidade,5.8,4.7,5.1
1. Até 6h,% of Total,2.2,2.9,5.1
1. Até 6h,Standardized Residual,0.2,-0.2,
1. Até 6h,Adjusted Residual,0.3,-0.3,
2. Mais de 6 até 9h&3. Mais de 9h,Count,49.0,82.0,131.0
2. Mais de 6 até 9h&3. Mais de 9h,Expected Count,49.4,81.6,131.0
2. Mais de 6 até 9h&3. Mais de 9h,% within Tempo_estudo,37.4,62.6,100.0


<IPython.core.display.Math object>

Unnamed: 0_level_0,Universidade,2. ISCTE,3. ISEG,Total
Tempo_estudo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2. Mais de 6 até 9h,Count,18.0,33.0,51.0
2. Mais de 6 até 9h,Expected Count,19.1,31.9,51.0
2. Mais de 6 até 9h,% within Tempo_estudo,35.3,64.7,100.0
2. Mais de 6 até 9h,% within Universidade,36.7,40.2,38.9
2. Mais de 6 até 9h,% of Total,13.7,25.2,38.9
2. Mais de 6 até 9h,Standardized Residual,-0.2,0.2,
2. Mais de 6 até 9h,Adjusted Residual,-0.4,0.4,
3. Mais de 9h,Count,31.0,49.0,80.0
3. Mais de 9h,Expected Count,29.9,50.1,80.0
3. Mais de 9h,% within Tempo_estudo,38.8,61.3,100.0


<font color="blue">
    
### 2.10.3. OR e RP
</font>

<font color="blue">
    
#### c) Medir a intensidade da associação usando OR e RP e analisar a discrepância, na Subtabela E.
</font>

In [8]:
# Tabela E
tabela_e = subtabelas[0]

# Função personalizada complementar_tabela_contingencia_com_analise_estatistica
calcular_odds_ratio_razao_risco_discrepancia(tabela_e, print_results=True)

Unnamed: 0,Value,95% CI Lower,95% CI Upper
Odds Ratio for Tempo_estudo (1. Até 6h / 2. Mais de 6 até 9h&3. Mais de 9h),9.85,3.873,25.049
RR (ou RP) for Universidade = 1. Nova,3.294,2.303,4.712
RR (ou RP) for Universidade = 2. ISCTE&3. ISEG,0.334,0.176,0.636
N. of Valid Cases,196.0,,


Discrepância = 1.990 e (θ * p21) = 2.215


<font color="blue">
    
#### d) Medir a intensidade da associação usando OR e RP e analisar a discrepância, na Subtabela G.
</font>

In [9]:
# Tabela G
tabela_g = subtabelas[1]

# Função personalizada complementar_tabela_contingencia_com_analise_estatistica
calcular_odds_ratio_razao_risco_discrepancia(tabela_g, print_results=True)

Unnamed: 0,Value,95% CI Lower,95% CI Upper
Odds Ratio for Tempo_estudo (2. Mais de 6 até 9h / 3. Mais de 9h),3.017,1.416,6.429
RR (ou RP) for Universidade = 1. Nova,2.353,1.294,4.278
RR (ou RP) for Universidade = 2. ISCTE&3. ISEG,0.78,0.653,0.932
N. of Valid Cases,169.0,,


Discrepância = 0.282 e (θ * p21) = 0.422
