# Aplicações práticas

# 2.5 Exercício 5: Sexo e Compra

## A. Enunciado 

Numa amostra aleatória de 530 clientes obtida num estudo transversal lançado por questionário em março de 2024, obteve-se a associação entre a razão habitual de compras (0 de conveniência; 1 qualidade de serviço) e o sexo (0 Homem, 1 Mulher) na escolha de uma loja. Os dados constam da célula Count da Tabela 1, e do ficheiro cap02_exer.5 sexo compra.sav do IBM-SPSS e organizados em um dicionário em Python. As variáveis são nominais por se definirem apenas pelo nome.

# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.
from scipy.stats import chi2  # Realiza cálculos estatísticos relacionados à distribuição qui-quadrado

## Funções Personalizadas

In [2]:
from socialdataanalysis import analisar_independencia_variaveis_tabela_contingencia
from socialdataanalysis import gerar_tabela_contingencia
from socialdataanalysis import calcular_distribuicao_probabilidades_e_decisao_hipotese
from socialdataanalysis import complementar_tabela_contingencia_com_analise_estatistica
from socialdataanalysis import calcular_odds_ratio_razao_risco_discrepancia

## Dados fornecidos

In [3]:
# Dicionário com dados categorizados representando grupos e suas frequências
dados = {
    'Sexo': [0, 0, 1, 1],  # 0 para Homem, 1 para Mulher
    'Compra': [0, 1, 0, 1],  # 0 para Conveniência, 1 para Serviço
    'Freq': [107, 87, 136, 200]  # Frequência de cada combinação de Sexo e Compra
}

# Criando o DataFrame a partir do dicionário
dados = pd.DataFrame(dados)

# Convertendo as colunas para inteiros, se necessário
dados = dados.astype(int)

# Visualizando o dataframe
display(dados)

Unnamed: 0,Sexo,Compra,Freq
0,0,0,107
1,0,1,87
2,1,0,136
3,1,1,200


## Tabela 1: Tabela de Contingência

In [4]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = dados.columns[:-1].tolist()  # Todos exceto a última coluna
categorias = {
    grupos[0]: ['0. Homem', '1. Mulher',],
    grupos[1]: ['0. Conveniência', '1. Serviço'],
}

tabela_contingencia = gerar_tabela_contingencia(dados, grupos, categorias)

display(tabela_contingencia)

Compra,0. Conveniência,1. Serviço
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
0. Homem,107,87
1. Mulher,136,200


## Tabela de Contingência com Cálculos

In [5]:
# Função própria complementar_tabela_contingencia_com_analise_estatistica
combined_df = complementar_tabela_contingencia_com_analise_estatistica(tabela_contingencia)

# Visualizando resultado
display(combined_df)

Unnamed: 0_level_0,Compra,0. Conveniência,1. Serviço,Total
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0. Homem,Count,107.0,87.0,194.0
0. Homem,Expected Count,88.9,105.1,194.0
0. Homem,% within Sexo,55.2,44.8,100.0
0. Homem,% within Compra,44.0,30.3,36.6
0. Homem,% of Total,20.2,16.4,36.6
0. Homem,Standardized Residual,1.9,-1.8,
0. Homem,Adjusted Residual,3.3,-3.3,
1. Mulher,Count,136.0,200.0,336.0
1. Mulher,Expected Count,154.1,181.9,336.0
1. Mulher,% within Sexo,40.5,59.5,100.0


<font color="blue">    
    
### 2.1.3. Teste de Pearson
</font>

<font color="blue">    
    
#### a) Pretende-se apurar se a razão habitual de compra se diferencia significativamente segundo o sexo recorrendo ao teste de Pearson.
</font>

In [6]:
analisar_independencia_variaveis_tabela_contingencia(tabela_contingencia, 
                                                     mostrar_pearson=True, 
                                                     mostrar_continuity=True, 
                                                     mostrar_likelihood=True, 
                                                     mostrar_fisher=True)

Unnamed: 0_level_0,Value,df,Asymp. Sig. (2-sided),Exact Sig. (2-sided),Exact Sig. (1-sided)
Test,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pearson Chi-Square,10.67,1.0,0.001,,
Continuity Correction,10.09,1.0,0.001,,
Likelihood Ratio,10.67,1.0,0.001,,
Fisher`s Exact Test,1.81,,,0.001,0.001
N. of Valid Cases,530.0,,,,


a. 0 cells (0.00%) have expected count less than 5. The minimum expected count is 88.95.


<font color="blue">    
    
#### b) Determine a RA e RC em termos do valor do teste da fronteira para um erro 0.05.
</font>

In [10]:
# Definindo o nível de significância (erro do analista)
alpha = 0.05  # Erro do analista é 1% ou 0.01

# Calculando a área até a fronteira, que é 1 - alpha para um teste de cauda única
nivel_confianca  = 1 - alpha

# Grau de liberdade para o teste
df = 1

# Calculando o valor crítico do qui-quadrado (RC)
valor_critico = chi2.ppf(nivel_confianca, df)

# RA (Região de Aceitação) é tudo aquilo abaixo do valor crítico
# RC (Região Crítica) é tudo aquilo acima do valor crítico
print(f"Região de Aceitação (RA): [0; {valor_critico:.3f}[")
print(f"Região Crítica (RC): [{valor_critico:.3f}; \u221E[")

Região de Aceitação (RA): [0; 3.841[
Região Crítica (RC): [3.841; ∞[


<font color="blue">
    
### 2.5.2.Geração de probabilidades
</font>

<font color="blue">    
    
#### c) Determine agora, a RA e RC em termos das contagens do acontecimento observado {194, 336, 243, 287}.
</font>

In [11]:
df_formated, acceptance_range, rejection_range = calcular_distribuicao_probabilidades_e_decisao_hipotese(tabela_contingencia, 0.05)

display(df_formated.style.hide(axis='index'))

print(f"Região de Aceitação: {acceptance_range}")
print(f"Região de Rejeição: {rejection_range}")

y_value,p_value,cum_sum
89,0.072,0.072
88,0.071,0.143
90,0.071,0.214
87,0.068,0.282
91,0.067,0.349
86,0.063,0.412
92,0.062,0.473
85,0.056,0.529
93,0.055,0.584
84,0.048,0.633


Região de Aceitação: [78, 99]
Região de Rejeição: [0, 77] U [100, 194]


<font color="blue">
    
### 2.5.3. Rácio de prevalência e OR
</font>

<font color="blue">    
    
#### d) Determine a prevalência dos homens comparativamente às mulheres nas compras pela qualidade do serviço em vez da conveniência, recorrendo ao RP e à discrepância para o OR.</font>

In [9]:
calcular_odds_ratio_razao_risco_discrepancia(tabela_contingencia, print_results=True)

Unnamed: 0,Value,95% CI Lower,95% CI Upper
Odds Ratio for Sexo (0. Homem / 1. Mulher),1.809,1.266,2.585
RR (ou RP) for Compra = 0. Conveniência,1.363,1.137,1.634
RR (ou RP) for Compra = 1. Serviço,0.753,0.63,0.901
N. of Valid Cases,530.0,,


Discrepância = 0.327 e (θ * p21) = 0.732
