## Teste de qui-quadrado para avaliar a associação entre duas variáveis qualitativas

### 1 - Tabela de contigência com as observações

Suponha um questionário no qual as pessoas clientes de 3 empresas A,B e C avaliaram a qualidade do serviço como ruim, médio ou bom. A tabela de contigência sumariza as respostas: 

In [4]:
import pandas as pd 
frequencias_observadas = pd.DataFrame([
    ['empresaA', 40, 16, 12], 
    ['empresaB', 32, 34, 16], 
    ['empresaC', 24, 32, 4]], 
    columns = ['empresa','ruim', 'medio','bom'])
frequencias_observadas = frequencias_observadas.set_index('empresa')
frequencias_observadas

Unnamed: 0_level_0,ruim,medio,bom
empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
empresaA,40,16,12
empresaB,32,34,16
empresaC,24,32,4


### 2 - Tabela com as frequências absolutas esperadas

O valor esperado de cada célula na linha $i$ e coluna $j$ da matriz de contigência é dado pela soma de todos elementos da linha $i$ multiplicado por todos elementos da coluna $j$ dividido pela quantidade de observações $n$:

$x_{esperado_{ij}} =  \frac{\sum_{i} x_{ij} \sum_{j} x_{ij}}{n}$

In [18]:
# empty data frame
frequencias_absolutas_esperadas = pd.DataFrame().reindex_like(frequencias_observadas)

n_linhas  = len(frequencias_observadas.index)
n_colunas = len(frequencias_observadas.columns)
n = frequencias_observadas.values.sum()


for linha in range(n_linhas):
    for coluna in range(n_colunas):
        soma_linhas = sum(frequencias_observadas.iloc[linha])
        soma_colunas = sum(frequencias_observadas.iloc[:,coluna])
        frequencias_absolutas_esperadas.iloc[linha,coluna] = (soma_linhas*soma_colunas)/n

print(frequencias_absolutas_esperadas)

               ruim      medio        bom
empresa                                  
empresaA  31.085714  26.552381  10.361905
empresaB  37.485714  32.019048  12.495238
empresaC  27.428571  23.428571   9.142857


### 3 -  Calculo do resíduo
Frequência absoluta observada menos a frequência absoluta esperada

In [24]:
residuos = frequencias_observadas - frequencias_absolutas_esperadas
print(residuos)

              ruim      medio       bom
empresa                                
empresaA  8.914286 -10.552381  1.638095
empresaB -5.485714   1.980952  3.504762
empresaC -3.428571   8.571429 -5.142857


### 4 - Cálcudo da matrix de qui-quadrado

In [28]:
tabela_quiquadrado = (residuos*residuos)/frequencias_absolutas_esperadas
print(tabela_quiquadrado)

              ruim     medio       bom
empresa                               
empresaA  2.556303  4.193701  0.258964
empresaB  0.802787  0.122557  0.983043
empresaC  0.428571  3.135889  2.892857


### 5 - soma dos qui-quadrados

In [29]:
qui_quadrado = tabela_quiquadrado.values.sum()
print(qui_quadrado)

15.374671938971902


### 6 - significância segundo o p-value da distribuição de $\chi^2$

Para verificação de associação entre as variáveis vamso considerar:

$H_0$ (Hipótese Nula): Empresa e nível de satisfação estão associadas aleatoriamente (não estão associadas)

$H_1$ (Hipótese Alternativa): Empresa e nível de satisfação não estão associadas aleatoriamente (estão associadas)

Vamos olhar numa distribuição qui-quadrado assimétrica a direita com 4 graus de liberdade onde nossa valor de qui-quadrado está. O p-value encontrado foi de 0.003 e considerando-se o nível de significância de 0.05 podemos rejeitra nossa hipótese nula, ou seja, há evidências de associação entre as variáveis:

In [38]:
from scipy.stats.distributions import chi2
graus_de_liberdade = (n_linhas-1)*(n_linhas-1) # df = degrees of freedom
pvalue = chi2.sf(qui_quadrado, df = graus_de_liberdade)
print(pvalue)

0.003983997208317528


### 7 - significância segundo o valor crítico da distribuição de $\chi^2$

Poderíamos fazer a mesma análise feita anteriormente procurando o valor de $\chi^2$ de 5% de significância em uma distribuição $\chi^2$ com 4 graus de liberdade. O valor crítico encontrado foi 9,48. Como entramos 15,37 estamos muita acima do valor crítico e e portanto dentro da região de 5% de significância, podendo-se novamente rejeitar a hipótese nula:

In [39]:
valor_critico = stats.chi2.ppf(q=0.95, df=graus_de_liberdade)
print(valor_critico)

9.487729036781154
