# Teste Qui-Quadrado:

Um teste qui-quadrado serve para observar a associação entre duas variáveis categóricas. 

*Lembrando: variáveis categóricas são aquelas que contêm um número finito de categorias. Os dados categóricos podem não ter uma ordem lógica. Por exemplo, os preditores categóricos incluem gênero, tipo de material e método de pagamento, inclinação política, etc.*

O primeiro passo para verificar uma associação entre duas variáveis é construir uma tabela de contingência (usando groupby). Vamos utilizar o exemplo do livro e ver uma tabela de contingência já formada: identificação partidária X gênero para os dados da PSG:

In [2]:
import numpy as np
import pandas as pd
from scipy import stats

In [14]:
genero = ['mulheres', 'homens', 'total']

df = {'democratas' : [573, 386, 959],
       'independente': [516, 475, 991],
       'republicano': [422, 399, 821],
       'total': [1511, 1260, 2771]}

df = pd.DataFrame(df, index = genero)
df

Unnamed: 0,democratas,independente,republicano,total
mulheres,573,516,422,1511
homens,386,475,399,1260
total,959,991,821,2771


Na prática, é padrão formar a tabela de contingência da seguinte forma: linha = variável explicativa e coluna = variável dependente

Aqui, queremos responder a seguinte pergunta: a distribuição partidária está associada ao gênero? Para isso vamos fazer o teste qui-quadrado de independência.

Apesar dos números percentuais nos dizerem algo, o que quer que esteja sendo dito pode ser fruto não de uma relação real, mas da variação amostral. Ou seja, se a nossa pesquisa tivesse sido feita com outros homens e mulheres, esse resultado **a princípio** poderia ser outro.

Aqui está um resultado ideal, em que gênero não está associado a identificação partidária e que todas as proporções são iguais (frequências esperadas) :

In [7]:
data_ideal = {'democratas' : [522.9, 436.1, 959],
       'independente': [540.4, 450.6, 991],
       'republicano': [447.7, 373.3, 821],
       'total': [1511, 1260, 2771]}

data_ideal = pd.DataFrame(data_ideal, index = genero)
data_ideal

Unnamed: 0,democratas,independente,republicano,total
mulheres,522.9,540.4,447.7,1511
homens,436.1,450.6,373.3,1260
total,959.0,991.0,821.0,2771


Agora vamos rodar o teste:

In [16]:
#tirando totais:
df = df.iloc[:2]

data = df[['democratas', 'independente', 'republicano']].to_numpy()
data

array([[573, 516, 422],
       [386, 475, 399]], dtype=int64)

In [17]:
#Rodando o teste qui-quadrado:

stats.chi2_contingency(data)

(16.201726038971145,
 0.0003032772908939342,
 2,
 array([[522.93359798, 540.38289426, 447.68350776],
        [436.06640202, 450.61710574, 373.31649224]]))

* Primeiro número: Estatística qui-quadrado
* Segundo número: P-value
* Terceiro número: Graus de liberdade = (linhas - 1) * (colunas - 1)

Para deixar bonitinho na hora de printar:

In [18]:
chi2_stat, p_val, dof, ex = stats.chi2_contingency(data)

print("===Chi2 Stat===")
print(chi2_stat)
print("\n")
print("===Degrees of Freedom===")
print(dof)
print("\n")
print("===P-Value===")
print(p_val)
print("\n")
print("===Contingency Table===")
print(ex)

===Chi2 Stat===
16.201726038971145


===Degrees of Freedom===
2


===P-Value===
0.0003032772908939342


===Contingency Table===
[[522.93359798 540.38289426 447.68350776]
 [436.06640202 450.61710574 373.31649224]]


Mesmo adotando um nível de significância super forte ( alfa = 0.01), o p-valor nos permite rejeitar a hipótese nula, ou seja, existe relação entre gênero e identidade eleitoral.