<center><h1>Teste de Hipóteses Qui-Quadrado (Chi-Squared Test)</h1></center>

# Introdução

O teste $\chi^2$ (lê-se *qui-quadrado*) é um procedimento projetado para testar a existência de relações significativas **entre duas variáveis discretas**.

## Tabela de contingência

Para aplicação do teste $\chi^2$, as informações coletadas (a partir da amostra) acerca das variáveis devem estar ​​organizadas em uma *tabela de contingência*.

Uma tabela de contingência (também conhecida como tabulação cruzada ou tabela de referência cruzada) é um tipo de tabela em um formato de matriz que exibe a distribuição de frequência das diversas combinações de valores das variáveis. Tabelas de contingência são muito utilizados em pesquisa de opinião, inteligência de negócios, engenharia e pesquisa científica. Elas fornecem uma imagem básica da inter-relação entre duas variáveis ​​e podem ajudar a encontrar interações entre elas.

Como exemplo, considere duas variáveis, ambas discretas: 

* `sexo` (com valores em **Masculino** ou **Feminino**) 
* `animal de estimação` (com valores em **Cachorro** ou **Gato**). 

Suponha que 100 indivíduos sejam amostrados aleatoriamente em uma população muito grande como parte de um estudo de diferenças de sexo e preferência por animal de estimação. Uma tabela de contingência pode ser criada para exibir as diversas quantidades de indivíduos na amostra: quantos são homens e preferem gatos, quantos homens preferem gatos, quantas mulheres preferem cachorros e quantas mulheres preferem gatos. Essa tabela de contingência é exibida abaixo ([fonte](https://math.stackexchange.com/questions/1233587/checking-dependency-of-variables-in-a-contingency-table)).

<center>

|               | Cachorro       | Gato       | Total |
| ---------     | -------------- | ---------- | ----- |
| **Masculino** | 42             | 10         | 52    |
| **Feminino**  | 9              | 39         | 48    |
| **Total**     | 51             | 49         | 100   |

</center>

Ainda com relação ao exemplo acima, repare que

- a coluna mais à direita apresenta os totais por linha,
- a linha mais abaixo exibe os totais por coluna,
- a célula inferior direita o total geral de indivíduos da amostra.

As informações dos totais por linha e por coluna são opcionais na representação de uma tabela de contingência. Além disso, tabelas de contingência não precisam envolver apenas variáveis binárias. Contanto que as variáveis sejam discretas (e com uma quantidade de valores dentro do aceitável), uma tabela de contingência pode ser usada para exibir sumários acerca delas, independentemente da *aridade* (i.e., da quantidade de valores) dessas variáveis. No exemplo a seguir ([fonte](http://www.sthda.com/sthda/RDoc/data/housetasks.txt
)), as variáveis apresentam quatro e treze valores, respectivamente. Note também que não são fornecidos os totais nas margens da tabela.

<center>

| Task        | Wife | Alternating | Husband | Jointly |
|-------------|------|-------------|---------|---------|
| Laundry     | 156  | 14          | 2       | 4       |
| Main_meal   | 124  | 20          | 5       | 4       |
| Dinner      | 77   | 11          | 7       | 13      |
| Breakfast   | 82   | 36          | 15      | 7       |
| Tidying     | 53   | 11          | 1       | 57      |
| Dishes      | 32   | 24          | 4       | 53      |
| Shopping    | 33   | 23          | 9       | 55      |
| Official    | 12   | 46          | 23      | 15      |
| Driving     | 10   | 51          | 75      | 3       |
| Finances    | 13   | 13          | 21      | 66      |
| Insurance   | 8    | 1           | 53      | 77      |
| Repairs     | 0    | 3           | 160     | 2       |
| Holidays    | 0    | 1           | 6       | 153     |

</center>


## Independência estatística

A independência estatística é um conceito importante na Teoria das Probabilidades. Considere dois eventos $A$ e $B$. Se o conhecimento da ocorrência do evento $A$ não muda a probabilidade de ocorrência do evento $B$, então escrevemos:

$$
\Pr(B|A) = \Pr(B)
$$

Sob a condição acima, a probabilidade conjunta dos eventos $A$ e $B$ é igual ao produto das probabilidades dos eventos $A$ e $B$: $\Pr(A,B) = \Pr(A) \times \Pr(B)$. Esses eventos são então considerados **estatisticamente independentes**.

A independência estatística não deve ser confundida com outra propriedade que pode existir entre eventos, a exclusividade mútua. Se a probabilidade conjunta de dois eventos $A$ e $B$ for zero, esses eventos são ditos mutuamente exclusivos ou disjuntos. O seguinte destaca as condições sob as quais dois eventos são estatisticamente independentes e mutuamente exclusivos:

- $\Pr(A,B) = \Pr(A) \times \Pr(B) \iff \text{eventos independentes}$
- $\Pr(A,B) = 0 \iff \text{eventos mutuamente exclusivos}$

No contexto da Inferência Estatística, o conceito de **evento** está relacionado aos valores que uma variável aleatória assume. Além disso, o conceito de independência estatística entre duas variáveis aleatórias pode ser usado como um indicador de presença ou ausência de dependência entre elas. Em particular, se duas variáveis são independentes, as distribuições percentuais na tabela de contingência são idênticas.

> Se há dependências entre duas variáveis, dizemos que essas variáveis estão **associadas**.

Como exemplo, considere novamente a tabela de contingência usada em exemplo anterior e reapresentada abaixo. 

<center>

|               | Cachorro       | Gato       | Total |
| ---------     | -------------- | ---------- | ----- |
| **Masculino** | 42             | 10         | 52    |
| **Feminino**  | 9              | 39         | 48    |
| **Total**     | 51             | 49         | 100   |

</center>

Nesse contexto, há duas variáveis aleatórias binárias: 
* **Sexo** 
* **Preferência** (por animal de estimação preferido)

Os dados nessa tabela parecem indicar que as variáveis **não** são estatisticamente independentes, i.e., que há associação entre elas. Para ententer porque, repare que a maioria das mulheres prefere gatos (39 contra 9), enquanto que a maioria dos homens prefere cachorros (42 contra 10). Se essas variáveis fossem efetivamente independentes, deveríamos esperar encontrar preferências aproximadamente iguais por gatos e cachorros, tanto no grupo de mulheres quanto no de homens.

Visto que os dados apresentados na tabela acima são correspondentes a uma amostra da população, surge a seguinte questão:

> O enviesamento observado é obra do acaso (e portanto não reflete a distribuição da população), ou é consequência de as variáveis serem estatisticamente dependentes?

A questão acima pode ser investigada por meio do teste $\chi^2$.

## Distribuição Qui-Quadrado

A estatística usada no teste $\chi^2$ segue a distribuição homônima, a [distribuição $\chi^2$](https://en.wikipedia.org/wiki/Chi-squared_distribution). A distribuição qui-quadrado (𝜒²) é uma distribuição contínua assimétrica. A variável aleatória $X \sim \chi^2_k$ com $k$ graus de liberdade é a soma dos quadrados de $k$ variáveis normais padrão independentes:

$$
X = \sum_{i=1}^{k} Z_i^2, \quad Z_i \sim N(0,1)
$$

A figura a seguir ([fonte](https://en.wikipedia.org/wiki/Chi-squared_distribution)) apresenta os gráficos de diversas funções de densidade que seguem a distribuição $\chi^2$. Essa distribuição possui um parâmetro, $k$, a quantidade de graus de liberdade.

<p align="center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/35/Chi-square_pdf.svg/1024px-Chi-square_pdf.svg.png" width="600"/>
</p>

## Tipos de Testes Qui-Quadrado

### 1. Teste de Aderência (Goodness-of-fit)

Verifica se uma distribuição observada se ajusta a uma distribuição teórica esperada.

**Declaração das hipóteses:**
* $H_0$: A distribuição observada segue a distribuição teórica.
* $H_1$: A distribuição observada não segue a distribuição teórica.

### 2. Teste de Independência

Verifica se há associação (i.e., dependência estatística) entre duas variáveis categóricas.

**Declaração das hipóteses:**
* $H_0$: As variáveis são independentes.
* $H_1$: As variáveis são associadas.


Neste tipo de teste $\chi^2$, as hipóteses devem ser declaradas da seguinte forma:
- A hipótese nula ($H_0$) deve afirmar que não existe associação entre as duas variáveis.
- A hipótese de pesquisa ($H_a$) declara que as duas variáveis ​estão associadas na população.

### 3. Teste de Homogeneidade

Verifica se **duas ou mais populações** seguem a **mesma distribuição** de uma variável categórica.

---

## Passos do procedimento

1. Declarar as hipóteses nula e alternativa
2. Montar a tabela de contingência
3. Computar a estatística de teste
4. Calcular o valor $p$ correspondente
5. Tomar uma decisão e interpretar o resultado

# Estatística qui-quadrado

A estatística qui-quadrado mede o desvio entre o que foi observado nos dados e o que seria esperado caso não houvesse relação entre as variáveis (sob $H_0$). Essa estatística é calculada por meio da consulta aos valores contidos em uma tabela de contingência.

$$
\chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$

* $O_{ij}$: **Frequência observada**. Frequências observadas (*observed frequencies*) são valores efetivamente observados na tabela de contingência (ou derivados dela).
* $E_{ij}$: **Frequência esperada sob $H_0$**. Frequências esperadas (*expected frequencies*) são valores que seriam esperados se as duas variáveis fossem estatisticamente independentes. Calculamos uma frequência observada para cada par de valores das variáveis.

> A estatística qui-quadrado é uma soma de desvios normalizados: se o observado é muito diferente do esperado, o numerador é grande, e a estatística assume valores grandes. 

Para computar a estatística $\chi^2$, é necessário computar as frequências esperadas para cada célula $(i,j)$ da tabela de contingência. Para isso, basta multiplicar os totais de linha e de coluna para essa célula e dividir o produto resultante pelo número total de casos na tabela (representado por $N$ na equação abaixo).

$$
E_{ij} = \frac{{\text{total da linha $i$} \times \text{total da coluna $j$}}}{N}
$$

Como exemplo, retornemos à tabela de contingência usada em exemplo anterior e reapresentada abaixo.

<center>

|               | Cachorro       | Gato       | Total |
| ---------     | -------------- | ---------- | ----- |
| **Masculino** | 42             | 10         | 52    |
| **Feminino**  | 9              | 39         | 48    |
| **Total**     | 51             | 49         | 100   |

</center>

Se não houver associação entre as variáveis **Sexo** e **Preferência**, as frequências esperadas são calculadas como:

- $E_{11} = f_e$(Masculino, Cachorro) = $\frac{51 \times 52}{100} = 26.52$

- $E_{12} = f_e$(Masculino, Gato) = $\frac{49 \times 52}{100} = 25.48$

- $E_{21} = f_e$(Feminino, Cachorro) = $\frac{51 \times 48}{100} = 24.48$

- $E_{22} = f_e$(Feminino, Gato) = $\frac{49 \times 48}{100} = 23.52$

Podemos organizar essas frequências esperadas em uma tabela de contingência:
<center>

| Sexo      | Cachorro | Gato  |
| --------- | ---------| ------|
| Masculino | 26.52    | 25.48 |
| Feminino  | 24.48    | 23.52 |

</center>

De posse das frequências esperadas e observadas, é possível computar o valor da estatística:

$$
\chi^2 = \frac{26.52-42}{26.52} + \frac{25.48-10}{25.48} + \frac{24.48-9}{24.48} + \frac{23.52-39}{23.52} \approx 38.41
$$

In [None]:
import numpy as np

f_11 = 51*52/100
f_12 = 49*52/100
f_21 = 51*48/100
f_22 = 49*48/100
print(f_11)
print(f_12)
print(f_21)
print(f_22)

print(np.square(f_11 - 42)/f_11)

qui_square = np.square(f_11 - 42)/f_11 + np.square(f_12 - 10)/f_12 + np.square(f_21 - 9)/f_21 + np.square(f_22 - 39)/f_22
print(qui_square)

26.52
25.48
24.48
23.52
9.0358371040724
38.41767476221258


A biblioteca scipy disponibiliza o pacote de funções [chi2](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html), que permite manipular variáveis aleatórias que seguem a distribuição chi-quadrado.

Como exemplo, suponha uma variável aleatória que siga a distribuição qui-quadrado com 9 graus de liberdade. Se quisermos saber que valor dessa variável delimita 95% da distribuição, podemos usar a função `ppf`, conforme o bloco de código abaixo.

In [None]:
from scipy.stats import chi2
chi2.ppf(.95, df=9)

inf

# Aplicação do teste

No contexto do teste $\chi^2$, a distribuição $\chi^2$
indica a probabilidade de obter um determinado valor, presumindo que não existe relação (na população) entre as duas variáveis. Ainda no contexto desse teste, o valor do parâmetro $k$ é calculado por meio da expressão

$$
k = (r – 1) \times (c – 1)
$$

onde
- $r$ = quantidade de linhas da tabela, e
- $c$ = quantidade de colunas da tabela.

Seguindo com o exemplo anterior, o parâmetro $k$ pode ser calcular conforme a seguir:

$$
k = (2-1)(2-1) = 1
$$

De posse dos valores da estatística ($\chi^2 = 38.41$) e do parâmetro ($k=1$), podemos computar o valor corresponde de $p$.

Considere que foi definido um nível de significância igual a 5% para o estudo estatístico. Usando a função [scipy.stats.chi2.ppf](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html#scipy.stats.chi2), concluímos que o valor $3.84$, conhecido como valor crítico, é o que separa 5% da área da curva à direita. Por outro lado, o valor $\chi^2 = 38.41$ é muito maior do que $3.84$. De fato, o valor obtido para a estatística está relacionado um valor $p$ virtualmente igual a $0$. Então parece muito claro que as variáveis ​​categóricas são **dependentes** na população da qual a amostra de 100 observações foi escolhida aleatoriamente.

In [None]:
from scipy.stats import chi2
x = 38.41
k=1
print('valor crítico: %.2f' % chi2.ppf(.95,k))
print('p: %f' % (1 - chi2.cdf(x,k)))

valor crítico: 3.84
p: 0.000000


In [None]:
from scipy.stats import chisquare
chisquare([42, 10, 9, 39],[26.52, 25.48, 24.48, 23.52])

Power_divergenceResult(statistic=38.41767476221258, pvalue=2.3057195936791932e-08)

In [None]:
from scipy.stats import chisquare
chisquare([25, 25, 25, 25],[26.52, 25.48, 24.48, 23.52])

Power_divergenceResult(statistic=0.20033654487436, pvalue=0.9775349496246623)

# Condições de aplicabilidade

Diferente dos testes estudados até aqui ($z$-teste, $t$-teste, ANOVA), o teste $\chi^2$ não requer suposições sobre a distribuição da população da qual a amostra é retirada. Ou seja, o $\chi^2$ é um teste estatístico não-paramétrico.

No entanto, assim como outras técnicas inferenciais, esse teste possui algumas consições de aplicabilidade:

* A frequência esperada de cada célula da tabela de contingência deve ser razoavelmente grande. Como regra prática, costuma-se usa:
  * Nenhuma célula com frequência esperada < 1.
  * No máximo 20% das células com frequência esperada < 5.
* As observações devem ser independentes (i.e., presume que foi realizada amostragem aleatória.).
* As variáveis do estudo devem ser categóricos.



# Exemplos

## Exemplo 1

O conjunto de dados survey contém dados sobre hábitos de fumo e de atividades físicas de estudantes, dentre outras informações.

- hábitos de tabagismo (`Smoke`)
- nível de prática de exercícios físicos (`Exer`)

Seja usar o teste $\chi^2$ para verificar, nível de significância de 5%, se as variáveis são independentes.

In [None]:
import pandas as pd
df_survey = pd.read_csv('survey.csv')
df_survey[['Smoke', 'Exer']].head()

Unnamed: 0,Smoke,Exer
0,Never,Some
1,Regul,
2,Occas,
3,Never,
4,Never,Some


O pacote Pandas fornece a função crosstab que pode ser usada para montar a tabela de contingência para a apilcação do teste $\chi^2$. Veja a célula de código a seguir.

In [None]:
tbl = pd.crosstab(df_survey.Smoke, df_survey.Exer)
tbl

Exer,Freq,None,Some
Smoke,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Heavy,7,1,3
Never,87,18,84
Occas,12,3,4
Regul,9,1,7


Por inspeção na tabela de contingência acima, percebemos que a variável `Exer` contém três valores, e a variável `Smoke` contém quatro valores.

De posse da tabela de contingência, podemos usar a função scipy.stats.chi2_contingency para aplicar diretamente o teste $\chi^2$.

In [None]:
from scipy.stats import chi2_contingency
chi2_contingency(tbl)

(5.488545890584232,
 0.48284216946545633,
 6,
 array([[ 5.36016949,  1.0720339 ,  4.56779661],
        [92.09745763, 18.41949153, 78.48305085],
        [ 9.25847458,  1.85169492,  7.88983051],
        [ 8.28389831,  1.65677966,  7.05932203]]))

Ao ser invocada, a função chi2_contingency retorna uma tupla de componentes conforme descrição abaixo:

- o primeiro componente é o valor Qui-quadrado ($5.49$) ;
- o segundo componente corresponde a $p$ ($0.4828$);
- o terceiro componente é a quantidade de graus de liberdade (3);
- o quarto componente corresponde às frequências esperadas, na forma de uma matriz.

Porque o valor de $p = 0.4828$ é maior do que o nível de significância de $\alpha=0.05$, não temos evidência para rejeitar a hipótese nula de que o hábito de fumar seja independente do nível de exercício dos alunos.

No resultado acima, repare que nem todas as frequências esperadas são maiores que 5. Em geral, os resultados do teste $\chi^2$ são confiáveis apenas quando todas as frequências esperadas são maiores ou iguais a 5. Para contornar esse problema, podemos combinar os valores 'None' e 'Some' da variável `Exer` em um único valor, conforme a célula de código abaixo.

In [None]:
df_survey.replace({'Exer': {'None': 'None_or_Some', 'Some': 'None_or_Some'}}, inplace=True)
df_survey[['Smoke', 'Exer']].head()

Unnamed: 0,Smoke,Exer
0,Never,None_or_Some
1,Regul,None_or_Some
2,Occas,None_or_Some
3,Never,None_or_Some
4,Never,None_or_Some


In [None]:
tbl = pd.crosstab(df_survey.Smoke, df_survey.Exer)
tbl

Exer,Freq,None_or_Some
Smoke,Unnamed: 1_level_1,Unnamed: 2_level_1
Heavy,7,4
Never,87,102
Occas,12,7
Regul,9,8


In [None]:
from scipy.stats import chi2_contingency
chi2_contingency(tbl)

(3.2328182226131843, 0.35710308004083174, 3, array([[ 5.36016949,  5.63983051],
        [92.09745763, 96.90254237],
        [ 9.25847458,  9.74152542],
        [ 8.28389831,  8.71610169]]))

Perceba que agora todos os valores das frequências esperadas estão acima de 5, fazendo com que o resultado de aplicação do $\chi^2$ dessa vez seja confiável.

## Exemplo 2: Teste de Aderência com Python

Suponha que uma empresa afirma que 25% dos seus produtos são A, 25% B, 25% C e 25% D. Observamos a seguinte distribuição após uma amostra:

<center>

| Categoria | Frequência Observada |
| --------- | -------------------- |
| A         | 20                   |
| B         | 18                   |
| C         | 22                   |
| D         | 40                   |

</center>

Com esses dados, queremos verificar a alegação da empresa de que produz uniformemente produtos dos quatro tipos.

In [2]:
from scipy.stats import chisquare

observed = [20, 18, 22, 40]
expected = [25, 25, 25, 25]  # frequências esperadas uniformes

chi2_stat, p_val = chisquare(f_obs=observed, f_exp=expected)

print(f'Estatística qui-quadrado: {chi2_stat:.4f}')
print(f'Valor-p: {p_val:.4f}')

Estatística qui-quadrado: 12.3200
Valor-p: 0.0064


O valor-p é menor do que $\alpha = 0.05$. Sendo assim, rejeitamos $H_0$: os dados **não seguem** uma distribuição uniforme.

---

## Exemplo 3: Teste de Independência com Tabela de Contingência

São coletados dados de prefêrencia por um novo produto, conforme a tabela a seguir.

<center>

|           | Gosta | Não gosta |
| --------- | ----- | --------- |
| Masculino | 30    | 20        |
| Feminino  | 20    | 30        |

</center>

Será que **gênero** está associado ao **gosto pelo novo produto**?

In [3]:
import numpy as np
from scipy.stats import chi2_contingency

# Criar a tabela
table = np.array([[30, 20],
                  [20, 30]])

chi2_stat, p_val, dof, expected = chi2_contingency(table)

print(f'Estatística qui-quadrado: {chi2_stat:.4f}')
print(f'Valor-p: {p_val:.4f}')
print(f'GL: {dof}')
print('Frequências esperadas sob H0:')
print(expected)

Estatística qui-quadrado: 3.2400
Valor-p: 0.0719
GL: 1
Frequências esperadas sob H0:
[[25. 25.]
 [25. 25.]]


O valor-p não é menor do que $\alpha = 0.05$. Sendo assim, falhamos em rejeitar $H_0$: não há evidência de associação entre gênero e preferência.

---

## Exemplo 4: Teste de Homogeneidade 

Uma rede de supermercados deseja saber se **o padrão de preferência por tipos de pagamento** (dinheiro, cartão, PIX) é o **mesmo em três lojas diferentes**.

São coletados dados de clientes dessas três lojas. Dados observados:

<center>

| Forma de Pagamento | Loja A | Loja B | Loja C |
| ------------------ | ------ | ------ | ------ |
| Dinheiro           | 30     | 25     | 20     |
| Cartão             | 45     | 40     | 35     |
| PIX                | 25     | 35     | 45     |

</center>

Hipóteses do Teste:

* **$H_0$**: As distribuições de forma de pagamento são iguais nas três lojas (homogeneidade).
* **$H_1$**: Pelo menos uma loja tem uma distribuição diferente (não homogênea).

In [4]:
import numpy as np
from scipy.stats import chi2_contingency

# Tabela de frequências observadas
table = np.array([
    [30, 25, 20],  # Dinheiro
    [45, 40, 35],  # Cartão
    [25, 35, 45]   # PIX
])

# Aplicar o teste qui-quadrado
chi2_stat, p_val, dof, expected = chi2_contingency(table)

print(f'Estatística qui-quadrado: {chi2_stat:.4f}')
print(f'Valor-p: {p_val:.4f}')
print(f'Graus de liberdade: {dof}')
print('Frequências esperadas sob H0:')
print(expected)

Estatística qui-quadrado: 8.9643
Valor-p: 0.0620
Graus de liberdade: 4
Frequências esperadas sob H0:
[[25. 25. 25.]
 [40. 40. 40.]
 [35. 35. 35.]]


Interpretação

* **Se o valor-p < 0.05**, rejeitamos $H_0$: há **evidência de que as distribuições diferem entre as lojas**.
* **Se o valor-p ≥ 0.05**, não rejeitamos $H_0$: não há evidência suficiente para afirmar que as lojas têm distribuições diferentes.

Repare que o teste de homogeneidade é estruturalmente idêntico ao teste de independência (mesma estatística), mas a **interpretação muda**:

* **Teste de independência**: duas variáveis em uma única amostra.
* **Teste de homogeneidade**: uma única variável categórica observada em **grupos diferentes**.

---

## Exercício Proposto

Considere os dados:

| Cor do Carro | Acidente | Sem Acidente |
| ------------ | -------- | ------------ |
| Vermelho     | 15       | 35           |
| Preto        | 30       | 45           |
| Branco       | 25       | 50           |

1. Formule as hipóteses para testar se a cor do carro está associada à ocorrência de acidentes.
2. Aplique o teste de independência em Python.
3. Interprete os resultados.