# Teste Chi-Quadrado e Tabela de Contingência

In [16]:
import plotly.plotly as py
import plotly 
plotly.tools.set_credentials_file(username='jgabriellima', api_key='RyEwupbVYv5hUZp13NTJ')
from plotly.tools import FigureFactory as FF
import numpy as np
import pandas as pd
import scipy as sc


Juntamente com o teste t, este é um dos testes de hipótese mais famosos e também um dos mais utilizados por pesquisadores da área de saúde, marketing, engenharia, esportes e etc. O teste Chi Quadrado de Pearson (ou Qui Quadrado) para tabelas de contingência é usado para verificar se há independência ou alguma relação entre as variáveis que compõem a tabela.

# O que é uma tabela de contingência?

Uma tabela de contingência nada mais é do que uma tabela de frequências de determinadas variáveis categóricas. No nosso caso, vamos trabalhar com tabelas de contingência de duas variáveis.

In [12]:
matrix_sw = [
    ['', 'Destro(a)', 'Canhoto(a)'],
    ['Homem', 43, 9],
    ['Mulher', 44, 4]
]

tabela_contingencia = plotly.figure_factory.create_table(matrix_sw, index=True)
py.iplot(tabela_contingencia, filename='tabela_contingencia')

Acima estamos comparando duas variáveis: Sexo (homens e mulheres) e com qual mão escrevem (canhotos(as) ou destros(as)). Foram observados 43 homens destros e 4 mulheres canhotas, por exemplo.

# Quando usar o teste Chi Quadrado de Pearson?

Quando temos **duas variáveis categóricas** e queremos verificar se as duas estão **relacionadas** ou não. Reforço o termo relacionadas para dizer que **esse teste não tem nada a ver com causa e consequência!** Ele apenas verifica a independência entre as duas variáveis.

No exemplo mostrado acima, podemos estar interessados em saber se há relação entre qual mão uma pessoa usa para escrever e seu sexo. Então, coletamos dados de 100 pessoas e dispomos o resultado da pesquisa na tabela de contingência mostrada acima. Com esse dados, então, queremos verificar se existe ou não relação entre a mão que uma pessoa usa para escrever e seu sexo. Porém, antes de executar o teste é preciso verificar alguma suposições básicas.

** Antes de aplicar qualquer teste estatístico é preciso saber quais as hipóteses e seu problema é adequado para tal.** Se isso não for verificado você pode estar tirando conclusões erradas e imprecisas.

Verifique se:

* **Suas variáveis são categóricas:** caso contrário, nem dá para fazer uma tabela de contingência.

* **Sua amostra é aleatória:** é importante que haja aleatoriedade ao selecionar os dados da sua amostra. A ideia da aleatoriedade é que todos tenham a mesma probabilidade (oportunidade) de serem entrevistados/amostrados.

* **Você tem uma quantidade considerável de dados:** quanto mais observações, melhor para você e mais preciso será seu estudo. Porém, alguns números são tido como referência, mas não uma regra ao usar o teste Chi Quadrado de Pearson. Por exemplo, um mínimo de 30 observações ou pelo menos 5 observações para cada casela da tabela.

* ** As observações são independentes:** usando o exemplo anterior fica mais fácil. Obviamente todas as observações são independentes, dado que estou coletando informações de pessoas diferentes. Exemplo em que as observações não são independentes é quando eu coleto informação da mesma pessoa/animal/instituição mais de uma vez.

Se todas essas suposições são satisfeitas, então podemos partir para a prática e utilizar o teste Chi Quadrado de Pearson.

# Utilizando o teste Chi Quadrado de Pearson

** É preciso saber com qual hipótese está trabalhando para o caso de rejeição sabermos do que está sendo falado. **

Neste caso, o teste Chi Quadrado de Pearson trabalha com a ** hipótese nula ** de que ** as variáveis são estatisticamente independentes**. 

Portanto, considerando um nível de 5%, ** se encontrarmos um p-valor menor que 0,05 temos que as variáveis possuem alguma relação e não são independentes!** 

Vamos pegar novamente o exemplo citado anteriormente de pessoas que escrevem com a mão esquerda ou direita. Primeiramente, vamos inserir os dados no R e em seguida executar o teste.

In [18]:
tab = np.array([[43, 9],
       [44, 4]])

Esta função calcula a estatística do qui-quadrado e o valor p para o teste de hipóteses de independência das freqüências observadas na tabela de contingência observada.

In [20]:
# Teste Qui-quadrado de independência das variáveis em uma tabela de contingência.
chi2, p, dof, ex = sc.stats.chi2_contingency(tab)

In [25]:
"X-squared:" , chi2

('X-squared:', 1.0724852071005921)

In [26]:
"p-value: ", p

('p-value: ', 0.30038477039056599)

In [28]:
"df: ", dof #"Graus de liberdade Delta": ajuste aos graus de liberdade para o valor p.

('df: ', 1)

Note que o p-valor do teste encontra-se em p-value acima, ** resultando em um p-valor acima de 0,05 **. Ou seja, ** a hipótese de que as variáveis são independentes não pode ser rejeitada ** e há evidências de que não existe uma relação entre o sexo e a mão com a qual a pessoa escreve.

Se o p-valor não te convence (sempre desconfie de resultados obtidos apenas com p-valor), podemos observar as frequências relativas

In [36]:
from scipy import stats
res = stats.relfreq(tab, numbins=4)
res.frequency

array([ 1.,  0.,  0.,  1.])

Como simplificamos o código para facilitar a fluidez e o entendimento, considere que as caselas da tabela correspondem exatamente às apresentadas anteriormente. 

Por exemplo, a primeira linha e a primeira coluna correspondem a homens destros, ou seja, 82,69% dos homens são destros enquanto os demais (17,31%) são canhotos. 

Por outro lado, 91,67% das mulheres são destras contra 8,33% de canhotas. Assim, temos que a maioria das pessoas são destras independentemente do sexo.