<a href="https://colab.research.google.com/github/al-lla/teste_qui_quadrado/blob/main/teste_qui_quadrado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bibliotecas

In [1]:
# Manipulação de Dados
import numpy as np
import pandas as pd

# Teste Qui-Quadrado
from scipy.stats import chi2_contingency

# __Base de dados__

A base de dados utilizada nesse notebook foi retirada do [kaggle](https://www.kaggle.com/) em 06-08-2022.

_Link para a base de dados original:_
[The Heart Failure Prediction Dataset](https://www.kaggle.com/datasets/asgharalikhan/mortality-rate-heart-patient-pakistan-hospital?resource=download)

In [2]:
github_url = 'https://raw.githubusercontent.com/al-lla/teste_qui_quadrado/main/dataset/FIC.Full%20CSV.csv'

df = pd.read_csv(github_url)

In [3]:
df

Unnamed: 0,Age,Age.Group,Gender,Locality,Marital status,Life.Style,Sleep,Category,Depression,Hyperlipi,...,oldpeak,slope,ca,thal,num,SK,SK.React,Reaction,Mortality,Follow.Up
0,45,41-50,Female,RURAL,MARRIED,NO,NO,FREE,YES,YES,...,3.0,2,0,7,2,1,NO,0,0,60
1,51,51-60,Female,URBAN,MARRIED,NO,NO,FREE,YES,YES,...,1.2,2,0,7,2,1,NO,0,0,15
2,55,51-60,Female,RURAL,MARRIED,YES,YES,FREE,YES,YES,...,3.4,2,0,3,2,1,NO,0,0,6
3,55,51-60,Female,RURAL,MARRIED,YES,YES,FREE,YES,YES,...,2.0,2,1,7,3,1,NO,0,0,52
4,56,51-60,Female,RURAL,MARRIED,YES,NO,FREE,YES,YES,...,4.0,3,2,7,3,1,NO,0,0,34
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
363,55,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,NO,...,0.5,2,0,7,3,0,BODY.PAIN,1,0,60
364,55,51-60,Male,RURAL,MARRIED,YES,NO,FREE,YES,YES,...,2.0,2,3,7,3,1,STOMACH.BLEEDING,1,0,36
365,58,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,YES,...,0.8,1,3,3,1,1,COUGH.BLEEDING,1,0,32
366,58,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,YES,...,2.6,2,0,7,4,1,COUGH.BLEEDING,1,0,32


## __Variáveis Qualitativas__

Vamos isolar apenas as variáveis qualitativas para o teste Qui-Quadrado.

In [4]:
# Tipos de dados armazenados
df.dtypes

Age                                                                                           int64
Age.Group                                                                                    object
Gender                                                                                       object
Locality                                                                                     object
Marital status                                                                               object
Life.Style                                                                                   object
Sleep                                                                                        object
Category                                                                                     object
Depression                                                                                   object
Hyperlipi                                                                                    object


In [5]:
# Filtrar dados pelo tipo object
df.select_dtypes('object')

Unnamed: 0,Age.Group,Gender,Locality,Marital status,Life.Style,Sleep,Category,Depression,Hyperlipi,Smoking,Family.History,HTN,Allergies,Others,CO,Diagnosis,Hypersensitivity,SK.React
0,41-50,Female,RURAL,MARRIED,NO,NO,FREE,YES,YES,NO,NO,NO,NO,no,"Chest pain,",EXT. ACUTE WALL M.I,NO,NO
1,51-60,Female,URBAN,MARRIED,NO,NO,FREE,YES,YES,NO,NO,NO,NO,no,"Central Chest pain,",A/W M.I,NO,NO
2,51-60,Female,RURAL,MARRIED,YES,YES,FREE,YES,YES,NO,NO,YES,NO,LV dysfunction,"Chest pain,SOB, Cold sweating",AC I/W M.I (RV) RE. M.I,NO,NO
3,51-60,Female,RURAL,MARRIED,YES,YES,FREE,YES,YES,NO,NO,YES,NO,HTN,"CENTRAL Chest pain,",I/W M.I,NO,NO
4,51-60,Female,RURAL,MARRIED,YES,NO,FREE,YES,YES,NO,NO,YES,NO,no,"Chest pain,",A/W M.I,NO,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
363,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,NO,NO,NO,YES,NO,"HCV, IHD","Chest pain,sweating,vomiting","old I/W M.I, ACS.",NO,BODY.PAIN
364,51-60,Male,RURAL,MARRIED,YES,NO,FREE,YES,YES,YES,NO,NO,NO,no,"Chest pain,",A LATERAL WALL M.I,NO,STOMACH.BLEEDING
365,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,YES,NO,NO,YES,NO,"SEIZARIAN, HYSTECTOMY.","Chest pain,VOMITING.,SOB",A/W M.I,NO,COUGH.BLEEDING
366,51-60,Male,URBAN,MARRIED,NO,NO,FREE,YES,YES,YES,NO,YES,NO,no,"Chest pain, Sweating, SOB",AC I/W M.I,NO,COUGH.BLEEDING


In [6]:
# lista de colunas do tipo objeto
df_quali = df.select_dtypes('object').columns.to_list()

df_quali

['Age.Group',
 'Gender',
 'Locality  ',
 'Marital status                       ',
 'Life.Style                                                                              ',
 'Sleep',
 'Category',
 'Depression',
 'Hyperlipi',
 'Smoking',
 'Family.History',
 'HTN',
 'Allergies',
 'Others ',
 'CO',
 'Diagnosis',
 'Hypersensitivity',
 'SK.React']

# __Teste Qui-Quadrado__

Para realizar o teste Qui-Quadrado, precisamos escolher as variáveis que iremos testar.

In [18]:
var1 = 'Gender'
var2 = 'Age.Group'

Para realizar o teste Qui-Quadrado, é necessário construir uma tabela em que todos os valores da variável 1 sejam linhas e que todos os valores da variável 2 sejam colunas.

Assim, cada célula $a_{ij}$, representará a ocorrência de observações com o valor $i$ para a variável 1 e o valor $j$ para a variável 2.

In [19]:
chi = pd.crosstab(df[var1], df[var2])
chi

Age.Group,21-30,31-40,41-50,51-60,61-70
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,1,0,2,20,60
Male,11,20,59,164,31


Com essa tabela, é possível calcular o teste Qui-Quadrado com a função `chi2_contingency` do pacote `scipy.stats`.

In [25]:
chi_scores = chi2_contingency(chi)
chi_scores

(132.60818273774606,
 1.0778056511911754e-27,
 4,
 array([[  2.70652174,   4.51086957,  13.75815217,  41.5       ,
          20.52445652],
        [  9.29347826,  15.48913043,  47.24184783, 142.5       ,
          70.47554348]]))

O primeiro valor da tupla resultando indica o valor do teste:

In [26]:
scores = pd.Series(chi_scores[0])
scores

0   132.61
dtype: float64

Já o segundo valor, representa o p-valor:

In [27]:
pvalues = pd.Series(chi_scores[1])
pvalues

0   0.00
dtype: float64

## __Criando uma função__

Para generalizar o trabalho que foi feito, podemos criar uma função que execute os mesmos passos para qualquer conjunto de dados.

In [35]:
def qui_quadrado(df, var1, var2):

  chi = pd.crosstab(df[var1], df[var2])
  chi_scores = chi2_contingency(chi)

  scores = pd.Series(chi_scores[0])
  pvalues = pd.Series(chi_scores[1])

  d = {'Qui2': scores, 'p-Valor': pvalues}
  chi_squared = pd.DataFrame(d)

  # Renomear
  d = {0: var2}
  chi_squared = chi_squared.rename(d)

  return chi_squared

In [36]:
qui_quadrado(df, var1, var2)

Unnamed: 0,Qui2,p-Valor
Age.Group,132.61,0.0


# Utilizando um loop para automatizar o teste

Ao utilizarmos uma estrutura de repetição, é possível generalizar a função anterior para que seja possível passar uma lista de variáveis a serem testadas.

Como um bônus, também iremos reordenar a tabela exibida para que os menores p-valores apareçam primeiro.

In [80]:
def qui_quadrado(df, variavel, lista):

  # Calcular Qui2 e p-valor para cada variável e colocar resultado num df
  d = {'Qui2': [], 'p-Valor': []}

  for l in lista:
      
      # Cria tabela que relaciona variável com Tipo de Consumidor
      tab = pd.crosstab(df[variavel], df[l])

      # Calcula o qui2 entre as duas variáveis
      chi_scores = chi2_contingency(tab)

      # Recupera o valor e p-value do teste
      scores = pd.Series(chi_scores[0])
      pvalues = pd.Series(chi_scores[1])

      # Adiciona resultado ao dicionário
      d['Qui2'].append(scores[0])
      d['p-Valor'].append(pvalues[0])

  # Transformar dicionário em dataframe
  chi_squared = pd.DataFrame(d)

  # Formato de visualização dos números
  pd.options.display.float_format = "{:,.2f}".format

  # Renomear linhas do df
  for n, l in zip(np.arange(0, len(lista), 1), lista[0:len(lista)]):
    chi_squared = chi_squared.rename(index = {n: l})

  # Mostrar em ordem crescente para o p-valor
  chi_squared = chi_squared.sort_values(by = 'p-Valor', ascending = True)

  # Visualizar df
  return chi_squared

In [81]:
qui_quadrado(df, 'Gender', df_quali[1:len(df_quali)])

Unnamed: 0,Qui2,p-Valor
Gender,362.3,0.0
SK.React,307.46,0.0
Diagnosis,229.93,0.0
CO,229.87,0.0
Smoking,118.07,0.0
Others,105.84,0.0
Locality,53.72,0.0
HTN,33.68,0.0
Family.History,24.49,0.0
Category,8.81,0.0
