# 7. Dados Categorizados

As variáveis categóricas têm dois tipos principais de escalas de medição. Muitas escalas categóricas têm uma ordem natural. Os exemplos são atitudes em relação à legalização do aborto (desaprovar em todos os casos, aprovar apenas em certos casos, aprovar em todos os casos), avaliação do nível de estoque de uma empresa (muito baixo, quase certo, muito alto), resposta a um tratamento médico (excelente, bom, regular, ruim) e frequência de sintomas de ansiedade (nunca, ocasionalmente, frequentemente, sempre). Variáveis categóricas com escalas ordenadas são chamadas de variáveis **ordinais**.

Variáveis categóricas com escalas não ordenadas são denominadas variáveis **nominais**. Os exemplos são afiliação religiosa (categorias católica, judaica, protestante, muçulmana, outra), principal meio de transporte para o trabalho (automóvel, bicicleta, ônibus, metrô, caminhada), tipo de música favorita (clássica, country, folclórica, jazz, rock) e o local favorito para fazer compras (shopping local, centro da cidade, Internet, outros).

## 7.1 Tabela de Contingência

Uma maneira útil de resumir duas variáveis categóricas é utilizando **uma tabela de contingência** — uma tabela de contagens por categoria.

In [1]:
import pandas as pd

* A contagem na interseção da linha $i$ e coluna $j$ é identificada por $n_{ij}$, e representa o número de observações que exibem essa combinação de níveis. Por exemplo, $n_{1,2}$ exibe o número de entrevistadas do sexo feminino que tenham votado para o Candidato B.

* A tabela também inclui **totais marginais** para cada nível das variáveis. Os totais marginais para as linhas mostram que 52 dos entrevistados eram do sexo feminino. Os totais marginais para colunas mostram que 61 entrevistados votaram no Candidato A. Além disso, o total global mostra que o tamanho amostral é de 100.

### Podemos considerar mais de duas variáveis?

As tabelas de contingência mais simples são tabelas com dois fatores que contam as respostas por duas variáveis. Você pode categorizar observações por três ou mais variáveis "cruzando-as". No exemplo do voto, você também poderia classificar as respostas por situação empregatícia:

### 7.1.1 Estrutura de probabilidade para tabelas de contigência

As probabilidades para tabelas de contingência podem ser de três tipos - conjunta, marginal ou condicional.

**Probabilidades conjuntas:** São calculadas das interseções das variáveis. Voltando ao nosso exemplo da tabela que relaciona o sexo do eleitor e o candidato escolhido, podemos calcular a probabilidade de ser uma eleitora e ter votado no candidato B, por exemplo:

$$P(F \cap B) = P(F,B) = \frac{18}{100} = 0,18 = 18\%$$

**Probabilidades marginais:** São calculadas dos totais marginais. Por exemplo, podemos calcular a probabilidade marginal do eleitor ser do sexo masculino:

$$P(Sexo=M) = \frac{48}{100} = 0,48 = 48\%$$

Podemos também, calcular a probabilidade marginal do candidato A ser escolhido:

$$P(Candidato=A) = \frac{61}{100} = 0,61 = 61\%$$

**Probabilidades Condicionais:** São calculadas por meio das probabilidades conjuntas e marginais. Se quisermos saber a probabilidade de termos um eleitor do sexo masculino, dado que ele votou no candidato A, podemos fazer:

$$P(M|A) = \frac{P(M,A)}{P(Candidato=A)} = \frac{0,27}{0,61} = 0,44 = 44\%$$


No python, podemos calcular as probabilidades conjuntas e marginais apenas definindo o parâmetro **normalize** da função crosstab como **True**:

### 7.1.2 Sensibilidade e especificidade em testes de diagnóstico

Um **teste de diagnóstico** é usado para detectar muitas condições médicas. Por exemplo, a mamografia pode detectar câncer de mama em mulheres e o antígeno prostático específico (PSA) pode detectar câncer de próstata em homens. Diz-se que o resultado de um teste de diagnóstico é **positivo** se afirma que a doença está **presente** e **negativo** se afirma que a doença está **ausente**. A precisão dos testes de diagnóstico é frequentemente avaliada com duas probabilidades condicionais: Dado que um indivíduo tem a doença, a probabilidade de o teste de diagnóstico ser positivo é chamado de **sensibilidade**. Dado que o sujeito não tem a doença, a probabilidade de o teste ser negativo é chamada de **especificidade**.

**Exercício**

A tabela teste_diagnostico.csv possui o resultado de uma pesquisa realizada com pacientes que realizaram um teste de COVID-19 a fim de verficiar a especificidade e a sensibilidade do teste. Dado que a coluna 'resultado_teste' indica o resultado do teste, onde: N = Negativo e P=Positivo. Já a coluna 'doente' indica se a pessoa estava (S) ou não (N) com a doença. Utilizando a biblioteca Pandas, calcule:

A) A quantidade de pessoas que tiveram o teste positivo.

B) A quantidade de pessoas que tiveram o teste negativo e não estavam doentes.

C) A probabilidade de alguém que esteja saudável fazer este teste.

D) A probabilidade de uma pessoa estar saudável e o teste indicar positivo.

E) A especificidade e a sensibilidade deste teste.

In [9]:
df = pd.read_csv("teste_diagnostico.csv", sep=';')

tabela_contingencia = pd.crosstab(index=[df.resultado_teste], columns=df.doente, margins=True)
tabela_contingencia

doente,N,S,All
resultado_teste,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
N,114,19,133
P,4,150,154
All,118,169,287


A) 154 testaram positivo 

B) 114 testaram negativo e não estavam doente

In [10]:
tabela_contingencia_normalizada = pd.crosstab(index=[df.resultado_teste], columns=df.doente, margins=True, normalize=True)
tabela_contingencia_normalizada

doente,N,S,All
resultado_teste,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
N,0.397213,0.066202,0.463415
P,0.013937,0.522648,0.536585
All,0.41115,0.58885,1.0


C) A probabilidade de uma pessoa saudável fazer o teste é igual a 0.41

D)  A probabilidade de uma pessoa saudável e o teste indicar positivo é igual a 0.01

In [13]:
especificidade =  (tabela_contingencia_normalizada.loc['N']['N']/ 
                  tabela_contingencia_normalizada.loc['All']['N'])

sensibilidade =  (tabela_contingencia_normalizada.loc['P']['S']/ 
                  tabela_contingencia_normalizada.loc['All']['S'])

print('Espicificidade:', especificidade*100)
print('Sensibilidade:', sensibilidade*100)

Espicificidade: 96.61016949152543
Sensibilidade: 88.75739644970415


## 7.2 Risco Relativo

Uma diferença entre duas proporções de um determinado tamanho fixo geralmente é mais importante quando ambas as proporções estão próximas de 0 ou 1 do que quando estão próximas do meio do intervalo. Considere uma comparação de dois medicamentos na proporção de indivíduos que tiveram efeitos adversos ao usar o medicamento. A diferença entre 0,010 e 0,001 é a mesma como a diferença entre 0,410 e 0,401, ou seja, 0,009.

$$risco = \frac{\pi_1}{\pi2}$$

A primeira diferença é mais impressionante, uma vez que 10 vezes mais indivíduos tiveram reações adversas com um medicamento que o de outros. Nesses casos, a razão de proporções é uma medida descritiva mais relevante.

## 7.3 Independência entre variáveis

Diz-se que duas variáveis são estatisticamente independentes se as populações condicionais de Y são idênticas em cada nível de X. Quando duas variáveis são independentes, a probabilidade de qualquer resultado específico da coluna j é a mesma em cada linha.
       
Sexo Eleitor |  Candidato A  | Candidato B  |
-------------|:-------------:|:------------:|     
M            |  34           |  46          |
F            |  34           |  46          |

## 7.4 Teste Qui-quadrado

O teste qui-quadrado é usado com dados de contagem para testar o quão bem eles se ajustam em algumas distribuições esperadas. O uso mais comum da estatística qui-quadrado em estatística
prática é com tabelas de contingência, para avaliar se a hipótese nula de independência entre as variáveis é razoável.

$$H_0: \text{As variáveis são independentes.}$$
$$H_1: \text{As variáveis são dependentes.}$$

**Exemplo**

Suponha que você trabalha em site de notícias e esteja querendo descobrir a manchete que vai despertar o maior interesse nos visitantes do site. Para isso você testa três manchetes diferentes – A, B e C – com 1.000 visitantes para cada manchete e registra quantos cliques cada uma recebeu. O resultado deste teste pode ser observado na tabela abaixo.

In [15]:
df = pd.read_csv('click_rate.csv', sep = ';')
df.head(10)

Unnamed: 0,Headline,Click,Rate
0,Headline A,Click,14
1,Headline A,No-click,986
2,Headline B,Click,8
3,Headline B,No-click,992
4,Headline C,Click,12
5,Headline C,No-click,988


In [16]:
tabela_observada = pd.pivot_table(df, values='Rate', index=['Click'], columns=['Headline'])
tabela_observada

Headline,Headline A,Headline B,Headline C
Click,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Click,14,8,12
No-click,986,992,988


Com este resultado, você acha que as manchetes tiveram resultados diferentes?

O teste Qui-quadrado é capaz de testar se as taxas de clique diferem em uma extensão maior do que o acaso pode causar. Ou seja, se os resultados são de fato diferentes ou as diferenças observadas foram geradas pela aleatoriedade da amostra.

* **Distribuição esperada**

Para este teste, precisamos ter a distribuição “esperada” de cliques e, nesse caso, isso estaria sob a suposição da hipótese nula de que todos os três títulos compartilham a mesma taxa de cliques. Sob essa premissa, nossa tabela de contingência seria. 

* **O Resíduo de Pearson**

Este resíduo indica a quantia que a contagem real difere da contagem esprada.

$$R_{ij} = \frac{Observado_{ij} - Esperado_{ij}}{\sqrt{Esperado_{ij}}}$$

onde i é a linha e j a coluna.

A tabela de contigência dos resíduos para o nosso problema seria:

Assim, a estatística qui-quadrada é definida como a soma dos resíduos de Pearson ao quadrado.

$$\chi^2_{obs} = \sum_i^r \sum_j^c R_{ij}^2$$

onde r é o número de linhas e c o número de colunas da tabela.

Dado a nossa estística ${\chi_{obs}}^2$ e um nível de significância $\alpha$, podemos calcular o p-value do teste.

\\[ \mbox{p-valor}=P[\chi^2_{obs}\geq \chi^2_{\alpha;dof}|H_0] \\]

onde o degrees of freedom (dof) é um parâmetro da distribuição qui-quadrado e é calculado por $(r-1) \times (c-1).$

Por fim, temos

* Se o $\text{p-value} > \alpha$: as variáveis são independentes, a hipótese nula $(H_0)$ é verdadeira.

* Caso contrário: as variáveis são dependentes, a hipótese nula $(H_0)$ deve ser rejeitada.

Para o nosso exemplo, a hipótese nula diz que as quantidades de cliques são independentes das manchetes. 

Utilizando o Python:

In [None]:
# Interpretando o p-value



**Exercício:**

Foi realizada uma pesquisa para tentar entender o principal interesse dos alunos de uma escola em 3 áreas: Artes, Matemática e Ciências. Os dados foram separados entre meninos e meninas de acordo com a tabela abaixo:

In [None]:
import pandas as pd
tabela = pd.DataFrame(data={'Artes':[20,20],'Matemática':[30,25],
                                 'Ciência':[20,25]},index=['meninos','meninas'])
tabela

Utilizando o teste Qui-quadrado, verifique se a área de interesse possuem relação com o sexo dos alunos.

Referências:

* A. Agresti (1996). An Introduction to Categorical Data Analysis. An Introduction to Categorical Data Analysis. John Wiley & Sons, Inc.
* [Tabela de Contingência - Profª Carla Silva da Silva](https://www.youtube.com/watch?v=eDBnyH0I1Lo)
* Pratical Statistics for Data Scientists
* [A Gentle Introduction to the Chi-Squared Test for Machine Learning](https://machinelearningmastery.com/chi-squared-test-for-machine-learning/)