# Estatística descritiva bivariada

A análise bivariada tem como objetivo, estudar as relações (associações para variáveis qualitativas e correlações para variáveis quantitativas) entre duas variáveis. As relações podem ser estudadas por meio da distribuição conjunta de frequências (tabelas de contingência ou de classificação cruzada - *cross-tabulation*), representações gráficas e por meio de medidas-resumo.

## Associação entre duas variáveis qualitativas

### Tabelas de distribuição conjunta de frequências

A forma mais simples de estudar a relação entre duas variáveis qualitativas é por meio de tabelas de distribuição conjunta de frequências, também chamada de tabela de contingência, tabela de classificação cruzada(*cross-tabulation*) ou, ainda, tabela de correspondência. A tabela de contingência é uma tabela de dupla entrada que apresenta as frequências conjuntas das categorias das duas variáveis.

Exemplo: um estudo foi realizado com 200 indivíduos com o intuito de analisar o comportamento conjunto da variável *Operadora de plano de saúde* com a variável *Nível de satisfação*. Verifique se há associação entre as categorias das duas variáveis.

In [1]:
import pandas as pd

DADOS = "./dados/plano_saude.csv"

df_saude = pd.read_csv(DADOS)

df_saude.head()

Unnamed: 0,operadora,satisfacao
0,Total Health,baixo
1,Total Health,baixo
2,Total Health,baixo
3,Total Health,baixo
4,Total Health,baixo


In [2]:
df_saude.tail()

Unnamed: 0,operadora,satisfacao
195,Mena Saúde,medio
196,Mena Saúde,alto
197,Mena Saúde,alto
198,Mena Saúde,alto
199,Mena Saúde,alto


In [3]:
df_saude.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   operadora   200 non-null    object
 1   satisfacao  200 non-null    object
dtypes: object(2)
memory usage: 3.3+ KB


In [4]:
df_saude.describe()

Unnamed: 0,operadora,satisfacao
count,200,200
unique,3,3
top,Viva Vida,baixo
freq,72,96


In [5]:
df_saude["operadora"] = df_saude["operadora"].astype("category")

ordem_satisfacao = ["baixo", "medio", "alto"]

df_saude["satisfacao"] = pd.Categorical(df_saude["satisfacao"], categories=ordem_satisfacao, ordered=True)

df_saude.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   operadora   200 non-null    category
 1   satisfacao  200 non-null    category
dtypes: category(2)
memory usage: 796.0 bytes


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html

In [6]:
pd.crosstab(df_saude["operadora"], df_saude["satisfacao"])

satisfacao,baixo,medio,alto
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mena Saúde,24,32,4
Total Health,40,16,12
Viva Vida,32,24,16


In [7]:
pd.crosstab(df_saude["operadora"], df_saude["satisfacao"], margins=True, margins_name="Total")

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,24,32,4,60
Total Health,40,16,12,68
Viva Vida,32,24,16,72
Total,96,72,32,200


In [8]:
pd.crosstab(
    df_saude["operadora"],
    df_saude["satisfacao"],
    margins=True,
    margins_name="Total",
    normalize="all"
)

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,0.12,0.16,0.02,0.3
Total Health,0.2,0.08,0.06,0.34
Viva Vida,0.16,0.12,0.08,0.36
Total,0.48,0.36,0.16,1.0


In [9]:
pd.crosstab(
    df_saude["operadora"],
    df_saude["satisfacao"],
    margins=True,
    margins_name="Total",
    normalize="all"
).style.format("{:.1%}")

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,12.0%,16.0%,2.0%,30.0%
Total Health,20.0%,8.0%,6.0%,34.0%
Viva Vida,16.0%,12.0%,8.0%,36.0%
Total,48.0%,36.0%,16.0%,100.0%


In [10]:
pd.crosstab(
    df_saude["operadora"],
    df_saude["satisfacao"],
    margins=True,
    margins_name="Total",
    normalize="index"
).style.format("{:.1%}")

satisfacao,baixo,medio,alto
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mena Saúde,40.0%,53.3%,6.7%
Total Health,58.8%,23.5%,17.6%
Viva Vida,44.4%,33.3%,22.2%
Total,48.0%,36.0%,16.0%


In [11]:
pd.crosstab(
    df_saude["operadora"],
    df_saude["satisfacao"],
    margins=True,
    margins_name="Total",
    normalize="columns"
).style.format("{:.1%}")

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,25.0%,44.4%,12.5%,30.0%
Total Health,41.7%,22.2%,37.5%,34.0%
Viva Vida,33.3%,33.3%,50.0%,36.0%


### Medidas de associação

As principais medidas que representam a associação entre duas variáveis qualitativas são:

a) a estatística qui-quadrado ($\chi^2$), utilizada para variáveis qualitativas *nominais* e *ordinais*;

b) o coeficiente Phi, o coeficiente de contingência e o coeficiente V de Cramer, aplicados para variáveis *nominais* e baseados no qui-quadrado;

c) o coeficiente de Spearman para variáveis *ordinais*.

#### Estatística qui-quadrado

A estatística qui-quadrado ($\chi^2$) é uma medida de associação entre duas variáveis qualitativas. Mede a diferença entre as frequências observadas e as frequências esperadas, sob a hipótese nula de independência entre as variáveis. Se a distribuição conjunta de frequências for muito diferente da distribuição esperada, a estatística qui-quadrado será grande e o valor-p associado será pequeno, indicando que as variáveis não são independentes. Assim, um valor baixo de $\chi^2$ indica que as variáveis são independentes, enquanto um valor alto indica que as variáveis são dependentes.

A estatística qui-quadrado é dada por:

$$
\chi^2 = \sum\limits_{i=1}^{I} \sum\limits_{j=1}^{J} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$

em que:

- $O_{ij}$ é a frequência observada na célula $ij$;
- $E_{ij}$ é a frequência esperada na célula $ij$;
- $I$ é o número de linhas da tabela de contingência;
- $J$ é o número de colunas da tabela de contingência.

Com base no valor de $\chi^2$, realiza-se o seguinte teste:

- Hipótese nula $H_0$: as variáveis se associam de forma aleatória
- Hipótese não nula $H_1$: a associação entre as variáveis não se dá de forma aleatória

Teremos uma parte do curso especialmente dedicada a testes de hipóteses mais adiante. Por enquanto, vamos focar no resultado prático. Abaixo, uma breve descrição dos conceitos necessários, que serão expandidos mais adiante no curso.

##### Hipótese Nula e Hipótese Alternativa

No campo da estatística, quando realizamos um teste estatístico, formulamos duas hipóteses: a **hipótese nula (H₀)** e a **hipótese alternativa (H₁ ou Ha)**.

- **Hipótese Nula (H₀):** É uma afirmação ou suposição inicial que se presume verdadeira até que evidências estatísticas indiquem o contrário. Geralmente, a hipótese nula afirma que não há efeito ou diferença significativa entre os grupos ou condições que estão sendo comparados. Por exemplo, ao testar a eficácia de um novo medicamento, a hipótese nula poderia ser "o novo medicamento não tem efeito diferente de um placebo".

- **Hipótese Alternativa (H₁ ou Ha):** É a afirmação oposta à hipótese nula. Ela sugere que há um efeito ou diferença significativa. No mesmo exemplo do medicamento, a hipótese alternativa seria "o novo medicamento tem um efeito diferente de um placebo".

##### Valor p

O **valor p** é uma medida utilizada para ajudar a decidir se faz sentido rejeitar a hipótese nula. Ele representa a probabilidade de obtermos um resultado tão extremo quanto o observado, assumindo que a hipótese nula seja verdadeira (e todas as considerações a respeito do modelo estatístico). Em termos simples, o valor p nos diz o quão compatíveis nossos dados são com a hipótese nula.

- Um valor p baixo indica que os dados observados são pouco prováveis sob a hipótese nula, sugerindo que devemos considerar rejeitar a hipótese nula em favor da hipótese alternativa.
- Um valor p alto indica que os dados observados são compatíveis com a hipótese nula, e, portanto, não temos evidências suficientes para rejeitá-la.

O valor p pode ser visto como uma medida contínua de compatibilidade entre os dados e todo o modelo usado para calculá-lo, variando de 0 (completa incompatibilidade) até 1 (perfeita compatibilidade). Nesse sentido, pode ser visto como uma medida do fit (ajuste) do modelo aos dados.

##### Nível de Significância

O **nível de significância (α)** é um limiar predefinido que usamos para decidir se iremos ou não rejeitar a hipótese nula e o modelo subjacente. Ele representa a probabilidade máxima que estamos dispostos a aceitar de cometer um erro do Tipo I (rejeitar a hipótese nula, e o modelo subjacente, quando ela se ajusta bem aos dados).

- O nível de significância comum é α = 0,05, o que significa que estamos dispostos a aceitar um risco de 5% de cometer um erro ao rejeitar a hipótese nula.
- Se o valor p for menor que α, rejeitamos a hipótese nula. Se for maior ou igual a α, não rejeitamos a hipótese nula.

##### Resumo

- **Hipótese Nula (H₀):** A suposição inicial que não há efeito ou diferença.
- **Hipótese Alternativa (H₁):** A suposição contrária à hipótese nula, indicando a presença de um efeito ou diferença.
- **Valor p:** A probabilidade de obter os dados observados, assumindo que a hipótese nula seja verdadeira.
- **Nível de Significância (α):** O limiar para decidir se devemos rejeitar a hipótese nula, geralmente definido como 0,05.


Supondo que não houvesse associação entre as variáveis, seria esperada a proporção de 48% em relação ao total da linha para as três operadoras no nível de satisfação baixo, 36% para o nível médio e 16% para o nível alto.

In [12]:
pd.crosstab(df_saude["operadora"], df_saude["satisfacao"], margins=True, margins_name="Total")

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,24,32,4,60
Total Health,40,16,12,68
Viva Vida,32,24,16,72
Total,96,72,32,200


In [13]:
pd.crosstab(
    df_saude["operadora"],
    df_saude["satisfacao"],
    margins=True,
    margins_name="Total",
    normalize="all"
).style.format("{:.1%}")

satisfacao,baixo,medio,alto,Total
operadora,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mena Saúde,12.0%,16.0%,2.0%,30.0%
Total Health,20.0%,8.0%,6.0%,34.0%
Viva Vida,16.0%,12.0%,8.0%,36.0%
Total,48.0%,36.0%,16.0%,100.0%


In [15]:
from scipy.stats import chi2_contingency

resultado = chi2_contingency(
    pd.crosstab(df_saude["operadora"], df_saude["satisfacao"])
)

resultado

Chi2ContingencyResult(statistic=np.float64(15.860566448801741), pvalue=np.float64(0.003212084698153722), dof=4, expected_freq=array([[28.8 , 21.6 ,  9.6 ],
       [32.64, 24.48, 10.88],
       [34.56, 25.92, 11.52]]))

In [16]:
type(resultado)

scipy.stats.contingency.Chi2ContingencyResult

In [None]:
resultado.statistic #qui quadrado

np.float64(15.860566448801741)

In [20]:
resultado.expected_freq

array([[28.8 , 21.6 ,  9.6 ],
       [32.64, 24.48, 10.88],
       [34.56, 25.92, 11.52]])

In [21]:
esperado = resultado.expected_freq

esperado

array([[28.8 , 21.6 ,  9.6 ],
       [32.64, 24.48, 10.88],
       [34.56, 25.92, 11.52]])

In [22]:
df_esperados = pd.DataFrame(
    esperado,
    index=df_saude["operadora"].cat.categories,
    columns=df_saude["satisfacao"].cat.categories
) 

df_esperados

Unnamed: 0,baixo,medio,alto
Mena Saúde,28.8,21.6,9.6
Total Health,32.64,24.48,10.88
Viva Vida,34.56,25.92,11.52


In [23]:
resultado.pvalue

np.float64(0.003212084698153722)