# 5 - Variáveis Bidimensionais

## Introdução
- Interesse no comportamento conjunto de várias variáveis.
- Construção de tabelas de frequência conjunta ou função de probabilidade conjunta.
- O principal objetivo é explorar relações (similaridades) entre as colunas (ou linhas).
- Determinar se existe **associação** entre as variáveis.
- Podemos ter três situações:
1. Duas variáveis qualitativas
2. Duas variáveis quantitativas
3. Uma variável qualitativa e outra quantitativa

- Em todas as situações o objetivo é encontrar as possı́veis **relações** ou **associações** entre as duas variáveis
- Essas relações podem ser detectadas por meio de **métodos gráficos** ou **medidas numéricas**
- Para efeitos práticos: existe associação se existe uma **mudança** no comportamento de uma variável na presença de outra

Exemplo:
1. Frequência esperada de pessoas com mais de 170 cm de altura
2. Frequência esperada de pessoas com mais de 170 cm de altura por sexo

- Se a resposta for a mesma, dizemos que não há associação

## Exemplo 5.1
Uma amostra de 20 alunos do primeiro ano de uma faculdade foi escolhida. Perguntou-se aos alunos se trabalhavam, variável que foi
representada por X , e o número de vestibulares prestados, variável representada por Y . Os dados obtidos estão na tabela abaixo.
|     | 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   | 10  | 11  | 12  | 13  | 14  | 15  | 16  | 17  | 18  | 19  | 20  |
|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| X   | não | sim | não | não | não | sim | sim | não | sim | sim | não | não | sim | não | sim | não | não | não | sim | não |
| Y   | 1   | 1   | 2   | 1   | 1   | 2   | 3   | 1   | 1   | 1   | 2   | 2   | 1   | 3   | 2   | 2   | 2   | 1   | 3   | 2   |



Distribuição conjunta

| (X,Y) | Freq |
|---|---:|
| não,1 | 5 |
| não,2 | 6 |
| não,3 | 1 |
| sim,1 | 4 |
| sim,2 | 2 |
| sim,3 | 2 |
| Sum | 20 |


Distribuição conjunta: **tabela de dupla entrada** (melhor para visualizar)

| X/Y | 1 | 2 | 3 | Sum |
|-----:|---:|---:|---:|----:|
| não | 5 | 6 | 1 | 12 |
| sim | 4 | 2 | 2 | 8 |
| Sum | 9 | 8 | 3 | 20 |

Distribuição **marginal** de X

| não | sim | Sum |
|----:|----:|----:|
| 12 | 8 | 20 |

Distribuição **marginal** de Y

| 1 | 2 | 3 | Sum |
|---:|---:|---:|----:|
| 9 | 8 | 3 | 20 |


## VAs discretas: função de probabilidade conjunta

Sejam X e Y **duas VAs discretas** originárias do mesmo
fenômeno aleatório, com valores atribuídos a partir do mesmo espaço
amostral.

A **função de probabilidade conjunta** é definida, para todos os
possíveis pares de valores (X,Y), da seguinte forma:

$ p(x,y) = P[(X=x)\cap(Y=y)] = P(X=x,Y=y).$

Ou seja, p(x,y) representa a probabilidade de (X,Y) ser igual a (x,y).

A função de probabilidade conjunta também pode ser chamada de
**distribuição conjunta** ou simplesmente **conjunta** das
variáveis.

## Funções de probabilidade marginal

Da função de probabilidade conjunta p(x,y), é possível então obter
as **funções de probabilidade marginais** de X e Y, através da soma de uma das coordenadas:

$$
P(X = x) = \sum_{y} p(x,y) \quad \text{e} \quad
P(Y = y) = \sum_{x} p(x,y)
$$

com o somatório percorrendo todos os valores de X ou Y, conforme for o caso.

## Associação entre variáveis
- Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis, é descrever a **associação** entre elas
- Queremos conhecer o grau de **dependência**, para prever melhor o resultado de uma delas quando conhecemos a outra
- Veremos algumas formas de medir/avaliar essa dependência:
1. Duas variáveis quantitativas
    * Diagramas de dispersão
    * Probabilidades condicionais
    * Correlação e covariância
2. Duas variáveis qualitativas
    * Verificação de proporções através da distribuição conjunta
    * Medida $Q^2$

In [None]:
# HIDE CODE
# Gerato com chatgpt a partir da figura da apresentação
import matplotlib.pyplot as plt

# ---------------------------------------
# 1) Data extracted from the image
# ---------------------------------------

# Inglês (I) vs Português (P)
# Columns: P = 6,7,8,9
# Rows:    I = 7,8,9,10
I_P_x = []
I_P_y = []
table_IP = [
    [1,0,2,1],  # I=7
    [2,3,1,1],  # I=8
    [0,0,2,1],  # I=9
    [0,0,1,0]   # I=10
]
P_vals = [6,7,8,9]
I_vals = [7,8,9,10]

for i_idx, Ival in enumerate(I_vals):
    for j_idx, Pval in enumerate(P_vals):
        count = table_IP[i_idx][j_idx]
        for _ in range(count):
            I_P_x.append(Ival)
            I_P_y.append(Pval)

# Português (P) vs Matemática (M)
# Columns: M = 4,5,6,7
# Rows:    P = 6,7,8,9
P_M_x = []
P_M_y = []
table_PM = [
    [0,1,2,0],  # P=6
    [1,1,0,1],  # P=7
    [0,5,0,1],  # P=8
    [0,1,2,0]   # P=9
]
P_vals = [6,7,8,9]
M_vals = [4,5,6,7]

for i_idx, Pval in enumerate(P_vals):
    for j_idx, Mval in enumerate(M_vals):
        count = table_PM[i_idx][j_idx]
        for _ in range(count):
            P_M_x.append(Pval)
            P_M_y.append(Mval)

# Inglês (I) vs Matemática (M)
# Columns: M = 4,5,6,7
# Rows:    I = 7,8,9,10
I_M_x = []
I_M_y = []
table_IM = [
    [0,2,1,1],  # I=7
    [1,3,2,1],  # I=8
    [0,2,1,0],  # I=9
    [0,1,0,0]   # I=10
]

I_vals = [7,8,9,10]
M_vals = [4,5,6,7]

for i_idx, Ival in enumerate(I_vals):
    for j_idx, Mval in enumerate(M_vals):
        count = table_IM[i_idx][j_idx]
        for _ in range(count):
            I_M_x.append(Ival)
            I_M_y.append(Mval)

# ---------------------------------------
# 2) Plot all three scatter plots
# ---------------------------------------

fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Scatter 1: Inglês vs Português
axes[0].scatter(I_P_x, I_P_y, alpha=0.7)
axes[0].set_title("Inglês vs Português")
axes[0].set_xlabel("Inglês")
axes[0].set_ylabel("Português")
axes[0].set_xticks(I_vals)

# Scatter 2: Português vs Matemática
axes[1].scatter(P_M_x, P_M_y, alpha=0.7, color="orange")
axes[1].set_title("Português vs Matemática")
axes[1].set_xlabel("Português")
axes[1].set_ylabel("Matemática")
axes[1].set_xticks(P_vals)

# Scatter 3: Inglês vs Matemática
axes[2].scatter(I_M_x, I_M_y, alpha=0.7, color="green")
axes[2].set_title("Inglês vs Matemática")
axes[2].set_xlabel("Inglês")
axes[2].set_ylabel("Matemática")
axes[2].set_xticks(I_vals)

plt.tight_layout()
plt.show()


## Probabilidade condicional para VAs discretas


- A **probabilidade condicional* de $X = x$, dado que $Y = y$
  ocorreu, é dada pela expressão:
  
  $P(X = x | Y = y) = \frac{P(X=x,Y=y)}{P(Y=y)},
  \quad \text{se} \quad P(Y=y) > 0.$ 

- Duas VAs discretas são \textbf{independentes}, se a ocorrência de
  qualquer valor de uma delas não altera a probabilidade de valores da
  outra. Em termos matemáticos 
  
  $P(X = x | Y = y) = P(X = x)$.

- Definição alternativa

$P(X =x, Y = y) = P(X=x)P(Y=y), \quad \forall (x,y)$.

## Exemplo 5.9

Em uma clínica médica foram coletados dados em 150 pacientes, referentes
ao último ano. Observou-se a \emph{ocorrência de infecções urinárias}
(\(U\)) e o \emph{número de parceiros sexuais} (\(N\)).

Em uma clínica médica foram coletados dados em 150 pacientes, referentes
ao último ano. Observou-se a ocorrência de infecções urinárias
(U) e o número de parceiros sexuais (N).

| U/N  |  0 |  1 | 2 + | Total |
|------:|---:|---:|----:|------:|
| Sim   | 12 | 21 | 47  | 80    |
| Não   | 45 | 18 | 7   | 70    |
| Total | 57 | 39 | 54  | 150   |

Estude a associação entre U e N.

- Ao invés de trabalharmos com as frequências absolutas, podemos construir tabelas com as frequências relativas, mas aqui existem três
possibilidades para expressar as proporções:
1. em relação ao total geral
2. em relação ao total de cada linha
3. em relação ao total de cada coluna
- A escolha depende do objetivo do estudo, mas não altera a conclusão

- Tabela com porcentagens em relação ao total de coluna.


| U/N  |    0 |    1 |  2 + | Total |
|:-----|----:|----:|----:|------:|
| Sim  | 21,1% | 53,8% | 87,0% | 53,3% |
| Não  | 78,9% | 46,2% | 13,0% | 46,7% |
| Total| 100%  | 100%  | 100%  | 100%  |

- Independente de N, a porcentagem de pessoas com infecção é 53,3\% (46,7\% sem infecção).
- Caso não exista associação de U com N, deverı́amos esperar porcentagens similares em cada valor de N (independência).
- Analisar os percentuais em relação ao total das linhas levaria à mesma conclusão.

Podemos quantificar as diferenças entre as **frequências
observadas** ($o_{ij}$), e as **frequências esperadas**
($e_{ij}$) através de

$Q^2 = \sum_{i,j} \frac{(o_{ij} - e_{ij})^2}{e_{ij}}$

Se as frequências esperadas fossem muito próximas das observadas, esperaríamos que esse valor fosse próximo de zero.

Como o valor é relativamente alto, há uma indicação de que as duas variáveis são dependentes.

## Correlação entre variáveis num conjunto de dados}

-  Considere um conjunto de dados com n pares de valores para as variáveis X e Y. O coeficiente de correlação mede a
  dependência linear entre as variáveis e é calculado por

$\rho_{XY} = \frac{\sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{[\sum_{j=1}^n(x_j - \bar{x})^2][\sum_{j=1}^n(y_j - \bar{y})^2] ]}}$.

- Formula mais conveniente para cálculos

$\rho_{XY} = \frac{\sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}}{\sqrt{[\sum_{j=1}^n x_j^2 - n \bar{x}^2] [\sum_{j=1}^n y_j^2 - n \bar{y}^2]  }}$.

Note que $-1 \leq \rho_{XY} \leq 1$.

-Observação: $\rho_{XY} = 0$ não indica independência.

## Propriedades de esperança de VAs
Para podermos definir medidas de dependência entre VAs discretas, precisamos das seguintes propriedades de esperança de VAs.

_Valor esperado da soma de VAs_

Para variáveis aleatórias X e Y , vale sempre que

E(X + Y) = E (X) + E (Y)

Para \(X\) e \(Y\) variáveis aleatórias discretas **independentes**, 

E(XY) = E(X)E(Y)

X e Y independentes $\Rightarrow E(XY) = E(X)E(Y)$

No entanto: 

$E(XY) = E(X)E(Y) \not\Rightarrow$ X e Y independentes.

## Covariância de duas VAs

Uma medida de dependência linear entre X e Y é a covariância:

$Cov(X, Y) = \sigma_{XY} = E[(X-\mu_X)(Y-\mu_y)]$.

Uma forma alternativa (mais fácil de calcular) é: 

$Cov(X, Y) = \sigma_{XY} = E(XY) - E(X)E(Y)$

_Variância da soma de duas VAs_

$Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X,Y)$

## Correlação de duas VAs

O **coeficiente de correlação** entre as VAs discretas X e Y é calculado por:

$\rho_{XY} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}$

- A divisão pelo produto dos desvios padrão serve para padronizar a medida

- Permite comparação entre quaisquer outras variáveis, pois
$-1 \leq \rho_{XY} \leq 1$

- Valores mais próximos de $\pm 1$ indicam correlação forte

## Prática complementar OPCIONAL

Código python: [![Abra com Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/ridasilva/bioestatisca/blob/master/capitulos/chap5/chap5.ipynb)

## Bibliografia

```{bibliography}
```