# Dados Multivariados

Podemos representar a matriz de dados da seguinte forma:

$$ Y_{n \times p} = \begin{bmatrix}Y_{11} & \dots & Y_{1p} \\ \vdots & \ddots & \vdots \\ Y_{n1} & \dots & Y_{np} \end{bmatrix} $$

Amostras: $i = 1, \dots, n$

Parâmetros: $j = 1, \dots, p$

Deste modo, 

$$ Y_{ij} = \text{Resposta da i-ésima amostra para o j-ésimo parâmetro}  $$  


Um exemplo de dados, medidas do crânio de 7 raças de cachorros pré-históricos (Manly, 2005):

In [1]:
caes = read.table("MAE0330-Caes", sep=";", header = T)
head(caes)
dim(caes)

X1,X2,X3,X4,X5,X6
9.7,21.0,19.4,7.7,32.0,36.5
8.1,16.7,18.3,7.0,30.3,32.9
13.5,27.3,26.8,10.6,41.9,48.1
11.5,24.3,24.5,9.3,40.0,44.6
10.7,23.5,21.4,8.5,28.8,37.6
9.6,22.6,21.1,8.3,34.4,43.1


Neste caso,

Amostras: n = 7

Parâmetros: p = 6

# Estatísticas Descritivas

Média da j-ésima variável:

$$\bar{Y_{j}} = \frac{1}{n} \sum_{i=1}^n Y_{ij} = \frac{1}{n} (1'Y{.j})$$

Covariância entre variáveis j e j':

$$s_{jj'} = \frac{1}{n-1} \sum_{i=1}^n (Y_{ij}-\bar{Y_j})(Y_{ij'}-\bar{Y_{j'}})$$

Correlação entre as variáveis j e j':

$$r_{jj'} = \frac{s_{jj'}}{\sqrt{s_{jj}}\sqrt{s_{j'j'}}} = \frac{\sum_{i=1}^n (Y_{ij}-\bar{Y_j})(Y_{ij'}-\bar{Y_{j'}})}{\sqrt{\sum_{i=1}^n (Y_{ij}-\bar{Y_j})^2}\sqrt{\sum_{i=1}^n (Y_{ij'}-\bar{Y_{j'}})^2}}$$

Variância total de Y:

$$ V.T. = tr(Y) - \sum_{i=1}^n s_{ii} $$

Variância generalizada de Y:

$$ V.G. = |S| $$ 

- O valor de r deve ser entre -1 e 1

- r mede a força da associação linear (0 é fraco e 1 é forte). O sinal indica a direção da associação.

- O valor de $r_{jj'}$ não muda se as medidas da j-ésima variável mudam para $y_{ji} = ax_{ji}+b$ e os valores da j'-ésima variável muda para $y_{j'i} = cx_{j'i}+d$ para $i = 1,\dots,n$ dadas que as constantes $a$ e $c$ possuem o mesmo sinal.

- Covariância e correlação são muito sensíveis a outliers

No exemplo, 

Média para a variável $x_2$:

$$ \bar{Y}_{x_2} = \frac{21+16.7+27.3+24.3+23.5+22.6+22.1}{7} = 22.5$$

No R:

In [2]:
medias = apply(caes,2,mean, na.rm=T)
print(medias)

      X1       X2       X3       X4       X5       X6 
10.48571 22.50000 21.51429  8.50000 34.22857 39.68571 


O vetor "medias" pode ser descrito como o centróide de Y.

Covariância para as variáveis $x_2$ e $x_4$:

$$ s_{x_2x_4} = \frac{1}{7-1} \sum_{i=1}^7 (y_{ix_2}-22.5) (y_{ix_4}-8.5) = 3.59$$

No R:

In [3]:
covariancias = cov(caes)
print(covariancias)

         X1        X2        X3       X4        X5        X6
X1 2.881429  5.251667  4.846905 1.933333  6.527143  7.739762
X2 5.251667 10.556667  8.895000 3.593333 11.456667 15.583333
X3 4.846905  8.895000  9.611429 3.508333 13.427857 16.305238
X4 1.933333  3.593333  3.508333 1.356667  4.863333  5.920000
X5 6.527143 11.456667 13.427857 4.863333 24.362381 24.680476
X6 7.739762 15.583333 16.305238 5.920000 24.680476 31.518095


Correlação entre as variáveis $x_2$ e $x_4$:

$$ r_{x_2x_4} = \frac{\sum_{i=1}^7  (y_{ix_2}-22.5) (y_{ix_4}-8.5)}{\sqrt{\sum_{i=1}^7 (y_{ix_2}-22.5)^2} \sqrt{\sum_{i=1}^7 (y_{ix_4}-8.5)^2}} = 0.9495$$


In [4]:
correlacoes = cor(caes)
print(correlacoes)

          X1        X2        X3        X4        X5        X6
X1 1.0000000 0.9522036 0.9210148 0.9778365 0.7790392 0.8121639
X2 0.9522036 1.0000000 0.8830567 0.9495056 0.7143894 0.8543129
X3 0.9210148 0.8830567 1.0000000 0.9715615 0.8775116 0.9368136
X4 0.9778365 0.9495056 0.9715615 1.0000000 0.8459362 0.9053263
X5 0.7790392 0.7143894 0.8775116 0.8459362 1.0000000 0.8906636
X6 0.8121639 0.8543129 0.9368136 0.9053263 0.8906636 1.0000000
