# Dados Multivariados

Podemos representar a matriz de dados da seguinte forma:

$$ Y_{n \times p} = \begin{bmatrix}Y_{11} & \dots & Y_{1p} \\ \vdots & \ddots & \vdots \\ Y_{n1} & \dots & Y_{np} \end{bmatrix} $$

Amostras: $i = 1, \dots, n$

Parâmetros: $j = 1, \dots, p$

Deste modo, 

$$ Y_{ij} = \text{Resposta da i-ésima amostra para o j-ésimo parâmetro}  $$  


Um exemplo de dados:

In [8]:
require(datasets)
data(airquality)
head(airquality)

Ozone,Solar.R,Wind,Temp,Month,Day
41.0,190.0,7.4,67,5,1
36.0,118.0,8.0,72,5,2
12.0,149.0,12.6,74,5,3
18.0,313.0,11.5,62,5,4
,,14.3,56,5,5
28.0,,14.9,66,5,6


In [12]:
summary(airquality)

     Ozone           Solar.R           Wind             Temp      
 Min.   :  1.00   Min.   :  7.0   Min.   : 1.700   Min.   :56.00  
 1st Qu.: 18.00   1st Qu.:115.8   1st Qu.: 7.400   1st Qu.:72.00  
 Median : 31.50   Median :205.0   Median : 9.700   Median :79.00  
 Mean   : 42.13   Mean   :185.9   Mean   : 9.958   Mean   :77.88  
 3rd Qu.: 63.25   3rd Qu.:258.8   3rd Qu.:11.500   3rd Qu.:85.00  
 Max.   :168.00   Max.   :334.0   Max.   :20.700   Max.   :97.00  
 NA's   :37       NA's   :7                                       
     Month            Day      
 Min.   :5.000   Min.   : 1.0  
 1st Qu.:6.000   1st Qu.: 8.0  
 Median :7.000   Median :16.0  
 Mean   :6.993   Mean   :15.8  
 3rd Qu.:8.000   3rd Qu.:23.0  
 Max.   :9.000   Max.   :31.0  
                               

In [13]:
dim(airquality)

Neste caso,

Amostras: n = 153

Parâmetros: p = 6

# Estatísticas Descritivas

Média da j-ésima variável:

$$\bar{Y_{j}} = \frac{1}{n} \sum_{i=1}^n Y_{ij} = \frac{1}{n} (1'Y{.j})$$

Covariância entre variáveis j e j':

$$s_{jj'} = \frac{1}{n-1} \sum_{i=1}^n (Y_{ij}-\bar{Y_j})(Y_{ij'}-\bar{Y_{j'}})$$

Correlação entre as variáveis j e j':

$$r_{jj'} = \frac{s_{jj'}}{\sqrt{s_{jj}}\sqrt{s_{j'j'}}} = \frac{\sum_{i=1}^n (Y_{ij}-\bar{Y_j})(Y_{ij'}-\bar{Y_{j'}})}{\sqrt{\sum_{i=1}^n (Y_{ij}-\bar{Y_j})^2}\sqrt{\sum_{i=1}^n (Y_{ij'}-\bar{Y_{j'}})^2}}$$

- O valor de r deve ser entre -1 e 1

- r mede a força da associação linear (0 é fraco e 1 é forte). O sinal indica a direção da associação.

- O valor de $r_{jj'}$ não muda se as medidas da j-ésima variável mudam para $y_{ji} = ax_{ji}+b$ e os valores da j'-ésima variável muda para $y_{j'i} = cx_{j'i}+d$ para $i = 1,\dots,n$ dadas que as constantes $a$ e $c$ possuem o mesmo sinal.

- Covariância e correlação são muito sensíveis a outliers



In [17]:
medias = apply(airquality,2,mean, na.rm=T)
print(medias)

     Ozone    Solar.R       Wind       Temp      Month        Day 
 42.129310 185.931507   9.957516  77.882353   6.993464  15.803922 


In [22]:
covariancias = cov(airquality)
print(covariancias)

        Ozone Solar.R        Wind       Temp      Month         Day
Ozone      NA      NA          NA         NA         NA          NA
Solar.R    NA      NA          NA         NA         NA          NA
Wind       NA      NA  12.4115385 -15.272136 -0.8897532   0.8488519
Temp       NA      NA -15.2721362  89.591331  5.6439628 -10.9574303
Month      NA      NA  -0.8897532   5.643963  2.0065359  -0.0999742
Day        NA      NA   0.8488519 -10.957430 -0.0999742  78.5797214


In [25]:
correlacoes = cor(airquality)
print(correlacoes)

        Ozone Solar.R       Wind       Temp        Month          Day
Ozone       1      NA         NA         NA           NA           NA
Solar.R    NA       1         NA         NA           NA           NA
Wind       NA      NA  1.0000000 -0.4579879 -0.178292579  0.027180903
Temp       NA      NA -0.4579879  1.0000000  0.420947252 -0.130593175
Month      NA      NA -0.1782926  0.4209473  1.000000000 -0.007961763
Day        NA      NA  0.0271809 -0.1305932 -0.007961763  1.000000000
