# Análise de Componentes Principais (PCA)

Grandes quantidade de variáveis explicativas são cada vez mais comuns, porém quanto maior a quantidade de varáveis, mais díficil é interpretar a solução. A análise de componentes principais (Principal Component Analysis, PCA) é uma técnica para reduzir a dimensionalidade desses conjuntos de dados, aumentando a interpretabilidade e ao mesmo tempo minimizando a perda de informações. Isso é feito criando novas variáveis não correlacionadas presevam  o máximo de variabilidade possível. Preservar o máximo de variabilidade possível, se traduz em encontrar novas variáveis que são funções lineares daquelas no conjunto de dados original.


Em regressão linear, geralmente determinamos a linha de melhor ajuste ao conjunto de dados, mas aqui no PCA, determinamos várias linhas ortogonais entre si no espaço n-dimensional, de melhor ajuste ao conjunto de dados. Ortogonal significa que essas linhas estão em ângulo reto entre si. O número de dimensões será o mesmo que o número de variáveis. Por exemplo, um conjunto de dados com 3 variáveis terá espaço tridimensional. 

A análise de componentes principais é essencialmente apenas uma transformação de coordenadas. Considerando dados bidimencionais, por exemplo, os dados originais são plotados em um eixo X' e um eixo Y'. O método de PCA procura girar esses dois eixos para que o novo eixo X fique ao longo da direção da variação máxima nos dados. Como a técnica exige que os eixos sejam perpendiculares, em duas dimensões, a escolha de X' determinará Y'. Você obtém os dados transformados lendo os valores x e y deste novo conjunto de eixos, X 'e Y'. Para mais de duas dimensões, o primeiro eixo está na direção da maior da variação; o segundo, na direção da segunda maior variação; e assim por diante.


## Procedimento para uma análise de componentes principais

Considere a matriz $X_{n \times p}$ composta por observações de $p$ características de $n$ indivíduos de uma população. As características observadas são representadas pelas variáveis $X_1, X_2, X_3, \cdots, X_p$.



\begin{equation}
  X = \left [ \begin{array}{ccccc}
x_{11} & x_{12} & x_{13} & \cdots & x_{1p}\\ 
x_{21} & x_{22} & x_{23} & \cdots & x_{2p}\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
x_{n1} & x_{n2} & x_{n3} & \cdots & x_{np}\\ 
   \end{array} \right ] 
\end{equation}


**Passo 1**:
Para dados em que as variáveis $X_i$ então em escalas diferentes (por exemplo $X_1$ representa o valor de um carro e $X_2$ o consumo de gasolina), é necessário paronizar os dados. Isso porque os componentes são influenciados pela escala das variáveis, justamente porque as matrizes de covariâncias, $\Sigma$ ou $\hat{\Sigma} = S$,são sensíveis à escala de um par de variáveis. Considere  $\bar{x_j}$  a média da variável $X_j$; $s(X_j)$ o desvio padrão de $X_j$;  $i = 1, 2,3,4,\cdots, n$ e  $j = 1, 2,3,4,\cdots, p$, há duas formas de padronização a serem consideradas: 

- Média 0 e desvio padrão 1: 

$$ x'_{ij}= \frac{x_{ij}-\bar{X_j}}{s(X_j)} $$ 

- Média qualquer e desvio padrão 1:

$$ x'_{ij}= \frac{x_{ij}}{s(X_j)} $$ 

<br>

**Passo 2**:
Calcular a matriz de **covariância** ou **correlação**. Caso as variáveis estejam em escalas diferentes, é possível calcular a matriz de correlação nos dados originais. Esta possibilidade se deve ao fato de que a matriz de covariâncias das variáveis padronizadas é igual a matriz de correlação das variáveis originais. 

\begin{equation}
  S = \left [ \begin{array}{ccccc}
\hat{Var}(x_1) & \hat{Cov}(x_1x_2) & \hat{Cov}(x_1x_3) & \cdots & \hat{Cov}(x_1x_p)\\ 
\hat{Cov}(x_2x_1) &\hat{Var}(x_2)& \hat{Cov}(x_2x_3) & \cdots & \hat{Cov}(x_2x_p)\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
\hat{Cov}(x_px_1) & \hat{Cov}(x_px_2)  & \hat{Cov}(x_px_3)  & \cdots & \hat{Var}(x_p)\\ 
   \end{array} \right ] 
\end{equation}

<br>
<br>

\begin{equation}
  R = \left [ \begin{array}{ccccc}
1 & r(x_1x_2) & r(x_1x_3) & \cdots & r(x_1x_p)\\ 
r(x_2x_1) & 1 & r(x_2x_3) & \cdots & r(x_2x_p)\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
r(x_px_1) & r(x_px_2)  & r(x_px_3)  & \cdots & 1\\ 
   \end{array} \right ] 
\end{equation}

Em que:

\begin{equation}
 \begin{array}{ccc}
\hat{Var}(x_j) = \frac{\sum_{i=1}^{n}(x_{ij}-\bar{x}_j}{n-1}, & 
\hat{Cov}(x_{j1},x_{j2}) = \frac{\sum_{i=1}^n(x_{ij1}-\bar{x_{j1}})(x_{ij2}-\bar{x_{j2}})}{n-1}, &
r(x_{j1},x_{j2}) = \frac{\hat{Cov}(x_{j1},x_{j2})}{S_{xj1}S_{xj2}}
   \end{array} 
\end{equation}

<br>

**Passo 3**:
As componentes principais são determinadas através da equação característica da matriz S ou R:

$$det[R - \lambda I]= 0 $$

Em que $I$ é a matriz identidade de dimensão $p\times p$. 

Se R ou S tem posto completo igual a $p$, então $det[R - \lambda I]= 0$, que pode ser reescrito como $\mid R - \lambda I \mid = 0$, terá $p$ soluções. Lembrando que ter posto completo significa que nenhuma coluna é combinação linear de outra.

Considere que $\lambda_1,\lambda_2,\lambda_3, \cdots, \lambda_p$ sejam as raízes da equação característica de R ou S, então temos que  $\lambda_1 > \lambda_2 > \lambda_3 > \cdots, \lambda_p$. Chamamos $\lambda_i$ de autovalor. Além disso, para cada autovalor há um autovetor $\tilde{a}_i$ associado.

\begin{equation}
  \tilde{a}_i = \left [ \begin{array}{c}
a_{i1}\\ 
a_{i2}\\ 
\vdots \\
a_{ip} \\ 
   \end{array} \right ] 
\end{equation}

O cálculo do autovetor $\tilde{a}_i$, pode ser realizado considerando a seguinte propriedade:

$$ R\tilde{a}_i =  \lambda_i \tilde{a}_i $$

Este resultado deve ser normalizados:

$$ a_i = \frac{\tilde{a}_i }{\mid \tilde{a}_i  \mid}$$

desta forma  soma dos quadrados dos coeficientes é igual a 1 e são ortogonais entre si. 

<br>

**Passo 4**:
O cálculo da i-ésima componente principal é dado por:

$$Z_i = a_{i1}X_1 + a_{i2}X_2 + a_{i3}X_3 + \cdots + a_{ip}X_p $$

em que $a_{i1}$ são as componetes do autovetor $a_i$ associado ao autovalor $\lambda_i$.

## Propriedades de PCA

- A variância do componente principal $Z_i$ é igual ao valor do autovalor $\lambda_i$
$$ \hat{Var}(Z_i) = \lambda_i $$ 



- O primeiro componente é o que apresenta maior variância e assim por diante
$$  \hat{Var}(Z_1) >  \hat{Var}(Z_2) >  \hat{Var}(Z_3) > \cdots  > \hat{Var}(Z_p)$$


-  O total de variância das variáveis originais é igual ao somatório dos autovalores que é igual ao total de variância dos componentes principais:

$$ \sum_{i=1}^{p} \hat{Var}(X_i) = \sum_{i=1}^{p} \lambda_i = \sum_{i=1}^{p} \hat{Var}(Z_i) $$



- Os componentes principais não são correlacionados entre si:
$$ \hat{Cov}(Z_{j1},Z_{j2})=0$$


- A contribuição Ci de cada componenete principal $Z_i$ é expressa em porcentagem. É calculada dividindo-se a variância de $Z_i$ pela varância total. Representa a proporção de variância total explicada pelo componenete principal $Z_i$.

$$ C_i = \frac{\lambda_i}{\sum_{i=1}^{p} \lambda_i }$$


## Interpretação das componentes

Por fim, pode-se verificar o grau de influência que cada variável $X_j$ tem sobre a componente $Z_i$. O grau de influência é dado pela corelação entre cada $X_j$ e o componente $Z_i$ que está sendo interpretado. Por exemplo a correlação entre $X_j$ e $Z_1$ é:

$$ \hat{Cov}(X_{j},Z_{1})= \lambda_1 \frac{a_{1j}}{\sqrt{ \hat{Var}(X_j)}}$$

Para comparar a influência de $X_1, X_2, \cdots, X_p$ sobre $Z_1$ análisamos o peso de cada variável sobre o componente $Z_1$. O peso de cada variável sobre um determinado componente é dado por:

$$w_i=\frac{a_{1j}}{\sqrt{ \hat{Var}(X_j)}} $$

# Análise Discriminante Linear (LDA)

A Análise Discriminante Linear é uma técnica que visa transformar as observações multivariadas, por meio de combinações lineares dessas variáveis, em observações univariadas de tal forma que as variáveis transformadas se apresentassem o mais separadas possível. Portanto, a análise discriminante é uma técnica de análise multivariada utilizada para diferenciar ou discriminar populações e classificar ou alocar indivíduos em populações pré-definidas. 

Vale ressaltar que esta técnica também pode ser usada apenas para reduzir a dimensionalidade. Por ser usada para modelar diferenças em grupos, ou seja, separar duas ou mais classes, ao ser usada como redutora de dimensionalidade, a transformação linear garante que no novo espaço as classes terão máxima separabilidade.


## Procedimento de análise


Suponha que se tenha uma base de dados com $p$ varáveis explicativas e variável resposta categórica $Y$ com duas possíveis classes. A análise LDA busca obter um escalar $z$ através da projeção sas amostras $X$ em uma reta $z = w^{𝑇}𝑥$, de forma que, de todas as  possíveis retas, gostaríamos de selecionar a que maximiza a separabilidade dos escalares (conforme imagem abaixo). Para encontrar um bom vetor de projeção, precisamos definir uma medida de separação.

![](lda.png)

Para simplificar, vamos considerar o caso em que $Y$ possui duas classes($a$ e $b$), lembrando que a generalização é valida para variáveis resposta com maior quantidades de categorias. No cálculo usaremos o conceito de discriminante linear de Fisher.


**Passo 1**:
Considere que o conjunto de dados possa ser separado em dois grupos: grupo A em que observações em que $Y=a$ e grupo B em que observações em que $Y=b$.

**Passo 2**:
Cálculo da média das variáveis $X_i$ para cada grupo.


\begin{equation}
\begin{array}{cc}
\hat{\mu}_a = \bar{x}_a = 
 \left [ \begin{array}{c}
X_{1 \mid Y=a}\\ 
X_{2 \mid Y=a}\\ 
\vdots \\
X_{p \mid Y=a}\\ 
   \end{array} \right ],  & 
 \hat{\mu}_b = \bar{x}_b = 
 \left [ \begin{array}{c}
X_{1 \mid Y=b}\\ 
X_{2 \mid Y=b}\\ 
\vdots \\
X_{p \mid Y=b}\\ 
   \end{array} \right ] 
  \end{array}
\end{equation}


**Passo 3**:
Para maximizar a diferença entre as médias, calculamos a medida da dispersão dentro de cada grupo $k \in \{a,b\}$, isto é a variância:

$$S_{k} = \frac{\sum_{i=1}^{n_k}(x_{ij} -\bar{X}_j)^2 }{n_k-1} $$

em que $n_k$ é a quantidade de onbervações tal que $Y=k \mid k \in  \{a,b\}$


**Passo 4**: 
Considere dispersão total dentro das classes:

$$S = \frac{(n_a-1)S_a + (n_b-1)S_b }{n_a+n_b-2} $$


**Passo 5**:
A transformação linear que maximiza a separação entre $a$ e $b$ é dada por:

$$ Z = (\bar{x}_a - \bar{x}_b)^{T}S^{-1}$$

Note que D é um vetor de dimensão $p\times1$.

**Passo 6**:
Ao longo da reta $Z$, o ponto médio entre as médias dos dois grupos é dado por:

$$ m= \frac{1}{2}(\bar{x}_a - \bar{x}_b)^{T}S^{-1} (\bar{x}_a + \bar{x}_b) $$

Se o objetiivo for classificar uma observação $x_0$, então se ao aplicar os valores de $x_0$ na equação do passo 5 e obter $Z_0 \geq m $, então a observação pertence ao grupo $a$, caso contrário pertence ao grupo $b$