# An√°lise de Componentes Principais (PCA)

Grandes quantidade de vari√°veis explicativas s√£o cada vez mais comuns, por√©m quanto maior a quantidade de var√°veis, mais d√≠ficil √© interpretar a solu√ß√£o. A an√°lise de componentes principais (Principal Component Analysis, PCA) √© uma t√©cnica para reduzir a dimensionalidade desses conjuntos de dados, aumentando a interpretabilidade e ao mesmo tempo minimizando a perda de informa√ß√µes. Isso √© feito criando novas vari√°veis n√£o correlacionadas presevam  o m√°ximo de variabilidade poss√≠vel. Preservar o m√°ximo de variabilidade poss√≠vel, se traduz em encontrar novas vari√°veis que s√£o fun√ß√µes lineares daquelas no conjunto de dados original.


Em regress√£o linear, geralmente determinamos a linha de melhor ajuste ao conjunto de dados, mas aqui no PCA, determinamos v√°rias linhas ortogonais entre si no espa√ßo n-dimensional, de melhor ajuste ao conjunto de dados. Ortogonal significa que essas linhas est√£o em √¢ngulo reto entre si. O n√∫mero de dimens√µes ser√° o mesmo que o n√∫mero de vari√°veis. Por exemplo, um conjunto de dados com 3 vari√°veis ter√° espa√ßo tridimensional. 

A an√°lise de componentes principais √© essencialmente apenas uma transforma√ß√£o de coordenadas. Considerando dados bidimencionais, por exemplo, os dados originais s√£o plotados em um eixo X' e um eixo Y'. O m√©todo de PCA procura girar esses dois eixos para que o novo eixo X fique ao longo da dire√ß√£o da varia√ß√£o m√°xima nos dados. Como a t√©cnica exige que os eixos sejam perpendiculares, em duas dimens√µes, a escolha de X' determinar√° Y'. Voc√™ obt√©m os dados transformados lendo os valores x e y deste novo conjunto de eixos, X 'e Y'. Para mais de duas dimens√µes, o primeiro eixo est√° na dire√ß√£o da maior da varia√ß√£o; o segundo, na dire√ß√£o da segunda maior varia√ß√£o; e assim por diante.


## Procedimento para uma an√°lise de componentes principais

Considere a matriz $X_{n \times p}$ composta por observa√ß√µes de $p$ caracter√≠sticas de $n$ indiv√≠duos de uma popula√ß√£o. As caracter√≠sticas observadas s√£o representadas pelas vari√°veis $X_1, X_2, X_3, \cdots, X_p$.



\begin{equation}
  X = \left [ \begin{array}{ccccc}
x_{11} & x_{12} & x_{13} & \cdots & x_{1p}\\ 
x_{21} & x_{22} & x_{23} & \cdots & x_{2p}\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
x_{n1} & x_{n2} & x_{n3} & \cdots & x_{np}\\ 
   \end{array} \right ] 
\end{equation}


**Passo 1**:
Para dados em que as vari√°veis $X_i$ ent√£o em escalas diferentes (por exemplo $X_1$ representa o valor de um carro e $X_2$ o consumo de gasolina), √© necess√°rio paronizar os dados. Isso porque os componentes s√£o influenciados pela escala das vari√°veis, justamente porque as matrizes de covari√¢ncias, $\Sigma$ ou $\hat{\Sigma} = S$,s√£o sens√≠veis √† escala de um par de vari√°veis. Considere  $\bar{x_j}$  a m√©dia da vari√°vel $X_j$; $s(X_j)$ o desvio padr√£o de $X_j$;  $i = 1, 2,3,4,\cdots, n$ e  $j = 1, 2,3,4,\cdots, p$, h√° duas formas de padroniza√ß√£o a serem consideradas: 

- M√©dia 0 e desvio padr√£o 1: 

$$ x'_{ij}= \frac{x_{ij}-\bar{X_j}}{s(X_j)} $$ 

- M√©dia qualquer e desvio padr√£o 1:

$$ x'_{ij}= \frac{x_{ij}}{s(X_j)} $$ 

<br>

**Passo 2**:
Calcular a matriz de **covari√¢ncia** ou **correla√ß√£o**. Caso as vari√°veis estejam em escalas diferentes, √© poss√≠vel calcular a matriz de correla√ß√£o nos dados originais. Esta possibilidade se deve ao fato de que a matriz de covari√¢ncias das vari√°veis padronizadas √© igual a matriz de correla√ß√£o das vari√°veis originais. 

\begin{equation}
  S = \left [ \begin{array}{ccccc}
\hat{Var}(x_1) & \hat{Cov}(x_1x_2) & \hat{Cov}(x_1x_3) & \cdots & \hat{Cov}(x_1x_p)\\ 
\hat{Cov}(x_2x_1) &\hat{Var}(x_2)& \hat{Cov}(x_2x_3) & \cdots & \hat{Cov}(x_2x_p)\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
\hat{Cov}(x_px_1) & \hat{Cov}(x_px_2)  & \hat{Cov}(x_px_3)  & \cdots & \hat{Var}(x_p)\\ 
   \end{array} \right ] 
\end{equation}

<br>
<br>

\begin{equation}
  R = \left [ \begin{array}{ccccc}
1 & r(x_1x_2) & r(x_1x_3) & \cdots & r(x_1x_p)\\ 
r(x_2x_1) & 1 & r(x_2x_3) & \cdots & r(x_2x_p)\\ 
\vdots & \vdots & \vdots & \cdots & \vdots  \\
r(x_px_1) & r(x_px_2)  & r(x_px_3)  & \cdots & 1\\ 
   \end{array} \right ] 
\end{equation}

Em que:

\begin{equation}
 \begin{array}{ccc}
\hat{Var}(x_j) = \frac{\sum_{i=1}^{n}(x_{ij}-\bar{x}_j}{n-1}, & 
\hat{Cov}(x_{j1},x_{j2}) = \frac{\sum_{i=1}^n(x_{ij1}-\bar{x_{j1}})(x_{ij2}-\bar{x_{j2}})}{n-1}, &
r(x_{j1},x_{j2}) = \frac{\hat{Cov}(x_{j1},x_{j2})}{S_{xj1}S_{xj2}}
   \end{array} 
\end{equation}

<br>

**Passo 3**:
As componentes principais s√£o determinadas atrav√©s da equa√ß√£o caracter√≠stica da matriz S ou R:

$$det[R - \lambda I]= 0 $$

Em que $I$ √© a matriz identidade de dimens√£o $p\times p$. 

Se R ou S tem posto completo igual a $p$, ent√£o $det[R - \lambda I]= 0$, que pode ser reescrito como $\mid R - \lambda I \mid = 0$, ter√° $p$ solu√ß√µes. Lembrando que ter posto completo significa que nenhuma coluna √© combina√ß√£o linear de outra.

Considere que $\lambda_1,\lambda_2,\lambda_3, \cdots, \lambda_p$ sejam as ra√≠zes da equa√ß√£o caracter√≠stica de R ou S, ent√£o temos que  $\lambda_1 > \lambda_2 > \lambda_3 > \cdots, \lambda_p$. Chamamos $\lambda_i$ de autovalor. Al√©m disso, para cada autovalor h√° um autovetor $\tilde{a}_i$ associado.

\begin{equation}
  \tilde{a}_i = \left [ \begin{array}{c}
a_{i1}\\ 
a_{i2}\\ 
\vdots \\
a_{ip} \\ 
   \end{array} \right ] 
\end{equation}

O c√°lculo do autovetor $\tilde{a}_i$, pode ser realizado considerando a seguinte propriedade:

$$ R\tilde{a}_i =  \lambda_i \tilde{a}_i $$

Este resultado deve ser normalizados:

$$ a_i = \frac{\tilde{a}_i }{\mid \tilde{a}_i  \mid}$$

desta forma  soma dos quadrados dos coeficientes √© igual a 1 e s√£o ortogonais entre si. 

<br>

**Passo 4**:
O c√°lculo da i-√©sima componente principal √© dado por:

$$Z_i = a_{i1}X_1 + a_{i2}X_2 + a_{i3}X_3 + \cdots + a_{ip}X_p $$

em que $a_{i1}$ s√£o as componetes do autovetor $a_i$ associado ao autovalor $\lambda_i$.

## Propriedades de PCA

- A vari√¢ncia do componente principal $Z_i$ √© igual ao valor do autovalor $\lambda_i$
$$ \hat{Var}(Z_i) = \lambda_i $$ 



- O primeiro componente √© o que apresenta maior vari√¢ncia e assim por diante
$$  \hat{Var}(Z_1) >  \hat{Var}(Z_2) >  \hat{Var}(Z_3) > \cdots  > \hat{Var}(Z_p)$$


-  O total de vari√¢ncia das vari√°veis originais √© igual ao somat√≥rio dos autovalores que √© igual ao total de vari√¢ncia dos componentes principais:

$$ \sum_{i=1}^{p} \hat{Var}(X_i) = \sum_{i=1}^{p} \lambda_i = \sum_{i=1}^{p} \hat{Var}(Z_i) $$



- Os componentes principais n√£o s√£o correlacionados entre si:
$$ \hat{Cov}(Z_{j1},Z_{j2})=0$$


- A contribui√ß√£o Ci de cada componenete principal $Z_i$ √© expressa em porcentagem. √â calculada dividindo-se a vari√¢ncia de $Z_i$ pela var√¢ncia total. Representa a propor√ß√£o de vari√¢ncia total explicada pelo componenete principal $Z_i$.

$$ C_i = \frac{\lambda_i}{\sum_{i=1}^{p} \lambda_i }$$


## Interpreta√ß√£o das componentes

Por fim, pode-se verificar o grau de influ√™ncia que cada vari√°vel $X_j$ tem sobre a componente $Z_i$. O grau de influ√™ncia √© dado pela corela√ß√£o entre cada $X_j$ e o componente $Z_i$ que est√° sendo interpretado. Por exemplo a correla√ß√£o entre $X_j$ e $Z_1$ √©:

$$ \hat{Cov}(X_{j},Z_{1})= \lambda_1 \frac{a_{1j}}{\sqrt{ \hat{Var}(X_j)}}$$

Para comparar a influ√™ncia de $X_1, X_2, \cdots, X_p$ sobre $Z_1$ an√°lisamos o peso de cada vari√°vel sobre o componente $Z_1$. O peso de cada vari√°vel sobre um determinado componente √© dado por:

$$w_i=\frac{a_{1j}}{\sqrt{ \hat{Var}(X_j)}} $$

# An√°lise Discriminante Linear (LDA)

A An√°lise Discriminante Linear √© uma t√©cnica que visa transformar as observa√ß√µes multivariadas, por meio de combina√ß√µes lineares dessas vari√°veis, em observa√ß√µes univariadas de tal forma que as vari√°veis transformadas se apresentassem o mais separadas poss√≠vel. Portanto, a an√°lise discriminante √© uma t√©cnica de an√°lise multivariada utilizada para diferenciar ou discriminar popula√ß√µes e classificar ou alocar indiv√≠duos em popula√ß√µes pr√©-definidas. 

Vale ressaltar que esta t√©cnica tamb√©m pode ser usada apenas para reduzir a dimensionalidade. Por ser usada para modelar diferen√ßas em grupos, ou seja, separar duas ou mais classes, ao ser usada como redutora de dimensionalidade, a transforma√ß√£o linear garante que no novo espa√ßo as classes ter√£o m√°xima separabilidade.


## Procedimento de an√°lise


Suponha que se tenha uma base de dados com $p$ var√°veis explicativas e vari√°vel resposta categ√≥rica $Y$ com duas poss√≠veis classes. A an√°lise LDA busca obter um escalar $z$ atrav√©s da proje√ß√£o sas amostras $X$ em uma reta $z = w^{ùëá}ùë•$, de forma que, de todas as  poss√≠veis retas, gostar√≠amos de selecionar a que maximiza a separabilidade dos escalares (conforme imagem abaixo). Para encontrar um bom vetor de proje√ß√£o, precisamos definir uma medida de separa√ß√£o.

![](lda.png)

Para simplificar, vamos considerar o caso em que $Y$ possui duas classes($a$ e $b$), lembrando que a generaliza√ß√£o √© valida para vari√°veis resposta com maior quantidades de categorias. No c√°lculo usaremos o conceito de discriminante linear de Fisher.


**Passo 1**:
Considere que o conjunto de dados possa ser separado em dois grupos: grupo A em que observa√ß√µes em que $Y=a$ e grupo B em que observa√ß√µes em que $Y=b$.

**Passo 2**:
C√°lculo da m√©dia das vari√°veis $X_i$ para cada grupo.


\begin{equation}
\begin{array}{cc}
\hat{\mu}_a = \bar{x}_a = 
 \left [ \begin{array}{c}
X_{1 \mid Y=a}\\ 
X_{2 \mid Y=a}\\ 
\vdots \\
X_{p \mid Y=a}\\ 
   \end{array} \right ],  & 
 \hat{\mu}_b = \bar{x}_b = 
 \left [ \begin{array}{c}
X_{1 \mid Y=b}\\ 
X_{2 \mid Y=b}\\ 
\vdots \\
X_{p \mid Y=b}\\ 
   \end{array} \right ] 
  \end{array}
\end{equation}


**Passo 3**:
Para maximizar a diferen√ßa entre as m√©dias, calculamos a medida da dispers√£o dentro de cada grupo $k \in \{a,b\}$, isto √© a vari√¢ncia:

$$S_{k} = \frac{\sum_{i=1}^{n_k}(x_{ij} -\bar{X}_j)^2 }{n_k-1} $$

em que $n_k$ √© a quantidade de onberva√ß√µes tal que $Y=k \mid k \in  \{a,b\}$


**Passo 4**: 
Considere dispers√£o total dentro das classes:

$$S = \frac{(n_a-1)S_a + (n_b-1)S_b }{n_a+n_b-2} $$


**Passo 5**:
A transforma√ß√£o linear que maximiza a separa√ß√£o entre $a$ e $b$ √© dada por:

$$ Z = (\bar{x}_a - \bar{x}_b)^{T}S^{-1}$$

Note que D √© um vetor de dimens√£o $p\times1$.

**Passo 6**:
Ao longo da reta $Z$, o ponto m√©dio entre as m√©dias dos dois grupos √© dado por:

$$ m= \frac{1}{2}(\bar{x}_a - \bar{x}_b)^{T}S^{-1} (\bar{x}_a + \bar{x}_b) $$

Se o objetiivo for classificar uma observa√ß√£o $x_0$, ent√£o se ao aplicar os valores de $x_0$ na equa√ß√£o do passo 5 e obter $Z_0 \geq m $, ent√£o a observa√ß√£o pertence ao grupo $a$, caso contr√°rio pertence ao grupo $b$