# Análise Fatorial e PCA

## Contextualização

* Modelo não supervisionado de _machine learning_;
  * Análise fatorial por componentes principais:
    * Determinação dos fatores que se baseia na criação de fatores não correlacionados a partir da combinação linear das variáveis originais;
* A aplicação de uma análise fatorial é possível com variáveis métricas;
* Trata-se do agrupamento das variáveis em fatores;
  * Obter o comportamento conjunto das variáveis;
    * Combinando-as para uma redução estrutural;
  * Análise da validade de constructos pela identificação das variáveis alocadas em fatores;
  * Elaboração de rankings para a classificação de desempenho por meio dos fatores;
  * Criação de fatores ortogonais entre si;
    * É possível utilizar esses fatores, posteriormente, em modelos supervisionados;

## Implementação

### Matriz de correlação de Pearson

* PCA fundamenta-se na existência de correlações entre variáveis originais para a criação dos fatores;
* Coeficiente de correlação de Pearson: relação linear entre duas variáveis:
  * Valores próximos aos extremos ($-1$ e $1$):
    * Indicam existência de relação entre as variáveis;
    * Proporcionam a extração de um único fator;
  * Valores próximos a 0:
    * Indicam não existência, ou praticamente não existência, de relação entre as variáveis;
    * Proporcionam a extração de diferentes fatores;
* É possível obter os valores da matriz com a seguinte expressão:

$$
p = \frac{\sum^{n}_{i=1}(x_{1i} - \bar{x}_1).(x_{2i} - \bar{x}_2)}{\sqrt{\sum^{n}_{i=1}(x_{1i}-\bar{x1})^2}.\sqrt{\sum^{n}_{i=1}(x_{2i}-\bar{x2})^2}}
$$

### Adequação global da análise - Teste de esfericidade de Bartlett

* Para que a análise possa seja adequada, devem existir valores mais elevados (próximos aos extremos $-1$ e $1$) na matriz de Pearson;
  * Para tanto, realiza-se o teste de esfericidade de Bartlett;
* Busca-se, com o teste de esfericidade de Bartlett, validar qual é a hipótese válida

* $H_0 : \text{Matrix de Pearson} = \text{Matrix identidade}$
  * As variáveis não possuem associação estatisticamente significante
* $H_1 : \text{Matrix de Pearson} \neq \text{Matrix identidade}$
  * As variáveis possuem associação estatisticamente significante

* A seguinte formula é usada para poder obter o valor de $\chi^2_{Bartlett}$

$$
\chi^2_{Bartlett} = - [(n-1)-(\frac{2.k+5}{6})].\ln{|D|}
$$

> Para este cálculo, considera-se $\frac{k.(k-1)}{2}$ graus de liberdade

### Autovalores e autovetores - _eigenvalues_ e _eigenvectors_

#### Autovalores - _eigenvalues_

* Os autovalores indicam o percentual de variância compartilhada pelas variáveis originais para a formação de cada fator;
* A matriz de correlações de dimensão K x K possuí K autovalores ($\lambda^2$), e podem ser obtidos da seguinte forma:
  * Solução de $\text{}(\lambda^2.I-p)=0$ equivalente a:

    $$
    \begin{vmatrix}
    \lambda^2 -1 & -\text{p}_{12} & ... & -\text{p}_{1k} \\
    -\text{p}_{21} & \lambda^2 - 1 & ... & -\text{p}_{2k} \\
    ... & ... & ... & ... \\
    -\text{p}_{k1} & -\text{p}_{k2} & ... & \lambda^2 -1
    \end{vmatrix} = 0
    $$

#### Autovetores - _eigenvectors_

* Os autovetores da matriz de correlações são obtidos com base em cada um dos autovalores;
* $v_{1k}$, $v_{2k}$, ..., $v_{kk}$ são os autovetores para o $k$-ésimo autovalor ($\lambda^2$) em análise;

$$
\begin{pmatrix}
    \lambda^2 -1 & -\text{p}_{12} & ... & -\text{p}_{1k} \\
    -\text{p}_{21} & \lambda^2 - 1 & ... & -\text{p}_{2k} \\
    ... & ... & ... & ... \\
    -\text{p}_{k1} & -\text{p}_{k2} & ... & \lambda^2 -1
\end{pmatrix} \cdot
\begin{pmatrix}
    \text{v}_{1k} \\
    \text{v}_{2k} \\
    ... \\
    \text{v}_{kk}
\end{pmatrix} =
\begin{pmatrix}
    0 \\
    0 \\
    ... \\
    0
\end{pmatrix} =
\Biggr\{
    \begin{gather*}
    (\lambda^2_1 -1) . \text{v}_{1k} -\text{p}_{12} . \text{v}_{2k} ... -\text{p}_{1k} . \text{v}_{kk} = 0 \\
    -\text{p}_{21} . \text{v}_{1k} + (\lambda^2_2 -1) . \text{v}_{2k} ... -\text{p}_{2k} . \text{v}_{kk} = 0 \\
    ... \\
    -\text{p}_{21} . \text{v}_{1k} -\text{p}_{22} . \text{v}_{2k} ... (\lambda^2_2 -1) . \text{v}_{kk} = 0
    \end{gather*}
$$

### Scores fatoriais

* São os parâmetros que relacionam o fator com as variáveis originais, representando, assim, um modelo linear;
* Para $K$ variáveis originais, existem, no máximo, $K$ fatores ($F_1$, $F_2$, ..., $F_k$);
* Os scores vêm a partir dos autovalores e autovetores da matriz de correlações;
  * São gerados $K$ grupos de scores - é o limite máximo de $K$ fatores possíveis;

$$
S_k =
\begin{pmatrix}
s_{1k} \\
s_{2k} \\
... \\
s_{kk} 
\end{pmatrix} = 
\begin{pmatrix}
\frac{v_{1k}}{\sqrt{\lambda^2_k}} \\
\frac{v_{2k}}{\sqrt{\lambda^2_k}} \\
... \\
\frac{v_{kk}}{\sqrt{\lambda^2_k}}
\end{pmatrix}
$$

## Obtenção dos fatores

* O valor do fator $F$ é obtido com as variáveis $X$ transformadas pelo $Z$ score;
  * Tais fatores são ortogonais entre si, ou seja, não são correlacionados;

$$
F_{ki} = \cdot
\frac{v_{1k}}{\sqrt{\lambda^2_k}}
ZX_{1i} + 
\frac{v_{2k}}{\sqrt{\lambda^2_k}} \cdot
ZX_{2i} + 
... + 
\frac{v_{kk}}{\sqrt{\lambda^2_k}} \cdot
ZX_{ki}
$$

* Embora seja possível determinar _a priori_ quantos fatores são desejados, é importante realizar uma análise por meio dos autovalores;
  * Os autovalores indicam o percentual da variância compartilhada pelas variáveis originais para a formação de cada fator;
* Fatores obtidos a partir de autovalores menores do que 1 podem não ter representatividade;
  * O critério de Kaiser, ou também critério da raiz latente, indica que devem ser considerados fatores correspondentes a autovalores maiores que 1;

## Cargas fatoriais

* As caragas fatoriais representam as correlações de Pearon entre os fatores e as variáveis originais;
  * Pode ser interpretada como a importância de cada variável na construção daquele fator em particular;
  * Quanto maior a carga, mais aquele fator é influenciado pela variável;

## Comunalidades

* As comunalidades mostram a variância total compartilhada, para cada variável, em todos os fatores extraídos e selecionados pelo critério da raiz latente;
  * É possível identificar perda de variância, por variável, após a exclusão de fatores por meio do critério da raiz latente;

## Criação de rankings

* Para a criação de rankings dos fatores obtidos, usa-se o critério da soma ponderada e ordenamento, para cada obervação da amostra, como:

$$
\text{Resultado}_i=(F_{1i} * \text{\% de variância compartilhada de }F_1) + 
... + 
(F_{1k} * \text{\% de variância compartilhada de }F_k)
$$

> Multiplica-se o resultado obtido de cada fator por seu percentual de variância compartilhada, e depois, é realizado o ordenamento do resultado.
