# Factor Analysis X PCA

A análise fatorial(Factor Analysis) é um método estatístico usado para descrever a variabilidade entre variáveis observadas e correlacionadas em termos de um número potencialmente menor de variáveis não observadas, denominadas fatores. Por exemplo, é possível que variações em seis variáveis observadas reflitam principalmente as variações em duas variáveis não observadas (subjacentes). A análise fatorial busca por tais variações articulares em resposta a variáveis latentes não observadas. As variáveis observadas são modeladas como combinações lineares dos fatores potenciais, mais termos de "erro". A análise fatorial visa encontrar variáveis latentes independentes.

É uma teoria usada em aprendizado de máquina e relacionada à mineração de dados. A teoria por trás dos métodos analíticos de fator é que as informações obtidas sobre as interdependências entre as variáveis observadas podem ser usadas posteriormente para reduzir o conjunto de variáveis em um conjunto de dados. A análise fatorial é comumente usada em biologia, psicometria, teorias da personalidade, marketing, gerenciamento de produtos, pesquisa operacional e finanças. Pode ajudar a lidar com conjuntos de dados em que há um grande número de variáveis observadas que, segundo se acredita, refletem um número menor de variáveis subjacentes / latentes. É uma das técnicas de interdependência mais comumente usadas e é usada quando o conjunto relevante de variáveis mostra uma interdependência sistemática e o objetivo é descobrir os fatores latentes que criam uma semelhança.

A análise fatorial está relacionada à análise de componentes principais (PCA), mas os dois não são idênticos.Houve controvérsia significativa no campo sobre as diferenças entre as duas técnicas.O PCA pode ser considerado como uma versão mais básica da análise fatorial exploratória (EFA) que foi desenvolvida nos primeiros dias anteriores ao advento dos computadores de alta velocidade. Tanto o PCA como a análise fatorial visam reduzir a dimensionalidade de um conjunto de dados, mas as abordagens adotadas para isso são diferentes para as duas técnicas. A análise fatorial é claramente projetada com o objetivo de identificar certos fatores não observáveis a partir das variáveis observadas, enquanto a PCA não aborda diretamente esse objetivo; na melhor das hipóteses, o PCA fornece uma aproximação aos fatores necessários. Do ponto de vista da análise exploratória, os autovalores da PCA são cargas de componentes infladas, ou seja, contaminadas com variância de erros

Análise Fatorial (FA)é um modelo generativo linear simples com variáveis latentes de Gaussianas. Nele supõe-se que as observações sejam causadas por uma transformação linear de fatores latentes de menor dimensão e um ruído gaussiano adicional. Sem perda de generalidade, os fatores são distribuídos de acordo com um Gaussiano com média zero e covariância unitária. O ruído também é zero e tem uma matriz de covariância diagonal arbitrária.

Se restringirmos ainda mais o modelo, assumindo que o ruído gaussiano é mesmo isotrópico (todas as entradas na diagonal são as mesmas) obteríamos PPCA(PCA probabilístico).

O FactorAnalysis realiza uma estimativa de máxima verossimilhança da chamada matriz de carga, a transformação das variáveis latentes para as observadas, usando a maximização da expectativa (EM). 

# Comparação PCA e Factor Analysis

In [4]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.decomposition import FactorAnalysis

In [2]:
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)
pca.fit(X)

PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

In [3]:
pca.fit_transform(X)

array([[ 1.38340578,  0.2935787 ],
       [ 2.22189802, -0.25133484],
       [ 3.6053038 ,  0.04224385],
       [-1.38340578, -0.2935787 ],
       [-2.22189802,  0.25133484],
       [-3.6053038 , -0.04224385]])

In [5]:
transformer = FactorAnalysis(n_components=7, random_state=0)
X_transformed = transformer.fit_transform(X)

In [6]:
X_transformed.shape

(6, 2)

# Fontes

 1 - https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.FactorAnalysis.html acessado em 26/06/2019
 2 - https://en.wikipedia.org/wiki/Factor_analysis#Example acessado em 26/06/2019