# O que é análise fatorial?

- A análise fatorial (FA) é uma técnica usada para identificar a estrutura subjacente dos dados em termos de um conjunto menor de fatores *não observados (latentes). Esses fatores são combinações lineares das *variáveis ​​observadas e ajudam a explicar as correlações entre elas.

- Esta relação linear pode ser formalizada para a variável observada x como x = λx * ξ + δx , onde λx se refere às cargas fatoriais associadas a x , ξ se refere a fatores subjacentes e δx se refere ao erro associado a x . Este erro é a parte da variável que não pode ser explicada pelos fatores subjacentes.

O modelo de análise fatorial pode ser visualizado em um diagrama, onde a direção do efeito causal é indicada por setas. Veja a figura abaixo.

![Factor Analisys](imgs/fa.png)

## Suposições de FA
É importante que seus dados atendam às seguintes suposições para obter resultados confiáveis ​​em FA.

- Tamanho de amostra suficiente : Geralmente, um tamanho de amostra maior produz resultados mais confiáveis.
- Linearidade: assume que a relação entre variáveis ​​e fatores observados é linear.
- Adequação das Correlações: Deve haver algumas correlações entre as variáveis ​​observadas, ou a AF será ineficaz.

Vejamos a seguir quais são os principais tipos de FA e suas utilizações!

## Principais tipos de FA
No âmbito da AF, destacam-se duas abordagens de destaque: a Análise Fatorial Exploratória (AFE) e a Análise Fatorial Confirmatória (AFC).

- Análise Fatorial Exploratória (AFE) : A AFE é utilizada quando o pesquisador não tem uma ideia específica da estrutura subjacente dos dados. É empregado para explorar a possível estrutura fatorial subjacente sem impor qualquer estrutura pré-concebida ao resultado.
- Análise Fatorial Confirmatória (AFC) : A AFC, por outro lado, é utilizada quando o pesquisador tem uma ideia específica da estrutura subjacente com base na teoria ou em estudos anteriores. Na CFA, o pesquisador testa um modelo hipotético para ver até que ponto ele se ajusta aos dados.

A escolha entre estes dois métodos deve ser orientada pelas necessidades específicas do seu estudo ou da questão de investigação, permitindo uma exploração de padrões subjacentes ou um teste focado de hipóteses predefinidas.

Até agora, tivemos uma visão geral do conceito de FA. A seguir, exploraremos as etapas de condução de um FA.

## Etapas da FA
- Reúna e prepare seus dados: colete seu conjunto de dados e certifique-se de que ele seja limpo e pré-processado.
- Escolha o número de fatores: Use critérios para decidir quantos fatores reter, por exemplo, gráfico de scree.
- Estime o modelo de fator: use software (como R , SPSS ou scikit-learn do Python) para realizar FA . O software estimará as cargas fatoriais (associações entre variáveis ​​e fatores), variâncias fatoriais (variância variável explicada pelos fatores) e variâncias únicas (variância variável não explicada pelos fatores).
- Interpretar os Fatores: Na AFE, examine as cargas fatoriais para interpretar o que cada fator representa; na AFC, verifique se as variáveis ​​​​estão associadas aos fatores hipotetizados. Geralmente, cargas elevadas (positivas ou negativas) de uma variável sobre um fator indicam associações fortes.
- Rotação dos Fatores (se necessário, na AFE): Rotação dos resultados para tornar a interpretação dos fatores mais clara, simplificando a estrutura das cargas.
- Confirme a solução (se necessário, em CFA): Confirme se os dados se ajustam bem ao modelo usando vários índices de ajuste .
- Use os Fatores: Os fatores podem ser usados ​​em análises posteriores como variáveis ​​de resumo ou para testar hipóteses sobre as relações entre os fatores e outras variáveis.
- Valide seu modelo: é essencial validar sua estrutura fatorial em uma amostra diferente para garantir que ela seja generalizável.

---

## Exploratory Factor Analysis

EFA resulta numa simplificação da estrutura de dados, que pode ser entendida como resultado da redução da dimensionalidade . Esta redução não é o objetivo principal da AFE, mas sim um subproduto que ocorre à medida que desvendamos as estruturas centrais subjacentes aos dados observados.

Tal como acontece com todos os métodos estatísticos, a AFE baseia-se em alguns pressupostos estatísticos. Essas suposições são de que as variáveis ​​observadas seguem uma distribuição normal multivariada , mantêm relações lineares com variáveis ​​latentes, estão correlacionadas e o tamanho da amostra é suficientemente grande.

Se seus dados atenderem a essas suposições em um grau satisfatório e você pretende revelar construções subjacentes não observadas em seu conjunto de dados, então você poderá realizar a AFE.

### Etapas para realizar PCA

- Coleta e Preparação de Dados
    - Nesta etapa, os dados são coletados sobre as variáveis ​​a serem exploradas, sendo limpos e pré-processados .

- Computação da Matriz de Correlação
    - Uma vez preparados os dados para análise, calcula-se a matriz de correlação das variáveis. Esta matriz é essencial para compreender como as diferentes variáveis ​​do conjunto de dados se relacionam entre si. O usuário também pode calcular estatísticas, como Kaiser-Meyer-Olkin (KMO), para garantir que a matriz de correlação seja adequada para uma análise fatorial . Aqui está um ** exemplo de matriz de correlação de 10 variáveis ​​observadas abaixo.

![Factor Analisys](imgs/tab1.png)

Parece que os primeiros quatro e os últimos seis itens estão altamente associados, o que pode ser um indicador de que medem conceitos semelhantes.

### Estimativa de número de fator
A maioria dos softwares estatísticos oferece múltiplas opções para determinar o número de fatores (variáveis ​​não observadas) a serem formados. Como regra geral, qualquer fator com autovalor maior que 1 é retido/mantido. No entanto, métodos mais sofisticados, como a análise paralela (PA) e a média parcial mínima (MAP), também poderiam ser preferidos. Para obter detalhes, consulte este artigo .

### Procedimento EFA
Pacotes de software (como R , SAS ou Python ) possuem funções ou procedimentos específicos para conduzir EFA. Esta etapa envolve o uso de um método de estimativa específico, por exemplo, PCA , PAF , ML , para analisar a matriz de correlação com uma estimativa inicial do número de fatores com base na etapa anterior.

### Rotação de saída
A solução inicial pode não ser fácil de interpretar. Portanto, a saída é rotacionada para obter uma estrutura fatorial simples e interpretável , tornando as cargas fatoriais (as correlações entre as variáveis ​​observadas e os fatores) mais distintas. Os pacotes de software normalmente permitem especificar o método de rotação como parâmetro quando você executa a análise fatorial. Veja algumas explicações sobre possíveis rotações . É aconselhável experimentar diferentes rotações e manter a solução mais interpretável.

### Interpretação Fatorial

Após completar a AFE, avaliamos os fatores examinando suas cargas. Carregar com valor absoluto igual ou superior a 0,30 sugere que a variável está fortemente ligada a esse fator. Com base nessas cargas significativas, identificamos o conceito subjacente que cada fator representa e atribuímos nomes descritivos de acordo. Veja o **exemplo de saída abaixo.

![Factor Analisys](imgs/tab2.png)

Conforme observado, as quatro variáveis ​​iniciais têm cargas fortes no primeiro fator, enquanto as seis restantes carregam fortemente no segundo fator. Suponha que as primeiras quatro variáveis ​​pertençam a questões sobre ansiedade e as últimas seis sejam questões que medem a autoestima em uma pesquisa. Neste contexto, podemos rotular estes fatores como “Ansiedade” e “Autoestima”. E a estrutura fatorial final pode ser representada conforme mostrado abaixo.

![Factor Analisys](imgs/factors.png)

Na figura acima, as setas apontam para as variáveis ​​observadas (Item1, Item2, etc.). Isso ocorre porque as variáveis ​​latentes causam/influenciam as variáveis ​​observadas no contexto da AF. Consulte nosso tutorial Introdução à Análise Fatorial para uma melhor compreensão das relações causais em modelos de análise fatorial.

### Avaliação de confiabilidade
Finalmente, a confiabilidade dos factores estruturados pode ser avaliada, por exemplo, pelo alfa de Cronbach, que avalia se os itens que pesam num determinado factor estão a medir consistentemente o mesmo construto subjacente. Para o exemplo dado, deve ser medido para os construtos de ansiedade e autoestima.

 
*As variáveis ​​observadas também podem ser referidas como variáveis ​​manifestas, indicadores e variáveis ​​endógenas, enquanto as variáveis ​​latentes podem ser referidas como fatores, construtos, variáveis ​​não observadas/subjacentes e variáveis ​​exógenas no contexto da AFE.

**Os dados de exemplo são gerados aleatoriamente; portanto, não reflete nenhum resultado de análise real.

---

## Confirmatory Factor Analysis (CFA) | Meaning & Interpretation

A Análise Fatorial Confirmatória (AFC) é uma técnica estatística usada principalmente nas ciências sociais. A AFC permite que os pesquisadores validem seus modelos de medição propostos, testando quão bem as *variáveis ​​observadas (por exemplo, itens do questionário) representam os * fatores subjacentes (variáveis ​​latentes) que eles teoricamente medem. Ao contrário da análise fatorial exploratória (AFE), que procura identificar potenciais estruturas fatoriais subjacentes, a AFC testa se uma estrutura específica se ajusta aos dados.

Em vez de “descobrir” ou explorar relações potenciais entre variáveis, como na análise fatorial exploratória, a AFC foi concebida para testar um modelo predefinido baseado em expectativas teóricas. Da mesma forma, na AFC, o ponto de partida deve ser uma teoria ou resultados empíricos , que podem vir da literatura existente, de resultados anteriores de AFE ou de modelos teóricos bem estabelecidos.

Tal como outras técnicas estatísticas, a AFC opera sob certas suposições. É essencial verificar essas suposições, pois violá-las pode levar a resultados tendenciosos, enganosos ou incorretos.

### Premissas
 - Linearidade: As relações entre as variáveis ​​observadas e as variáveis ​​latentes não observadas subjacentes são consideradas lineares. Na AFC típica, as variáveis ​​observadas são definidas como funções lineares das variáveis ​​latentes. Uma variável observada x é formalizada como x = λξ + δx , onde λ se refere às cargas fatoriais, ξ se refere aos fatores subjacentes e δx se refere ao erro de medição de x .

 - Normalidade multivariada : Idealmente, as variáveis ​​observadas deveriam seguir uma distribuição normal multivariada . Isso significa que todas as combinações de variáveis ​​são distribuídas normalmente em conjunto. Esta suposição pode impactar significativamente alguns índices de ajuste e erros padrão. Nesse caso, técnicas robustas de estimativa poderiam ser realizadas para evitar o efeito de violação da normalidade.

- Adequação do tamanho da amostra: Um tamanho de amostra adequado é crucial para soluções de fatores estáveis. Uma recomendação comum é uma proporção de pelo menos 5 participantes por variável, mas amostras maiores geralmente são melhores.

 - Superidentificação: O modelo deve ser superidentificado. Isso significa que deve haver mais variâncias e covariâncias observadas do que parâmetros estimados (variâncias, covariâncias e cargas fatoriais estimadas). Uma maneira comum é garantir que uma das cargas fatoriais seja fixada no valor 1. Ao fazer isso, a escala da variável latente também será definida. Para mais detalhes, consulte a página 80 em Análise Fatorial Confirmatória para Pesquisa Aplicada (Brown, 2006).

Se seus dados atenderem a essas suposições e você pretende testar seu modelo de medição, poderá realizar o CFA.

### Etapas para realizar o CFA

#### Especificação modelo
Com base na teoria ou em análises prévias, o profissional deve decidir quais variáveis ​​observadas estão conectadas a quais variáveis ​​latentes, ou seja, quais variáveis ​​observadas serão carregadas em quais variáveis ​​latentes.

Imagine, com base em pesquisas empíricas anteriores, que você levantou a hipótese de que o bem-estar geral de um indivíduo pode ser medido por dois fatores latentes: saúde física e saúde emocional .

Para medir esses construtos, você preparou um questionário. No seu modelo de medição, as três primeiras questões medem a saúde física com o seguinte:

- Q1 : Sinto-me fisicamente ativo e com energia.
- Q2 : Raramente fico doente.
- Q3 : Estou satisfeito com minha saúde física geral.

As próximas três questões medem a saúde emocional com o seguinte:

- Q4 : Sinto-me emocionalmente estável.
- Q5 : Geralmente me sinto feliz e contente.
- Q6 : Raramente me sinto sobrecarregado ou ansioso.

Quando você tiver uma estrutura de medição projetada, a próxima etapa será coletar os dados relacionados.

#### Coleta e exploração de dados
Os dados que medem as variáveis ​​observadas devem ser coletados, limpos e pré-processados ​​antes da análise.

#### Estimativa de parâmetros
No CFA, o processo de estimativa de parâmetros gira em torno da determinação dos valores ideais para cargas fatoriais, covariâncias de fatores e variâncias de erros de medição . O objetivo final é garantir que a matriz de covariância prevista usando esses parâmetros estimados espelhe de perto a matriz de covariância observada nos dados. Vamos dar uma olhada na saída **estimations em relação ao exemplo de bem-estar.

Cargas Fatoriais de Saúde Física:
- Q1: 1 (fixa)
– Q2: 0,75, p < 0,001
– Q3: 0,60, p < 0,001

Cargas Fatoriais de Saúde Mental:
– Q4: 1 (fixa)
– Q5: 0,65, p < 0,001
– Q6: 0,40, p < 0,001
 
Variâncias Fatoriais:
– Saúde Física: 0,92, p < 0,001
– Saúde Mental: 0,89, p < 0,001
 
Estimativas de Covariância Fatorial:
Cov(Saúde Física, Saúde Mental) = 0,62, p < 0,001

Variações residuais (erro):
– Q1: 0,08, p < 0,001
– Q2: 0,09, p < 0,001
– Q3: 0,07, p < 0,001
– Q4: 0,06, p < 0,001
– Q5: 0,05, p < 0,001
– Q6: 0,07 , p < 0,001
 
Tradicionalmente, o método de estimativa de Máxima Verossimilhança (ML) é empregado quando não há evidências suficientes de que as suposições, como normalidade e adequação do tamanho da amostra, não sejam violadas. Caso contrário, outras técnicas robustas como WLSMV e MLR são realizadas.

O método de estimativa escolhido usa um algoritmo de otimização , que ajusta iterativamente os valores dos parâmetros para encontrar os parâmetros mais adequados. Uma vez que o modelo converge, o software escolhido (por exemplo, SPSS , R , Mplus ) fornece estimativas para todos os parâmetros (como mostrado acima), juntamente com algumas estatísticas de ajuste . Vamos dar uma olhada mais de perto nessas estatísticas de ajuste a seguir!

#### Avaliação de ajuste

É crucial avaliar o ajuste do modelo para garantir que ele represente adequadamente os dados. Vários índices de ajuste podem ser usados, cada um com seus pontos fortes e limitações. Aqui estão alguns dos índices de ajuste comuns:

- Raiz Média Quadrada Residual Padronizada (SRMR) : Esta é a diferença média entre a matriz de correlação observada (que representa a previsão perfeita) e a matriz prevista pelo modelo. Valores inferiores a 0,08 são geralmente considerados indicativos de um bom ajuste.

- Raiz média do erro quadrático de aproximação (RMSEA) : Esta estatística qui-quadrado ajustada avalia o ajuste do modelo em relação ao modelo perfeito, penalizando a complexidade do modelo. Valores inferiores a 0,05 indicam um ajuste próximo, valores entre 0,05 e 0,08 indicam um ajuste razoável e valores superiores a 0,10 podem sugerir um ajuste fraco do modelo.

- Índice de ajuste comparativo (CFI) e índice de Tucker-Lewis (TLI) : ambos os índices comparam o ajuste do modelo especificado ao modelo nulo . Valores próximos de 0,95 ou superiores são geralmente considerados indicativos de um bom ajuste. A principal distinção entre CFI e TLI é que o TLI penaliza a complexidade do modelo, enquanto o CFI não o faz.

É aconselhável apresentar e avaliar vários indicadores de ajuste porque cada um oferece suas vantagens e desvantagens. Para fórmulas, consulte este [artigo](https://statisticsglobe.com/confirmatory-factor-analysis-cfa#:~:text=Para%20f%C3%B3rmulas%2C%20consulte-,este%20artigo,-.).

### Reespecificação do modelo
Se os índices de ajuste indicarem que o modelo inicial não se ajusta bem aos dados, então a estrutura fatorial hipotética pode ser modificada para alcançar um melhor ajuste, desde que as alterações façam sentido teórico ou sejam baseadas em razões substantivas.

Os índices de modificação (MIs) e a mudança esperada de parâmetros (EPC) são as estatísticas a serem consideradas nesta etapa. Eles fornecem sugestões sobre quais parâmetros liberar (convencionalmente, as cargas cruzadas e as covariâncias de erro são restritas a zero no CFA).


Os IM mostram o quanto a estatística do qui-quadrado diminuiria se um parâmetro fixo fosse estimado livremente. O EPC mostra a mudança esperada na magnitude do parâmetro se um parâmetro fixo não fosse restrito.

Após fazer as modificações, o ajuste deve ser reavaliado por um teste de diferença qui-quadrado ou outros índices de comparação como AIC e BIC . Uma vez determinada a estrutura final, o resultado pode ser interpretado e comunicado visualmente.

### Visualização
A maneira mais comum de visualizar modelos CFA é por meio de diagramas de caminhos ou de fatores. Esses diagramas consistem em variáveis ​​observadas, fatores latentes, setas indicando relações e termos de erro. Você pode ver como os componentes de covariância estimados são visualizados abaixo.

![Factor Analisys](imgs/visualiza_fa.png)

No diagrama acima, as covariâncias são representadas pelas setas azuis de duas pontas indicando a direção da relação. Por exemplo, as setas apontando para o mesmo componente representam a covariância do componente consigo mesmo, que também é conhecida como variância.

As setas laranja referem-se às cargas fatoriais. Apontam para as variáveis ​​observadas (Q1, Q2, etc.) uma vez que as variáveis ​​latentes causam/influenciam as variáveis ​​observadas contextualmente. A relação pode ser descrita para Q2 como Q2 = Saúde Física * 0,75 + e2 , onde e2 representa o erro de medição associado com variância 0,09 .

Esteja ciente de que as setas azuis apontando para as variáveis ​​observadas (Q1, Q2, etc.) indicam a variância do erro de medição, não a variância da variável observada. No entanto, a variância do erro de medição faz parte da variância estimada da variável observada, que pode ser escrita para Q2 como Var(Q2) = 0,75ˆ2 * [Var(Saúde Física) = 0,92] + [Var(e2)= 0,09 ].


https://statisticsglobe.com/biplot-pca-explained