# ANÁLISE MULTIVARIADA

## Análise Fatorial Exploratória

A AFE tem o propósito de reduzir a dimensionalidade dos dados, ou seja, reduzir o número de variáveis para simplificar seu entendimento. Porém, existe um _tradeoff_ entre simplificação e precisão. Ao simplificar a análise dos dados, perde-se também parte da informação trazida por eles. \n

 A idea geral é encontrar variáveis latentes (os fatores), que expliquem em grande parte aa variância das variáveis originais. Por exemplo, um dataset pode conter as variáveis: venda_sorvetes, venda_protetor_solar e venda_agasalho. Essas variáveis podem ser explicadas por um fator: **temperatura**.

## Análise Fatorial Confirmatória

Enquanto a AFE busca identificar os fatores (ou variáveis latentes) em um dataset, a AFC parte do pressuposto de que os fatores são conhecidos e busca confirmar se os dados de fato se encaixam nesse modelo. Isso é aplicável quando:
- A) A AFE já foi realizada
- B) Os dados são familiares e pode-se intuir os fatores
- C) Os fatores são predefinidos por motivos alheios à análise e precisam ser seguidos

## *ACP - Análise de Componentes Principais vs AFE - Análise Fatorial Exploratória

PCA NÃO faz parte da Análise Fatorial Exploratória (EFA). São técnicas distintas usadas para propósitos diferentes no campo da estatística multivariada.

PCA é uma técnica de redução de dimensionalidade que visa transformar as variáveis originais em um novo conjunto de componentes ortogonais, conhecidos como componentes principais, que capturam a máxima variância nos dados. É comumente usado para reduzir o número de dimensões nos dados enquanto mantém a maior parte das informações importantes.

Por outro lado, a Análise Fatorial Exploratória (EFA) é um método estatístico usado para descobrir fatores latentes subjacentes que explicam as correlações entre variáveis observadas. É comumente usado em ciências sociais e psicologia para entender a estrutura das relações entre variáveis e identificar fatores comuns que contribuem para padrões observados.

Embora tanto o PCA quanto a EFA lidem com a redução de dimensões, eles têm objetivos e pressupostos diferentes. O PCA concentra-se em explicar a variância nos dados, enquanto a EFA tem como objetivo identificar fatores subjacentes que explicam as correlações entre as variáveis observadas.

### Passo a passo da AFE em Python

1) Carregar os dados
2) Tratar os dados (A necessidade de cada subitem deve ser considerada caso a caso)
2.1) Tratar dados faltantes
2.2) Tratar dados categóricos
2.3) Eliminar colunas irrelevantes
2.4) Padronizar os dados
3) Gerar matriz de correlações E/OU o mapa de calor
4) Confirmar a aplicabilidade da AFE
4.1) Teste de esfericidade de Bartlett
Resultado deve rejeitar H0 (p_valor < alfa)
4.2) Teste de Kaiser-Meyer-Olkin (KMO)
Resultado deve ser maior que o mínimo aceitável (0.5, nos exercícios do curso)
5) Aplicar a AFE
5.1) Instanciar objeto da classe FactorAnalyzer
5.2) Obter os autovalores (eigenvalues)
5.3) Selecionar os fatores com autovalores >=1
6) Gerar Scree Plot
7) Calcular as variâncias explicadas
7.1) Variância total de cada fator
7.2) Variância % de cada fator
7.3) Variância % acumulada dos fatores
8) Gerar a rotação dos fatores
8.1) Instanciar o FactorAnalyzer com o parâmetro rotation='varimax'
8.2) Obter as cargas fatoriais
8.3) Gerar matriz das cargas fatoriais
9) Interpretar os fatores
10) Dar nomes aos fatores


# Regressão Linear

A regressão linear é uma técnica que busca modelar a relação entre duas ou mais variáveis. Uma variável é considerada dependente e as outras, independentes.


In [None]:

## Exemplo

Pense em um conjunto de dados 'boston' que contém informações sobre diferentes casas em Boston. Uma regressão linear pode ser usada para prever o preço das casas com base em características como o número médio de quartos por habitação.



## Interpretação dos Resultados

Os coeficientes de regressão representam a mudança na variável dependente para cada unidade de mudança na variável independente. Também podemos calcular o erro quadrático médio (RMSE) para avaliar o desempenho do modelo.



## Pressupostos da Regressão Linear

A regressão linear faz várias suposições:

1. Linearidade: A relação entre as variáveis é linear.
2. Independência dos erros: Os erros são independentes entre si.
3. Homocedasticidade: A variância dos erros é constante.
4. Normalidade dos erros: Os erros são normalmente distribuídos.


In [None]:

## Verificando os Pressupostos

Os pressupostos da regressão linear podem ser verificados visualmente usando gráficos residuais, gráficos Q-Q e testes estatísticos, como o teste de Durbin-Watson para autocorrelação.



## Problemas Comuns e Soluções

1. **Multicolinearidade**: A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si. Pode ser detectada com o fator de inflação da variância (VIF) e tratada removendo variáveis ou usando técnicas de regularização.

2. **Autocorrelação**: A autocorrelação ocorre quando os erros não são independentes entre si. Pode ser detectada com o teste de Durbin-Watson e tratada usando técnicas de modelagem de séries temporais.

3. **Heteroscedasticidade**: A heteroscedasticidade ocorre quando a variância dos erros não é constante. Pode ser visualizada em um gráfico de resíduos versus valores ajustados e tratada transformando a variável dependente ou usando técnicas de modelagem mais robustas.



# Regressão Linear

A regressão linear é uma técnica que busca modelar a relação entre duas ou mais variáveis. Uma variável é considerada dependente e as outras, independentes.


In [None]:

## Exemplo

Pense em um conjunto de dados 'boston' que contém informações sobre diferentes casas em Boston. Uma regressão linear pode ser usada para prever o preço das casas com base em características como o número médio de quartos por habitação.



## Interpretação dos Resultados

Os coeficientes de regressão representam a mudança na variável dependente para cada unidade de mudança na variável independente. Também podemos calcular o erro quadrático médio (RMSE) para avaliar o desempenho do modelo.



## Pressupostos da Regressão Linear

A regressão linear faz várias suposições:

1. Linearidade: A relação entre as variáveis é linear.
2. Independência dos erros: Os erros são independentes entre si.
3. Homocedasticidade: A variância dos erros é constante.
4. Normalidade dos erros: Os erros são normalmente distribuídos.


In [None]:

## Verificando os Pressupostos

Os pressupostos da regressão linear podem ser verificados visualmente usando gráficos residuais, gráficos Q-Q e testes estatísticos, como o teste de Durbin-Watson para autocorrelação.



## Problemas Comuns e Soluções

1. **Multicolinearidade**: A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si. Pode ser detectada com o fator de inflação da variância (VIF) e tratada removendo variáveis ou usando técnicas de regularização.

2. **Autocorrelação**: A autocorrelação ocorre quando os erros não são independentes entre si. Pode ser detectada com o teste de Durbin-Watson e tratada usando técnicas de modelagem de séries temporais.

3. **Heteroscedasticidade**: A heteroscedasticidade ocorre quando a variância dos erros não é constante. Pode ser visualizada em um gráfico de resíduos versus valores ajustados e tratada transformando a variável dependente ou usando técnicas de modelagem mais robustas.
