In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from pylab import rcParams

%matplotlib inline

In [2]:
sns.set(style='whitegrid', palette='muted', font_scale=1.5)

rcParams['figure.figsize'] = 14, 8

plt.xkcd()

RANDOM_SEED = 42

# Факторен анализ

Нуждата от факторен анализ е възникнала при обработка на данни от психо-социологични анкети. При такъв тип изследвания обикновено се предполага, че изследваното явление се описва с неизвестен (малък) брой фактори, които не можем да измерим директно. Единствено може да наблюдаваме голям брой променливи, които са функции от тях.

## Цел на ФА?

Построяване на модел, който обяснява вариация и коварция между множество наблюдения, като се представят чрез множество от фактори и тегла.

## Представяне

Търсим представяне на данните в следната форма:

$$X = FL + E$$

Където $X \in R^{n \times m}$ е матрицата на центрирараните и нормирани наблюдения, а $E \in R^{n \times m}$ на грешките

#### Дефиниции

- **Факторни тегла** се наричат коефициентите на разлагане на първоначалните променливи по факторите - $L \in R^{k \times m}$.
- **Факторни стойности** се наричат оценените стойности на факторите за всяко наблюделние - $F \in R^{n \times k}$
- **Общност** е относителната дисперсия на всяка променлива в новото й описание. Т.е. общностите показват доколко стойностите на конкретната променлива могат да бъдат предсказани или възстановени от факторните стойности.

#### Основни задачи

- Да се определи броят на необходимите фактори за описание на явлението
- Да се намерят факторите

### Главни компоненти

Предложеният от Хотелинг метод на главните компоненти позволява да определим до колко даден брой фактори описват изучаваното явление. Допълнително, този метод намира и самите фактори.

Главните компоненти съответстват на осите на елипсоида на разсейване на точките, представящи обектите (данните), в пространството на наблюдаваните променливи. Техният брой е равен на този на променливите. Главните компоненти могат да бъдат разглеждани като фактори, т.е. нови променливи, които са независими и описват извадката. Тази независимост позволява общата дисперсия да се представи като сбор на отделните (нови) променливи.

Чрез отстраняване на факторите, които имат дисперсия по малка от предварително определена стойност $\epsilon$, можем да редуцираме броя на променливите, като запазим задоволително описание на явлението.

#### Метод на главните компоненти

Този метод търси корелационна матрица $R$, където $r(x_i, x_j)$ е корелационният коефициент за променливите $x_i, x_j$. Сумата от собствените стойности на тази матрица е точно равна на броя на участващите променливи $p$. Теглото на даден фактор $F$ се определя от това до колко той обяснява общата вариация.

Хотелинг е показал, че намирането на факторите, при фиксирано $k$ се дава от подпространството, образувано от първите $k$ собствени вектора.  Ако разгледаме разсейването на извадката $S^2 = \sum{||x_i||^2}$, то ествествено е да търсим подпространство $H$ с размерност $k$, за фиксирано $k, 1 \leq k \leq m$, за което експерименталните точки биха се преместили минимално при своето проектиране $P$ върху него. При него най-малко би се изменила и дисперсията $S^2$:

$$S^2 = \sum{||x_i||^2 = \sum{||P_kx_i||^2 + \sum{||x_i - P_kx_i||^2}}}$$

### Критерий за избор на $K$

Изборът на $k$ се направлява от изискването да се представи възможно най-пълно да се представи най-пълно разсейването на извадката:

$$\sum_{i=1}^n||P_kx_i||^2 \geq .95\sum_{i=1}^n||x_i||^2$$

#### Критерий на Кайзер

Този критерий избира само собствените вектори със собствени стойности, които са по-големи от единица. Наистина, когато използваме корелационна матрица $\sum{a_i} = trR = m$.

## Кога да използваме ФА?

- Получаване на взаимно независими факторни променливи, които може да бъдат използвани за регресионен анализ
- Намаляване размерността на първоначалното пространство


## Пример

# Resources

- https://www.khanacademy.org/math/statistics-probability/describing-relationships-quantitative-data/regression-library/v/introduction-to-residuals-and-least-squares-regression
- https://onlinecourses.science.psu.edu/stat501/node/250
- http://onlinestatbook.com/2/regression/intro.html
- http://ci.columbia.edu/ci/premba_test/c0331/s7/s7_6.html
- https://www.probabilitycourse.com/chapter8/8_5_0_linear_regression.php