# Python中的因子分析简介

https://www.datacamp.com/community/tutorials/introduction-factor-analysis

在本教程中，您将介绍以下主题：

* 因子分析

* 因子分析的类型

* 确定因素数量

* 因子分析与 主成分分析

* python中的因子分析

* 充分性测试

* 解释结果

* 因子分析的利弊

* 结论

## 因子分析

因子分析是一种线性统计模型。它用于解释观察变量之间的差异，并将一组观察到的变量压缩到称为因子的未观察变量中。观察到的变量被建模为因子和误差项的线性组合（来源）。因子或潜在变量与多个观察到的变量相关联，这些变量具有共同的响应模式。每个因素都解释了观察到的变量中的特定方差量。它通过减少变量的数量来帮助进行数据解释。

![](https://res.cloudinary.com/dchysltjf/image/upload/f_auto,q_auto:best/v1554830324/6.png)

因子分析是用于研究许多感兴趣的变量X1，X2，......，X1是否与较少数量的不可观察因子F1，F2，... ......，Fk线性相关的方法。

![](https://res.cloudinary.com/dchysltjf/image/upload/f_auto,q_auto:best/v1554830233/1.png)

来源：此图像是从我在因子分析说明中找到的图像重新创建的。该图像提供了因子分析的完整视图。

假设：

1 数据中没有异常值。

2 样本量应大于因子。

3 不应该有完美的多重共线性。

4 变量之间不应该存在同方差性。

## 因子分析的类型

* 探索性因子分析：它是社会和管理研究人员中最受欢迎的因子分析方法。其基本假设是任何观察到的变量都与任何因素直接相关。

* 验证性因子分析（CFA）：其基本假设是每个因子都与一组特定的观察变量相关联。CFA确认了基本的预期。

### 因子分析如何运作？

因子分析的主要目标是减少观察到的变量的数量并找到不可观察的变量。这些未观察到的变量有助于市场研究人员完成调查。将观察到的变量转换为未观察到的变量可以通过两个步骤实现：

* 因子提取：在此步骤中，使用方差分割方法（如主成分分析和公因子分析）选择因子数和提取方法。

* 因素轮换：在此步骤中，轮换会尝试将因子转换为不相关的因素 - 这一步骤的主要目标是提高整体可解释性。有许多可用的旋转方法，例如：Varimax旋转方法，Quartimax旋转方法和Promax旋转方法。


### 术语

#### 有什么因素？

因子是潜在变量，其描述了观察到的变量的数量之间的关联。最大因子数等于观察到的变量数。每个因素都解释了观察到的变量的某种变化。方差量最小的因素被删除。因素也称为潜在变量或隐藏变量或未观察到的变量或假设变量。

#### 因素负荷是什么？

因子加载是一个矩阵，显示每个变量与基础因子的关系。它显示了观测变量和因子的相关系数。它显示了由观察到的变量解释的方差。

#### 什么是特征值？

特征值表示方差，从总方差中解释每个因子。它也被称为特征根。


#### 什么是社区？

共性是每个变量的平方加载的总和。它代表了常见的差异。范围从0到1，值接近1表示更多方差。

![](https://res.cloudinary.com/dchysltjf/image/upload/f_auto,q_auto:best/v1554830233/2.png)


#### 什么是因素轮换？

轮换是更好地解释因子分析的工具。旋转可以是正交的或倾斜的。它以明确的负载模式重新分配了共性。


### 选择因素数量

Kaiser准则是一种分析方法，它基于因子选择的更大比例的方差来选择。特征值是确定因子数量的良好标准。通常，大于1的特征值将被视为特征的选择标准。


图形方法基于因子特征值的视觉表示，也称为scree图。这个碎石图有助于我们确定曲线弯曲的因素数量。

![](https://res.cloudinary.com/dchysltjf/image/upload/f_auto,q_auto:best/v1554830233/3.png)

## 因子分析与 主成分分析

* PCA组件解释了最大的方差量，而因子分析解释了数据的协方差。

* PCA组分彼此完全正交，而因子分析不要求因子是正交的。

* PCA组分是观察到的变量的线性组合，而在FA中，观察到的变量是未观察到的变量或因子的线性组合。

* PCA组件无法解释。在FA中，潜在因素是可以理解和可解释的。

* PCA是一种降维方法，而因子分析是潜变量方法。

* PCA是一种因子分析。PCA是观察性的，而FA是一种建模技术。


![](https://res.cloudinary.com/dchysltjf/image/upload/f_auto,q_auto:best/v1554830233/4.png)

## 使用factor_analyzer包在python中进行因子分析

### 导入所需的库

In [1]:
# Import required libraries
import pandas as pd
from sklearn.datasets import load_iris
from factor_analyzer import FactorAnalyzer
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'factor_analyzer'

In [3]:
import pkg_resources

In [2]:
pkg_resources.get_distribution("factor_analyzer").version

NameError: name 'pkg_resources' is not defined

## 加载数据

让我们对BFI（基于人格评估项目的数据集）进行因子分析，这是使用6点响应量表收集的：1非常不准确，2中度不准确，3略微不准确4准确，5中等准确，6非常准确。
您还可以从以下链接下载此数据集：https://vincentarelbundock.github.io/Rdatasets/datasets.html

In [4]:
df= pd.read_csv("avg_CCNnew41.8-spss.csv")

### 预处理数据

In [5]:
df.columns

Index(['CCN_1.0_cm3', 'CAPE_nc', 'Cloud_fra', 'HGT', 'H_LCL_nc', 'Have',
       'Hcb1.0', 'Hcbs1.0', 'Hmax', 'Hmin', 'Hsd', 'Htop1.0', 'L/S', 'LSM',
       'LTS', 'PBLH', 'PR', 'PTEM700', 'PTEMS', 'PW', 'P_LCL_nc', 'Pcb1.0',
       'Press', 'Ptop1.0', 'RH2', 'RH2m', 'Recb1.0', 'Retop1.0', 'SLI',
       'SS_1.0_mg', 'T1000', 'T2m_NCEP', 'T500', 'T700', 'T850', 'TOZONE',
       'T_LCL_nc', 'T_coal1.0', 'Tcb1.0', 'Tsfc_NPP', 'Ttop1.0', 'Wb_1.0',
       'FAC1', 'FAC2', 'FAC3', 'FAC4', 'FAC5', 'FAC6', 'FAC7', 'FAC8'],
      dtype='object')

In [6]:
# Dropping unnecessary columns
# NOTICE BJC is Time value
df.drop(['FAC1', 'FAC2', 'FAC3', 'FAC4', 'FAC5', 'FAC6', 'FAC7', 'FAC8'],axis=1,inplace=True)

In [7]:
df.drop(['CCN_1.0_cm3'],axis=1,inplace=True)

In [8]:
df.shape

(76936, 41)

In [9]:
# Dropping missing values rows
df.dropna(inplace=True)

In [10]:
df.shape

(75966, 41)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 75966 entries, 0 to 76935
Data columns (total 41 columns):
CAPE_nc      75966 non-null float64
Cloud_fra    75966 non-null float64
HGT          75966 non-null float64
H_LCL_nc     75966 non-null float64
Have         75966 non-null float64
Hcb1.0       75966 non-null float64
Hcbs1.0      75966 non-null float64
Hmax         75966 non-null float64
Hmin         75966 non-null float64
Hsd          75966 non-null float64
Htop1.0      75966 non-null float64
L/S          75966 non-null float64
LSM          75966 non-null float64
LTS          75966 non-null float64
PBLH         75966 non-null float64
PR           75966 non-null float64
PTEM700      75966 non-null float64
PTEMS        75966 non-null float64
PW           75966 non-null float64
P_LCL_nc     75966 non-null float64
Pcb1.0       75966 non-null float64
Press        75966 non-null float64
Ptop1.0      75966 non-null float64
RH2          75966 non-null float64
RH2m         75966 non-null

In [12]:
df.head()

Unnamed: 0,CAPE_nc,Cloud_fra,HGT,H_LCL_nc,Have,Hcb1.0,Hcbs1.0,Hmax,Hmin,Hsd,...,T500,T700,T850,TOZONE,T_LCL_nc,T_coal1.0,Tcb1.0,Tsfc_NPP,Ttop1.0,Wb_1.0
0,2121.0,0.03945,632.0,694.6,567.0,2006.0,1384.0,1336.5,159.5,213.0,...,-4.45,11.85,20.85,283.1,21.9,17.5,17.5,31.0,-19.0,1.245
1,2048.666667,0.064533,720.666667,731.533333,440.333333,1545.333333,1225.666667,1089.666667,84.333333,209.666667,...,-4.45,11.85,20.85,283.1,21.166667,19.666667,20.333333,33.666667,-5.0,1.106667
2,1904.0,0.0491,898.0,805.4,510.0,1510.0,1140.0,1231.5,40.0,273.5,...,-4.85,11.85,20.35,283.1,19.7,20.5,20.5,34.5,2.0,1.025
3,1904.0,0.0186,898.0,805.4,380.0,1391.0,1172.0,1262.0,4.0,231.0,...,-4.85,11.85,20.35,283.1,19.7,21.0,21.0,35.0,5.0,1.06
4,2121.0,0.2045,632.0,694.6,454.0,1441.0,1099.0,1128.0,131.0,209.0,...,-4.25,11.45,19.85,279.3,21.9,20.0,20.0,32.0,-5.0,0.99


In [1]:
def factor_analysis(df):
    #充分性测试
    chi_square_value,p_value=calculate_bartlett_sphericity(df)
    print(chi_square_value, p_value)
    kmo_all,kmo_model=calculate_kmo(df)
    print(kmo_model)
    fa = FactorAnalyzer(rotation=None)
    fa.fit(df)
    # Check Eigenvalues
    ev, v = fa.get_eigenvalues()
    print(ev)
    plt.scatter(range(1,df.shape[1]+1),ev)
    plt.plot(range(1,df.shape[1]+1),ev)
    plt.title('Scree Plot')
    plt.xlabel('Factors')
    plt.ylabel('Eigenvalue')
    plt.axhline(y=1, color='r', linestyle='-')
    plt.grid()
    plt.show()
    #执行因子分析
    fav= FactorAnalyzer(n_factors=6,rotation="varimax")
    fav.fit(df)
    fav.loadings_
    #Calculate the eigenvalues, given the factor correlation matrix
    fav.get_eigenvalues()
    # Calculate the communalities, given the factor loading matrix.
    fav.get_communalities()
    # Get variance of each factors
    fav.get_factor_variance()
    #Calculate the uniquenesses, given the factor loading matrix.
    fav.get_uniquenesses()
    #Get the factor scores for new data set.
    trans=fav.transform(df)
    print(fav.transform(df).shape)
    return trans

# issue
同样的问题。解决了安装先前版本的因子分析器的问题：

pip install factor_analyzer == 0.3.1

非常感谢Avinash教程。

by liuchongcn@126.com @NJU 2019-07-03

![简书](https://raw.githubusercontent.com/xigrug/xigrug.github.io/master/picture/jianshuQR1.jpg)