# Análisis Factorial

In [None]:
# Importo librerías
import pandas as pd
from factor_analyzer import FactorAnalyzer # pip install factor_analyzer
from factor_analyzer.factor_analyzer import calculate_kmo
import matplotlib.pyplot as plt

In [None]:
# Cargo el dataset
df= pd.read_csv("bfi.csv") # https://osf.io/s87kd/

In [None]:
df.head()

* A: Agradable
* E: Extraversión
* N: Neuroticismo
* C: Conciencia
* O: Open Mind

In [None]:
# Elimino columnas innecesarias
df.drop(['gender', 'education', 'age'],axis=1,inplace=True)

In [None]:
df.isnull().sum()

In [None]:
# Elimino filas con valores missings
df.dropna(inplace=True)
df[:2]

In [None]:
df.isnull().sum()

In [None]:
df.shape

Se realiza KMO el test de Kaiser-Meyer-Olkin (KMO) para ver cómo de indicados son los datos para realizar un análisis factorial. Posteriormente se ajustan los datos a un modelo de análisis factorial con 25 factores. 

In [None]:
# Realizo el test de Kaiser-Meyer-Olkin
# Indica cómo de adecuada es la muestra a hacer un análisis factorial
# Los valores entre 0.5 y 1 indican que es apropiado aplicarlo
kmo_all,kmo_model=calculate_kmo(df)
print('El valor KMO es: {}\n[0.5-1] -> Valores adecuados para análisis factorial'.format(round(kmo_model,2)))

In [None]:
# Ajusto un modelo de análisis factorial a los datos
fa = FactorAnalyzer(n_factors=df.shape[1], 
                    rotation=None)
fa.fit(df)

In [None]:
# Criterio 1: Kaiser Criterion
# Compruebo los autovalores > 1
ev, v = fa.get_eigenvalues()
print('--- Criterio 1: Kaiser Criterion')
print(u'El número de factores adecuado según el criterio de Kaiser (autovalor>1) es {}'.format(sum(ev>1)))

In [None]:
# Criterio 2: gráfica de sedimentación
# Compruebo un codo en la gráfica, punto en el que está el
# número de factores
print('\n--- Criterio 2: gráfica de sedimentación')
plt.scatter(range(1,df.shape[1]+1),ev)
plt.plot(range(1,df.shape[1]+1),ev)
plt.title(u'Gráfica de sedimentación')
plt.xlabel('Factor')
plt.ylabel('Autovalor')
plt.axhline(1, c="green")
plt.grid()
plt.show()

Llegados a este punto, se genera un análisis factorial con el número de factores calculados como el óptimo en el punto anterior, en la gráfica anterior 5, 6 y 7 parecen óptimos.

In [None]:
# Creo el análisis factorial con 6 factores y analizo los factores
fa = FactorAnalyzer(n_factors=6, 
                    rotation="varimax")
fa.fit(df)

In [None]:
fa.loadings_

In [None]:
columnas_factores = ['Factor 1', 'Factor 2', 'Factor 3', 'Factor 4', 'Factor 5', 'Factor 6']

rasgos_personalidad = pd.DataFrame(fa.loadings_, 
                                   index=df.columns, 
                                   columns=columnas_factores)

In [None]:
rasgos_personalidad

In [None]:
rasgos_personalidad["Factor 1"].sort_values(ascending=False)

In [None]:
rasgos_personalidad["Factor 2"].sort_values(ascending=False)

In [None]:
# Obtengo las varianzas de los factores
nombres_varianzas = ['Varianza del factor', 'Proporción de varianza', 'Varianza acumulada']
pd.DataFrame(fa.get_factor_variance(), columns=columnas_factores, index=nombres_varianzas)