<a href="https://colab.research.google.com/github/JuanCervigon/Master/blob/main/100_FA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisis Factorial

Para realizar FA, primero creamos un objeto (llamado fa) de la clase FactorAnalyzer() especificando valores relevantes para los hiperparámetros. Luego, llamamos a su método fit() para realizar FA. Proporcionamos datos escalados al método fit(). Luego llamamos a varios métodos y atributos del objeto fa para obtener toda la información que necesitamos.

Podemos usar varias funciones print() para formatear la salida. Finalmente, llamamos al método transform() del objeto fa para obtener las puntuaciones de los factores.

Finalmente, almacenamos los resultados en un archivo CSV y en un archivo Excel para uso futuro. La dimensión del nuevo conjunto de datos (reducido) es 55 x 2. Solo hay dos columnas. Esto se debe a que decidimos mantener solo dos factores que en conjunto explican alrededor del 81% de la variabilidad en los datos originales.


## Librerías

Utilizamos la librería factor_analyzer, que implementa el método del factor principal para el cálculo de la matriz de cargas




In [None]:
# instalamos la librería factor_analyzer
!pip install factor_analyzer

Collecting factor_analyzer
  Downloading factor_analyzer-0.5.1.tar.gz (42 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/42.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━[0m [32m41.0/42.8 kB[0m [31m1.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m849.4 kB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: factor_analyzer
  Building wheel for factor_analyzer (pyproject.toml) ... [?25l[?25hdone
  Created wheel for factor_analyzer: filename=factor_analyzer-0.5.1-py2.py3-none-any.whl size=42564 sha256=fffd491efa8b9be275da696ff54b2fe7ab2a314885fdd7bb9bca58087c9e200a
  Stored in d

In [None]:
# importamos las librerías necesarias
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt


## Datos

Se utiliza una base de datos de los records nacionales femeninos en 55 países obtenidos en 7 modalidades

* x1:    100m (segundos)
* x2:    200m (segundos)
* x3:    400m (segundos)
* x4:    800m (minutos)
* x5:  1.500m (minutos)
* x6:  3.000m (minutos)
* x7: Maraton (minutos)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Leer el fichero
ruta='/content/drive/MyDrive/Data/women_track_records.csv'
df = pd.read_csv(ruta)


In [None]:
df

In [None]:
# seleccionar todas las variables excepto la primera
x = df.iloc[:, 1:8]

# estandarizar los datos
from sklearn.preprocessing import StandardScaler
estandarizar = StandardScaler()
x_std = estandarizar.fit_transform(x)

# Estimar el modelo FA


In [None]:
# instanciar un modelo de Analisis Factorial
from factor_analyzer import FactorAnalyzer
fa = FactorAnalyzer(n_factors=2, rotation="varimax", method="principal",
                    is_corr_matrix=False)

# ajustar los datos
fa.fit(x_std)


# Resultados

In [None]:
# obtener resultados del modelo
print("Valores propios:")
print(fa.get_eigenvalues()[0])
print()
print("Comunalidades:")
print(fa.get_communalities())
print()
print("Especificidades:")
print(fa.get_uniquenesses())
print()
print("Matriz de cargas:")
print(fa.loadings_)

Valores propios:
[5.06759677 0.6020256  0.44429295 0.36590389 0.26931274 0.13929091
 0.11157713]

Comunalidades:
[0.8632044  0.86854473 0.77623794 0.84827979 0.79619776 0.73826138
 0.77889637]

Especificidades:
[0.1367956  0.13145527 0.22376206 0.15172021 0.20380224 0.26173862
 0.22110363]

Matriz de cargas:
[[0.8399412  0.3971186 ]
 [0.86109019 0.35646657]
 [0.81415209 0.33674071]
 [0.61543129 0.6852183 ]
 [0.22614824 0.86316553]
 [0.48965453 0.7060452 ]
 [0.46668107 0.74906952]]


In [None]:
# comprobar que 1=comunalidades + espedificidades
print(fa.get_communalities()+fa.get_uniquenesses())

[1. 1. 1. 1. 1. 1. 1.]


In [None]:
transformed_df = pd.DataFrame(fa.transform(x_std), columns=['RF1', 'RF2'])
transformed_df.to_csv("puntuaciones.csv", index=False)
transformed_df.to_excel("puntaciones.xlsx", index=False)

El análisis factorial no sirve solo para reducir la dimensionalidad, sino también para encontrar variables latentes.


Seleccionar el mejor número de factores es subjetivo. Depende de los datos y su dominio. A veces, no podemos decidir cuál es el mejor número de factores mirando únicamente el gráfico de decantación. La regla de escoger factores con valor propio mayor que la unidad tampoco es una regla estricta. Siempre hay flexibilidad. Lo general es que a menudo debemos mantener un buen equilibrio entre el número de factores, la cantidad de variabilidad explicada por los factores seleccionados y la inteerpretación de los factores.