# **Generaci√≥n de modelo de an√°lisis factorial**

## Objetivo
Partir de un *dataset* con m√∫ltiples variables observadas (ej. gastos, frecuencias, montos, etc.) y obtener:
1. Un conjunto reducido de **factores latentes**.
2. Las **cargas factoriales** (qu√© tan relacionada est√° cada variable con cada factor).
3. Las **puntuaciones factoriales** (el valor de cada observaci√≥n en cada factor), √∫tiles para auditor√≠a o ML.


## Paso a paso: c√≥mo construir un modelo de an√°lisis factorial

### **Paso 1: Preparar los datos**
- **Variables num√©ricas**: el an√°lisis factorial solo funciona con datos cuantitativos.
- **Sin valores faltantes**: elimina o imputa los datos faltantes.
- **Estandarizaci√≥n**: como las variables pueden tener escalas distintas (ej. ‚Äún√∫mero de viajes‚Äù vs ‚Äúmonto en d√≥lares‚Äù), se **estandarizan** (media = 0, desviaci√≥n est√°ndar = 1). Esto es esencial.

> ‚úÖ *En auditor√≠a, esto significa asegurarte de que todas tus m√©tricas est√©n en formato num√©rico y limpio.*


### **Paso 2: Verificar si los datos son adecuados para an√°lisis factorial**
Antes de aplicar el modelo, debes confirmar que **vale la pena** hacerlo:

- **Test de esfericidad de Bartlett**:  
  ‚Üí Prueba si las variables est√°n suficientemente correlacionadas.  
  ‚Üí *p-valor < 0.05* = s√≠ hay correlaciones √∫tiles.

- **Medida de adecuaci√≥n muestral de Kaiser-Meyer-Olkin (KMO)**:  
  ‚Üí Valores > 0.6 son aceptables; > 0.8 es excelente.

>  Si KMO es bajo o Bartlett no es significativo, el an√°lisis factorial no ser√° √∫til.


### **Paso 3: Decidir cu√°ntos factores extraer**
M√©todos comunes:
- **Regla de Kaiser**: conservar factores con autovalor > 1.
- **Gr√°fico de sedimentaci√≥n (scree plot)**: mirar d√≥nde se "aplana" la curva.
- **Porcentaje de varianza explicada**: buscar que los factores expliquen al menos 60‚Äì70% de la varianza total.

> En auditor√≠a, a menudo se prefiere **menos factores** (2‚Äì4) para facilitar la interpretaci√≥n.


### **Paso 4: Extraer los factores**
Se aplica un algoritmo (como **m√°xima verosimilitud** o **m√≠nimos cuadrados**) para estimar:
- La **matriz de cargas factoriales**: muestra c√≥mo cada variable se relaciona con cada factor.
- Opcional: se aplica una **rotaci√≥n** (como *Varimax*) para hacer los factores m√°s interpretables (maximiza cargas altas y minimiza las bajas).


### **Paso 5: Interpretar los factores**
- Revisa qu√© variables tienen **cargas altas** (ej. > 0.4 o > 0.5) en cada factor.
- Dale un **nombre conceptual** al factor basado en esas variables (ej. ‚Äúgasto no documentado‚Äù, ‚Äúactividad intensa‚Äù).


### **Paso 6: Calcular las puntuaciones factoriales**
- Cada observaci√≥n (ej. cada empleado o transacci√≥n) recibe una **puntuaci√≥n en cada factor**.
- Estas puntuaciones se pueden usar para:
  - Clasificar riesgos
  - Alimentar modelos de ML
  - Detectar outliers




## üêç Ejemplo pr√°ctico en Python (listo para VS Code)


In [None]:
! pip install factor-analyzer

In [None]:
import pandas as pd
import numpy as np
from factor_analyzer import FactorAnalyzer
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity, calculate_kmo
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
import os


In [None]:
# Configuraci√≥n
np.random.seed(42)  # Para reproducibilidad


In [None]:

# Paso 1: Generar un dataset m√°s robusto (50 empleados)
n = 50
data = {
    "Monto_total": np.random.normal(1500, 800, n).clip(200, 5000),
    "Num_viajes": np.random.poisson(2, n).clip(0, 8),
    "Pct_finde": np.random.beta(2, 5, n) * 100,  # mayor√≠a en d√≠as laborables
    "Destinos_no_habituales": np.random.poisson(0.5, n).clip(0, 5),
    "Sin_factura": np.random.poisson(0.3, n).clip(0, 3),
    "Dias_hasta_reembolso": np.random.exponential(3, n).clip(0, 30).astype(int),
    "Cargo_alto": np.random.binomial(1, 0.3, n),  # 30% son altos cargos
    "Agencia_no_autorizada": np.random.binomial(1, 0.2, n)  # 20% usan agencias no autorizadas
}

# Introducir intencionalmente un patr√≥n de riesgo en algunos empleados
for i in range(5):
    idx = np.random.choice(n)
    data["Monto_total"][idx] = np.random.uniform(4000, 6000)
    data["Pct_finde"][idx] = np.random.uniform(70, 100)
    data["Destinos_no_habituales"][idx] = np.random.randint(3, 6)
    data["Sin_factura"][idx] = np.random.randint(2, 4)
    data["Agencia_no_autorizada"][idx] = 1

df = pd.DataFrame(data).round(2)
print("‚úÖ Dataset generado con", len(df), "observaciones y", df.shape[1], "variables.\n")


In [None]:

# Paso 2: Estandarizar
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
df_scaled = pd.DataFrame(df_scaled, columns=df.columns)


In [None]:

# Paso 3: Verificar adecuaci√≥n
try:
    chi2, p = calculate_bartlett_sphericity(df_scaled)
    kmo_all, kmo_model = calculate_kmo(df_scaled)
except Exception as e:
    print("‚ö†Ô∏è Error en pruebas de adecuaci√≥n:", e)
    print("Revisa que haya suficientes observaciones y no haya variables constantes.")
    raise

print(f"üîπ Bartlett test p-valor: {p:.4f} ‚Üí {'‚úÖ Adecuado' if p < 0.05 else '‚ùå No adecuado'}")
print(f"üîπ KMO: {kmo_model:.3f} ‚Üí {'‚úÖ Aceptable' if kmo_model > 0.6 else '‚ùå No recomendado'}")
if kmo_model < 0.5:
    print("‚ö†Ô∏è Advertencia: KMO bajo. Considera eliminar variables con baja correlaci√≥n.")

print("\n" + "="*60 + "\n")


In [None]:

# Paso 4: Scree plot (autovalores)
try:
    fa = FactorAnalyzer(n_factors=df.shape[1], rotation=None, method='ml')
    fa.fit(df_scaled)
    ev, v = fa.get_eigenvalues()
except np.linalg.LinAlgError:
    print("‚ùå Error: No se pudieron calcular autovalores. Reduciendo dimensionalidad...")
    # Alternativa: usar PCA para scree plot (m√°s estable)
    from sklearn.decomposition import PCA
    pca = PCA()
    pca.fit(df_scaled)
    ev = pca.explained_variance_
    print("‚úÖ Scree plot generado usando PCA como respaldo.")

# Graficar
plt.figure(figsize=(9, 5))
plt.scatter(range(1, len(ev)+1), ev, color='steelblue', s=50)
plt.plot(range(1, len(ev)+1), ev, color='steelblue', linestyle='--')
plt.axhline(y=1, color='red', linestyle='-', label='Regla de Kaiser (EV = 1)')
plt.title('Gr√°fico de Sedimentaci√≥n (Scree Plot)', fontsize=14)
plt.xlabel('N√∫mero de Factores')
plt.ylabel('Autovalores')
plt.xticks(range(1, len(ev)+1))
plt.grid(True, linestyle=':', alpha=0.7)
plt.legend()
plt.tight_layout()

# Guardar y mostrar
output_file = "scree_plot.png"
plt.savefig(output_file, dpi=150)
print(f"üìä Gr√°fico guardado como: {os.path.abspath(output_file)}")
plt.show()

# N√∫mero de factores sugeridos
n_sugeridos = sum(ev > 1)
n_factores = max(1, min(n_sugeridos, 4))
print(f"\nüí° Factores sugeridos (EV > 1): {n_sugeridos} ‚Üí Usaremos {n_factores}.\n")


In [None]:
# Paso 5: An√°lisis factorial
try:
    fa_rot = FactorAnalyzer(n_factors=n_factores, rotation="varimax", method="ml")
    fa_rot.fit(df_scaled)
    
    cargas = pd.DataFrame(
        fa_rot.loadings_,
        index=df.columns,
        columns=[f"Factor_{i+1}" for i in range(n_factores)]
    )
    print("üìà Cargas factoriales:")
    print(cargas.round(3))
    
    # Puntuaciones
    puntuaciones = fa_rot.transform(df_scaled)
    df_puntuaciones = pd.DataFrame(puntuaciones, columns=cargas.columns)
    print(f"\nüîç Primeras 5 puntuaciones factoriales:")
    print(df_puntuaciones.head().round(3))

except Exception as e:
    print("‚ùå Error en el an√°lisis factorial:", e)
    print("Posibles causas: demasiados factores, datos insuficientes o multicolinealidad.")
    # Alternativa: usar solo las primeras 2-3 variables m√°s relevantes
    print("üí° Sugerencia: reduce el n√∫mero de variables o aumenta el tama√±o de la muestra.")



## Qu√© se obtienes al ejecutar:

1. **Diagn√≥stico**: si tus datos son aptos para an√°lisis factorial.
2. **Gr√°fico de sedimentaci√≥n**: para decidir cu√°ntos factores usar.
3. **Tabla de cargas**: qu√© variables definen cada factor.
4. **Puntuaciones por observaci√≥n**: listas para priorizar en auditor√≠a.

> En tu caso real, reemplazar√≠as el `data` simulado con tus datos reales (por ejemplo, exportados de SAP, Oracle o Excel).