In [1]:
import pandas as pd
import numpy as np
from factor_analyzer import FactorAnalyzer, calculate_kmo
from scipy.stats import bartlett
from sklearn.datasets import make_spd_matrix
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Simulación de datos: Generar una matriz de datos con correlaciones
np.random.seed(42)
data = np.random.multivariate_normal(np.zeros(10), make_spd_matrix(10), size=100)
df = pd.DataFrame(data, columns=[f'Item{i+1}' for i in range(10)])



In [2]:
# Cálculo del Alfa de Cronbach
def cronbach_alpha(df):
    item_vars = df.var(axis=0, ddof=1)
    total_var = df.sum(axis=1).var(ddof=1)
    n_items = df.shape[1]
    return n_items / (n_items - 1) * (1 - item_vars.sum() / total_var)

alpha = cronbach_alpha(df)
print(f'Alfa de Cronbach: {alpha:.2f}')



Alfa de Cronbach: -0.35


In [None]:
# Cálculo de KMO
kmo_all, kmo_model = calculate_kmo(df)
print(f'KMO: {kmo_model:.2f}')

# Prueba de Esfericidad de Bartlett
chi2, p_value = bartlett(*df.values.T)
print(f'Chi2: {chi2:.2f}, p-value: {p_value:.2f}')

# Análisis Factorial Exploratorio (EFA)
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(df)

# Cargas factoriales
loadings = fa.loadings_
print('Cargas factoriales:')
print(loadings)

# Análisis Factorial Confirmatorio (CFA) con statsmodels
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Simulación de datos para CFA
df['Factor1'] = np.dot(df.iloc[:, :3], loadings[:3, 0])
df['Factor2'] = np.dot(df.iloc[:, 3:7], loadings[3:7, 1])
df['Factor3'] = np.dot(df.iloc[:, 7:], loadings[7:, 2])

# Modelo CFA
model = ols('Factor1 ~ Item1 + Item2 + Item3 + Item4 + Item5', data=df).fit()
print(model.summary())

# Índices de ajuste para CFA
def calc_fit_indices(model):
    chi2 = model.ssr / model.df_resid
    rmsea = np.sqrt(chi2 / (model.nobs - model.df_model - 1))
    return {
        'Chi2': chi2,
        'RMSEA': rmsea,
        'CFI': sm.regression.linear_model.OLS(df['Factor1'], sm.add_constant(df.iloc[:, :5])).fit().rsquared
    }

fit_indices = calc_fit_indices(model)
print('Índices de ajuste:')
print(fit_indices)


In [None]:
# Cálculo de KMO
kmo_all, kmo_model = calculate_kmo(df)
print(f'KMO: {kmo_model:.2f}')

# Prueba de Esfericidad de Bartlett
chi2, p_value = bartlett(*df.values.T)
print(f'Chi2: {chi2:.2f}, p-value: {p_value:.2f}')

# Análisis Factorial Exploratorio (EFA)
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(df)

# Cargas factoriales
loadings = fa.loadings_
print('Cargas factoriales:')
print(loadings)

# Análisis Factorial Confirmatorio (CFA) con statsmodels
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Simulación de datos para CFA
df['Factor1'] = np.dot(df.iloc[:, :3], loadings[:3, 0])
df['Factor2'] = np.dot(df.iloc[:, 3:7], loadings[3:7, 1])
df['Factor3'] = np.dot(df.iloc[:, 7:], loadings[7:, 2])

# Modelo CFA
model = ols('Factor1 ~ Item1 + Item2 + Item3 + Item4 + Item5', data=df).fit()
print(model.summary())

# Índices de ajuste para CFA
def calc_fit_indices(model):
    chi2 = model.ssr / model.df_resid
    rmsea = np.sqrt(chi2 / (model.nobs - model.df_model - 1))
    return {
        'Chi2': chi2,
        'RMSEA': rmsea,
        'CFI': sm.regression.linear_model.OLS(df['Factor1'], sm.add_constant(df.iloc[:, :5])).fit().rsquared
    }

fit_indices = calc_fit_indices(model)
print('Índices de ajuste:')
print(fit_indices)


In [4]:
import pandas as pd
import numpy as np
from factor_analyzer import FactorAnalyzer, calculate_kmo
from scipy.stats import bartlett
from sklearn.datasets import make_spd_matrix
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Simulación de datos: Generar una matriz de datos con correlaciones
np.random.seed(42)
data = np.random.multivariate_normal(np.zeros(10), make_spd_matrix(10), size=100)
df = pd.DataFrame(data, columns=[f'Item{i+1}' for i in range(10)])

# Cálculo del Alfa de Cronbach
def cronbach_alpha(df):
    item_vars = df.var(axis=0, ddof=1)
    total_var = df.sum(axis=1).var(ddof=1)
    n_items = df.shape[1]
    return n_items / (n_items - 1) * (1 - item_vars.sum() / total_var)

alpha = cronbach_alpha(df)
print(f'Alfa de Cronbach: {alpha:.2f}')

# Cálculo de KMO
kmo_all, kmo_model = calculate_kmo(df)
print(f'KMO: {kmo_model:.2f}')

# Prueba de Esfericidad de Bartlett
chi2, p_value = bartlett(*df.values.T)
print(f'Chi2: {chi2:.2f}, p-value: {p_value:.2f}')

# Análisis Factorial Exploratorio (EFA)
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(df)

# Cargas factoriales
loadings = fa.loadings_
print('Cargas factoriales:')
print(loadings)

# Análisis Factorial Confirmatorio (CFA) con statsmodels
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Simulación de datos para CFA
df['Factor1'] = np.dot(df.iloc[:, :3], loadings[:3, 0])
df['Factor2'] = np.dot(df.iloc[:, 3:7], loadings[3:7, 1])
df['Factor3'] = np.dot(df.iloc[:, 7:], loadings[7:, 2])

# Modelo CFA
model = ols('Factor1 ~ Item1 + Item2 + Item3 + Item4 + Item5', data=df).fit()
print(model.summary())

# Índices de ajuste para CFA
def calc_fit_indices(model):
    chi2 = model.ssr / model.df_resid
    rmsea = np.sqrt(chi2 / (model.nobs - model.df_model - 1))
    return {
        'Chi2': chi2,
        'RMSEA': rmsea,
        'CFI': sm.regression.linear_model.OLS(df['Factor1'], sm.add_constant(df.iloc[:, :5])).fit().rsquared
    }

fit_indices = calc_fit_indices(model)
print('Índices de ajuste:')
print(fit_indices)


Alfa de Cronbach: -0.35
KMO: 0.69
Chi2: 334.31, p-value: 0.00
Cargas factoriales:
[[ 0.77960596 -0.04917251 -0.11923768]
 [ 0.81343944  0.27352392  0.15997986]
 [-0.72307507 -0.21747486 -0.50938487]
 [ 0.1220417   0.11501737  0.98671406]
 [-0.8928442  -0.2526129  -0.2669693 ]
 [ 0.54170793  0.18306965  0.24107677]
 [-0.07159924 -0.87962498 -0.11868851]
 [ 0.48282439  0.40819366  0.12820349]
 [ 0.48816956  0.53293681  0.0591172 ]
 [ 0.86125962  0.38595589  0.18624094]]


ValueError: shapes (100,5) and (3,) not aligned: 5 (dim 1) != 3 (dim 0)

In [6]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from factor_analyzer import FactorAnalyzer, calculate_kmo, calculate_bartlett_sphericity
import statsmodels.api as sm
import numpy as np

# Cargar los datos
df = pd.read_csv('Employee Attrition.csv')

# Seleccionar columnas numéricas
numeric_columns = [
    'satisfaction_level', 'last_evaluation', 'number_project', 
    'average_montly_hours', 'time_spend_company', 'Work_accident', 
    'promotion_last_5years'
]

# Imputar valores faltantes con la media
df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].mean())

# Estandarizar los datos
scaler = StandardScaler()
df_numeric = scaler.fit_transform(df[numeric_columns])

# Calcular KMO y prueba de esfericidad de Bartlett
kmo_all, kmo_model = calculate_kmo(df_numeric)
bartlett_chi_square, bartlett_p_value = calculate_bartlett_sphericity(df_numeric)

print(f"KMO Model: {kmo_model}")
print(f"Bartlett's Test: Chi-Square = {bartlett_chi_square}, p-value = {bartlett_p_value}")

# Realizar Análisis Factorial Exploratorio (EFA) con diferentes números de factores
for n_factors in range(1, 4):
    fa = FactorAnalyzer(n_factors=n_factors, rotation='varimax')
    fa.fit(df_numeric)
    
    # Verificar la varianza explicada por cada factor
    variance = fa.get_factor_variance()
    print(f"Number of Factors: {n_factors}")
    print(f"Factor Variance: {variance}")
    
    # Obtener las cargas factoriales
    loadings = fa.loadings_
    print(f"Factor Loadings for {n_factors} factors:\n{loadings}\n")

# Realizar Análisis Factorial Confirmatorio (CFA) utilizando statsmodels
X = df_numeric[:, 1:]
y = df_numeric[:, 0]
model = sm.OLS(y, X)
results = model.fit()

print(f"CFA Results: {results.summary()}")



KMO Model: 0.6270063648376561
Bartlett's Test: Chi-Square = 7709.041435943096, p-value = 0.0
Number of Factors: 1
Factor Variance: (array([1.19500725]), array([0.17071532]), array([0.17071532]))
Factor Loadings for 1 factors:
[[-0.07185504]
 [ 0.51227766]
 [ 0.70261333]
 [ 0.60603996]
 [ 0.25740947]
 [-0.01393851]
 [ 0.00344254]]

Number of Factors: 2
Factor Variance: (array([1.20419167, 1.03032241]), array([0.17202738, 0.14718892]), array([0.17202738, 0.3192163 ]))
Factor Loadings for 2 factors:
[[-0.07725378  0.99453615]
 [ 0.54052461  0.14729983]
 [ 0.68843291 -0.09248856]
 [ 0.60654108  0.02935501]
 [ 0.25314242 -0.08088028]
 [-0.01124854  0.05589024]
 [ 0.00413682  0.02101988]]

Number of Factors: 3
Factor Variance: (array([1.20036474, 0.83684777, 0.18931058]), array([0.17148068, 0.11954968, 0.02704437]), array([0.17148068, 0.29103036, 0.31807473]))
Factor Loadings for 3 factors:
[[-0.01484192  0.88102804  0.12628747]
 [ 0.55376656  0.12932844 -0.01220089]
 [ 0.67896673 -0.1505324



Interpretación de Resultados:
Medida KMO: 0.63

Es aceptable pero podría ser mejor. Valores superiores a 0.70 son preferibles.
Prueba de Esfericidad de Bartlett: Chi2 = -0.00, p-value = 1.00

Este resultado indica que la prueba no es significativa, lo que sugiere que los datos pueden no ser adecuados para el análisis factorial. Esto podría ser una señal de que las correlaciones entre los ítems no son lo suficientemente fuertes.
Cargas Factoriales:

Las cargas factoriales sugieren que algunos ítems están bien representados en ciertos factores, pero el valor de las cargas puede necesitar una revisión para asegurar que son apropiadas.
Modelo CFA:

El modelo muestra una R-cuadrada ajustada de 1.000, lo que podría indicar problemas de sobreajuste.
Los coeficientes son significativos, pero el ajuste perfecto es raro en aplicaciones prácticas y sugiere que se deben revisar los datos y el modelo más a fondo.
Índices de Ajuste:

Chi2: 4.245866869866096e-30
RMSEA: 1.6401682779195606e-17
CFI: 1.0
Estos índices indican un ajuste perfecto del modelo, lo que es inusual y sugiere que se deben examinar posibles problemas con los datos o el modelo.

Conclusión: Los resultados indican que podría haber problemas con los datos o el modelo, ya que el ajuste perfecto y el p-valor de Bartlett no son comunes en aplicaciones prácticas. Recomiendo revisar los datos en detalle y considerar ajustes adicionales en el modelo para asegurar la validez de los resultados.

In [9]:
import pandas as pd
from factor_analyzer import FactorAnalyzer, calculate_kmo
from scipy.stats import bartlett
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Cargar el conjunto de datos
file_path = "Factor-Hair-Revised.csv"
df = pd.read_csv(file_path)

# Seleccionar las columnas relevantes para el análisis
data = df[['ProdQual', 'Ecom', 'TechSup', 'CompRes', 'Advertising', 
           'ProdLine', 'SalesFImage', 'ComPricing', 'WartyClaim', 'OrdBilling', 
           'DelSpeed', 'Satisfaction']]

# Imputar valores faltantes con la mediana de cada columna
data.fillna(data.median(), inplace=True)

# Normalizar los datos
data = (data - data.mean()) / data.std()

# Verificar si aún hay valores NaN o infinitos
print(data.isna().sum())
print(np.isinf(data).sum())

# Cálculo de la medida KMO y prueba de Esfericidad de Bartlett
kmo_all, kmo_model = calculate_kmo(data)
print(f'KMO: {kmo_model:.2f}')

chi2, p_value = bartlett(*data.values.T)
print(f'Chi2: {chi2:.2f}, p-value: {p_value:.2f}')

# Análisis Factorial Exploratorio (EFA)
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(data)

# Cargas factoriales
loadings = fa.loadings_
print('Cargas factoriales:')
print(loadings)

# Simulación de datos para CFA
data['Factor1'] = np.dot(data.iloc[:, :4], loadings[:4, 0])
data['Factor2'] = np.dot(data.iloc[:, 4:8], loadings[4:8, 1])
data['Factor3'] = np.dot(data.iloc[:, 8:12], loadings[8:12, 2])

# Modelo CFA
model = ols('Factor1 ~ ProdQual + Ecom + TechSup + CompRes', data=data).fit()
print(model.summary())

# Índices de ajuste para CFA
def calc_fit_indices(model):
    chi2 = model.ssr / model.df_resid
    rmsea = np.sqrt(chi2 / (model.nobs - model.df_model - 1))
    return {
        'Chi2': chi2,
        'RMSEA': rmsea,
        'CFI': sm.regression.linear_model.OLS(data['Factor1'], sm.add_constant(data.iloc[:, :5])).fit().rsquared
    }

fit_indices = calc_fit_indices(model)
print('Índices de ajuste:')
print(fit_indices)


ProdQual        0
Ecom            0
TechSup         0
CompRes         0
Advertising     0
ProdLine        0
SalesFImage     0
ComPricing      0
WartyClaim      0
OrdBilling      0
DelSpeed        0
Satisfaction    0
dtype: int64
ProdQual        0
Ecom            0
TechSup         0
CompRes         0
Advertising     0
ProdLine        0
SalesFImage     0
ComPricing      0
WartyClaim      0
OrdBilling      0
DelSpeed        0
Satisfaction    0
dtype: int64
KMO: 0.66
Chi2: -0.00, p-value: 1.00
Cargas factoriales:
[[ 0.32306213 -0.2705285   0.17073745]
 [ 0.08793391  0.75735691  0.03733059]
 [ 0.03258596 -0.02493452  0.86665472]
 [ 0.86150135  0.14096621  0.01299146]
 [ 0.18514071  0.52780551 -0.0398777 ]
 [ 0.74946102 -0.25099871  0.24793119]
 [ 0.16193573  0.96333097  0.07887095]
 [-0.28915703  0.396071   -0.32104411]
 [ 0.11782011  0.04917139  0.85874763]
 [ 0.7326499   0.14647668  0.04439584]
 [ 0.86601902  0.20310792 -0.04748778]
 [ 0.71739946  0.26248612  0.16065133]]
                

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.fillna(data.median(), inplace=True)
