In [None]:
# Importar las librerías necesarias
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 1. Centrado y estandarización de los datos
def centrar_y_estandarizar(df):
    """
    Cambios o acciones necesarias:
    - Asegúrate de que solo se incluyan columnas numéricas en el DataFrame.
    """
    scaler = StandardScaler()
    datos_estandarizados = scaler.fit_transform(df)
    print("Datos centrados y estandarizados.")
    return datos_estandarizados, scaler

# 2. Realizar PCA
def realizar_pca(datos, n_componentes=None):
    """
    Cambios o acciones necesarias:
    - Ajusta `n_componentes` si quieres limitar el número de componentes principales.
    """
    pca = PCA(n_components=n_componentes)
    datos_pca = pca.fit_transform(datos)
    print("PCA realizado.")
    return pca, datos_pca

# 3. Visualizar la matriz de rotación (componentes principales)
def visualizar_matriz_rotacion(pca, columnas_originales):
    """
    Cambios o acciones necesarias:
    - Asegúrate de pasar los nombres de las columnas originales. ejemplo: df_numerico.columns
    """
    print("\nMatriz de rotación (componentes principales):")
    rotacion = pd.DataFrame(pca.components_, columns=columnas_originales)
    print(rotacion)
    return rotacion

# 4. Visualizar la varianza explicada por cada componente
def visualizar_varianza_explicada(pca):
    """
    Cambios o acciones necesarias:
    - No requiere cambios. Visualiza la varianza explicada y acumulada.
    """
    varianza_explicada = pca.explained_variance_ratio_
    varianza_acumulada = np.cumsum(varianza_explicada)
    print("\nVarianza explicada por cada componente:")
    print(varianza_explicada)
    print("\nVarianza acumulada:")
    print(varianza_acumulada)
    return varianza_explicada, varianza_acumulada

# 5. Generar el biplot
def generar_biplot(pca, datos_pca, nombres_columnas, escala_vectores=1):
    """
    Cambios o acciones necesarias:
    - Ajusta `escala_vectores` para cambiar la longitud de los vectores en el biplot.
    """
    plt.figure(figsize=(10, 7))
    x_pca = datos_pca[:, 0]
    y_pca = datos_pca[:, 1]

    # Graficar las observaciones proyectadas
    plt.scatter(x_pca, y_pca, alpha=0.5)
    plt.xlabel("Componente Principal 1")
    plt.ylabel("Componente Principal 2")
    plt.title("Biplot: PCA")

    # Graficar los vectores (dirección de las variables originales)
    for i, nombre in enumerate(nombres_columnas):
        vector_x = pca.components_[0, i] * escala_vectores
        vector_y = pca.components_[1, i] * escala_vectores
        plt.arrow(0, 0, vector_x, vector_y, color='r', alpha=0.7, head_width=0.02)
        plt.text(vector_x, vector_y, nombre, color='r', ha='center', va='center', fontsize=9)

    plt.grid()
    plt.show()

# 6. Graficar porcentaje de varianza explicada
def graficar_varianza(varianza_explicada, varianza_acumulada):
    """
    Cambios o acciones necesarias:
    - No requiere cambios. Genera los gráficos de varianza explicada y acumulada.
    """
    plt.figure(figsize=(10, 5))

    # Porcentaje de varianza explicada
    plt.bar(range(1, len(varianza_explicada)+1), varianza_explicada, alpha=0.7, label="Varianza explicada")
    plt.step(range(1, len(varianza_acumulada)+1), varianza_acumulada, where='mid', label="Varianza acumulada")
    plt.xlabel("Número de componentes")
    plt.ylabel("Porcentaje de varianza explicada")
    plt.title("Varianza explicada por componente")
    plt.legend(loc='best')
    plt.grid()
    plt.show()

# Función principal para ejecutar el análisis PCA completo
def analisis_pca(df, n_componentes=None, escala_vectores=1):
    """
    Cambios o acciones necesarias:
    - Ajusta `n_componentes` si quieres limitar el número de componentes.
    - Cambia `escala_vectores` para ajustar la longitud de los vectores en el biplot.
    """
    # Centrar y estandarizar los datos
    datos_estandarizados, scaler = centrar_y_estandarizar(df)

    # Realizar PCA
    pca, datos_pca = realizar_pca(datos_estandarizados, n_componentes=n_componentes)

    # Visualizar matriz de rotación
    rotacion = visualizar_matriz_rotacion(pca, df.columns)

    # Visualizar varianza explicada
    varianza_explicada, varianza_acumulada = visualizar_varianza_explicada(pca)

    # Generar el biplot
    generar_biplot(pca, datos_pca, df.columns, escala_vectores)

    # Graficar varianza explicada
    graficar_varianza(varianza_explicada, varianza_acumulada)

    return pca, datos_pca

# Ejemplo de uso
# Asegúrate de usar solo columnas numéricas en `df_numerico`
# df_numerico = df.select_dtypes(include=[np.number])  # Seleccionar solo columnas numéricas
# pca, datos_pca = analisis_pca(df_numerico, n_componentes=5, escala_vectores=2)
