In [38]:
import pandas as pd
from sklearn.decomposition import PCA  # importa PCA del módulo decomposition de scikit-learn
from sklearn.preprocessing import StandardScaler # importa StandardScaler  del módulo PREPROCESSING de scikit-learn
import matplotlib.pyplot as plt
from google.colab import files  # importar el módulo files

* **PCA** se usa para reducir el número de variables en un conjunto de datos mientras se preserva la mayor cantidad posible de la variabilidad de los datos


*   **StandardScaler** se usa para estandarizar las características de un conjunto de datos, es decir, ajustar los datos para que tengan una media de 0 y una desviación estándar de 1, lo que facilita el entrenamiento de modelos de machine learning y mejora su rendimiento.


In [39]:
# Subir el archivo .xlsx desde tu PC local
uploaded = files.upload()

# Asumiendo que solo subiste un archivo, toma el nombre del archivo subido
file_path = next(iter(uploaded))

# Cargar el archivo .xlsx que contiene la matriz de descriptores temporales
df = pd.read_excel(file_path, header=None)

Saving descriptores_temp_3600.xlsx to descriptores_temp_3600 (4).xlsx


In [40]:
# Eliminar la primera fila con etiquetas no numéricas (si es necesario)
df_numeric = df.drop(0, axis=0).reset_index(drop=True)

# Convertir los datos a tipo numérico, ignorando errores para evitar problemas con posibles celdas no numéricas
df_numeric = df_numeric.apply(pd.to_numeric, errors='coerce')

# Imputar valores faltantes utilizando la media
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')
df_imputed = pd.DataFrame(imputer.fit_transform(df_numeric))

# Normalizar los datos antes de realizar PCA
scaler = StandardScaler()
scaled_data_original = scaler.fit_transform(df_imputed)  # No transponer, se mantiene la estructura original




In [41]:
# Aplicar PCA para reducir la dimensionalidad si es necesario
pca_correct_dimensions = PCA(n_components=3)  # Cambiado a 3 componentes principales
pca_result_correct_dimensions = pca_correct_dimensions.fit_transform(scaled_data_original.T)


In [42]:
# Mostrar las primeras filas del resultado
print(pca_df_correct_dimensions)

         0         1         2         3         4         5         6     \
PC1 -0.159027 -0.351904 -0.480739 -0.280632 -0.295849 -0.285649 -0.139627   
PC2 -0.011586 -0.056655 -0.032108 -0.057625 -0.016925 -0.024361 -0.012166   
PC3 -0.044949  0.041010  0.172854 -0.034439  0.075511  0.040331 -0.011890   

         7         8         9     ...      3590      3591      3592  \
PC1 -0.190404 -0.112387 -0.184454  ... -0.185716 -0.116531 -0.297519   
PC2  0.021379 -0.002903 -0.003344  ... -0.024526 -0.005679  0.009737   
PC3  0.054699 -0.069834 -0.026191  ... -0.035154 -0.049391  0.063514   

         3593      3594      3595      3596      3597      3598      3599  
PC1 -0.212492 -0.281282 -0.129138 -0.217896 -0.224978 -0.148742 -0.207124  
PC2 -0.000346 -0.053561 -0.009667 -0.025620 -0.037423  0.015307 -0.023975  
PC3 -0.049012 -0.049290 -0.049216 -0.015585 -0.042913 -0.014756 -0.008766  

[3 rows x 3600 columns]


In [43]:
# Transponer el resultado para volver a la estructura original
pca_df_correct_dimensions = pd.DataFrame(pca_result_correct_dimensions.T, index=['PC1', 'PC2', 'PC3'])  # Incluyendo la tercera componente


# Mostrar las primeras filas del resultado
print(pca_df_correct_dimensions)



         0         1         2         3         4         5         6     \
PC1 -0.159027 -0.351904 -0.480739 -0.280632 -0.295849 -0.285649 -0.139627   
PC2 -0.011586 -0.056655 -0.032108 -0.057625 -0.016925 -0.024361 -0.012166   
PC3 -0.044949  0.041010  0.172854 -0.034439  0.075511  0.040331 -0.011890   

         7         8         9     ...      3590      3591      3592  \
PC1 -0.190404 -0.112387 -0.184454  ... -0.185716 -0.116531 -0.297519   
PC2  0.021379 -0.002903 -0.003344  ... -0.024526 -0.005679  0.009737   
PC3  0.054699 -0.069834 -0.026191  ... -0.035154 -0.049391  0.063514   

         3593      3594      3595      3596      3597      3598      3599  
PC1 -0.212492 -0.281282 -0.129138 -0.217896 -0.224978 -0.148742 -0.207124  
PC2 -0.000346 -0.053561 -0.009667 -0.025620 -0.037423  0.015307 -0.023975  
PC3 -0.049012 -0.049290 -0.049216 -0.015585 -0.042913 -0.014756 -0.008766  

[3 rows x 3600 columns]


In [44]:
# Guardar el archivo PCA generado como CSV y permitir la descarga
pca_df_correct_dimensions.to_csv('pca_result.csv')
files.download('pca_result.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [45]:
# Gráfica de varianza explicada acumulativa
explained_variance_corrected = pca_correct_dimensions.explained_variance_ratio_
plt.figure(figsize=(10, 6))
plt.plot(range(1, len(explained_variance_corrected) + 1), explained_variance_corrected.cumsum(), marker='o')
plt.title('Varianza Explicada Acumulativa por PCA (Corrección)')
plt.xlabel('Número de Componentes Principales')
plt.ylabel('Varianza Explicada Acumulada')
plt.grid(True)

# Guardar la gráfica como archivo PNG y permitir la descarga
plt.savefig('varianza_explicada.png')

# Cerrar la figura para evitar conflictos antes de mostrarla
plt.close()

# Descargar el archivo gráfico
files.download('varianza_explicada.png')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>