#Aplicación de PCA

En este notebook veremos la aplicación de PCA a un set de datos

###Cargamos las librerias necesarias

In [None]:
# Insertar cuantos bloques de código y markdown consideren necesarios

import numpy as np # Programación vectorial

import pandas as pd # Estructura y manipulación de datos
import seaborn as sns
from seaborn import boxplot
from numpy import array

# Gráficos

import matplotlib.pyplot as plt # Visualización
from matplotlib import style


# Preprocesado y modelado
from scipy.stats import pearsonr
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
#import statsmodels.api as sm
#import statsmodels.formula.api as smf
# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

# Configuración matplotlib
plt.rcParams['image.cmap'] = "bwr"
#plt.rcParams['figure.dpi'] = "100"
plt.rcParams['savefig.bbox'] = "tight"
style.use('ggplot') or plt.style.use('ggplot')


In [None]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

###Cargamos el data set.

El set de datos USArrests contiene el porcentaje de asaltos (Assault), asesinatos (Murder) y secuestros (Rape) por cada 100,000 habitantes para cada uno de los 50 estados de USA (1973). Además, también incluye el porcentaje de la población de cada estado que vive en zonas rurales (UrbanPoP).

In [None]:
from google.colab import drive
drive.mount('/content/drive')

#rt ="/content/drive/MyDrive/Base_clientes_Monopoly THIS.xlsx"
rt="/content/drive/MyDrive/solo_base__clientes_Monopoly.xlsx"

df = pd.read_excel(rt)
df.head(10)


Mounted at /content/drive


###Vemos los tipos de datos.

Todo se ve en orden ya que son numéricos

In [None]:
df.head()

Unnamed: 0,Id,Subsegmento,Sexo,Region,Edad,Renta,Antiguedad,Internauta,Adicional,Dualidad,...,ColMx_T01,PagoNac_T01,PagoInt_T01,EeccNac_T01,EeccInt_T01,UsoL1_T01,UsoL2_T01,UsoLI_T01,IndRev_T01,target
0,1,160,M,13.0,43,,130,1,1,0,...,0.0,33000,0.0,1099866.0,0.0,1099866.0,15080,0.0,R,0
1,2,160,H,13.0,46,143640.0,69,1,0,0,...,0.0,300000,0.0,214592.0,0.0,214592.0,83596,0.0,R,0
2,3,170,H,13.0,45,929106.0,24,1,1,0,...,0.0,216676,0.0,0.0,0.0,7400.0,0,0.0,T,0
3,4,151,H,13.0,46,172447.0,134,0,1,0,...,0.0,60000,0.0,272762.0,0.0,272762.0,10591,0.0,R,0
4,5,170,H,13.0,46,805250.0,116,0,1,1,...,0.0,272925,0.0,249562.0,0.0,75339.0,377782,0.0,R,0


In [None]:
df.info()

In [None]:
df.describe()

Vemos que la escala de los datos es muy diferente. Es necesario escalar los datos. Se deben dejar con media cero y desviación estándar 1.

Por defecto, PCA() centra los valores pero no los escala. Esto es importante ya que, si las variables tienen distinta dispersión, como en este caso, es necesario escalarlas.

## One-hot encoding para transformar las 13 variables categoricas que tiene el dataset

In [None]:
#  variables categóricas
col_cat=['Sexo','IndRev_T12', 'IndRev_T11', 'IndRev_T10', 'IndRev_T09', 'IndRev_T08', 'IndRev_T07',
                        'IndRev_T06', 'IndRev_T05', 'IndRev_T04', 'IndRev_T03', 'IndRev_T02', 'IndRev_T01']


In [None]:
# Supongamos que df es tu DataFrame original con las variables categóricas
# y col_cat es la lista de nombres de las variables categóricas

# Seleccionar solo las columnas que son variables categóricas
#df_cat = df[col_cat]

# Aplicar one-hot encoding
df_onehot = pd.get_dummies(col_cat)

# Concatenar el DataFrame one-hot encoding con el DataFrame original
df1 = pd.concat([df, df_onehot], axis=1)

# Eliminar las columnas originales de las variables categóricas
df1 = df.drop(col_cat, axis=1)

# Mostrar el DataFrame final
print(df1.head())


   Id  Subsegmento  Region  Edad     Renta  Antiguedad  Internauta  Adicional  \
0   1          160    13.0    43       0.0         130           1          1   
1   2          160    13.0    46  143640.0          69           1          0   
2   3          170    13.0    45  929106.0          24           1          1   
3   4          151    13.0    46  172447.0         134           0          1   
4   5          170    13.0    46  805250.0         116           0          1   

   Dualidad  Monoproducto  ...  ColL2CC_T01  ColMx_T01  PagoNac_T01  \
0         0             0  ...        29396        0.0        33000   
1         0             0  ...            0        0.0       300000   
2         0             0  ...            0        0.0       216676   
3         0             1  ...            0        0.0        60000   
4         1             0  ...        32028        0.0       272925   

   PagoInt_T01  EeccNac_T01  EeccInt_T01  UsoL1_T01  UsoL2_T01  UsoLI_T01  \
0        

Eliminar columnas innecesarias para el analisis

In [None]:
df1= df.drop(['Id','CambioPin'], axis=1)

Imputacion datos faltantes

In [None]:
df1['Renta'] = df1['Renta'].fillna(0)

In [None]:
# Calcular la media de la variable "Región" (ignorando los valores N
df1['Region'].mode()[0]


13.0

In [None]:
df1['Region'] = df1['Region'].fillna(13)

In [None]:

print(df1.isnull().sum().sort_values(ascending=False))

UsoL2_T12        8251
FacCI_T12        8251
FacAN_T12        8251
TxsAN_T12        8251
FacAI_T12        8251
                 ... 
FlgActCOL_T01       0
Fac_T01             0
Txs_T01             0
FacCN_T01           0
target              0
Length: 572, dtype: int64


In [None]:
tota = df1.isnull().sum().sum()
print(f'Total de valores nulos en el DataFrame: {tota}')

Total de valores nulos en el DataFrame: 1242741


In [None]:
df2 = df1.dropna()

In [None]:
df2.isna().sum()

Subsegmento    0
Sexo           0
Region         0
Edad           0
Renta          0
              ..
UsoL1_T01      0
UsoL2_T01      0
UsoLI_T01      0
IndRev_T01     0
target         0
Length: 572, dtype: int64

In [None]:
df2.isnull().sum().sum()

0

In [None]:
df2.head()

Unnamed: 0,Subsegmento,Sexo,Region,Edad,Renta,Antiguedad,Internauta,Adicional,Dualidad,Monoproducto,...,ColMx_T01,PagoNac_T01,PagoInt_T01,EeccNac_T01,EeccInt_T01,UsoL1_T01,UsoL2_T01,UsoLI_T01,IndRev_T01,target
0,160,M,13.0,43,0.0,130,1,1,0,0,...,0.0,33000,0.0,1099866.0,0.0,1099866.0,15080,0.0,R,0
1,160,H,13.0,46,143640.0,69,1,0,0,0,...,0.0,300000,0.0,214592.0,0.0,214592.0,83596,0.0,R,0
2,170,H,13.0,45,929106.0,24,1,1,0,0,...,0.0,216676,0.0,0.0,0.0,7400.0,0,0.0,T,0
3,151,H,13.0,46,172447.0,134,0,1,0,1,...,0.0,60000,0.0,272762.0,0.0,272762.0,10591,0.0,R,0
4,170,H,13.0,46,805250.0,116,0,1,1,0,...,0.0,272925,0.0,249562.0,0.0,75339.0,377782,0.0,R,0


In [None]:
# Supongamos que df es tu DataFrame original con las variables categóricas
# y col_cat es la lista de nombres de las variables categóricas

# Seleccionar solo las columnas que son variables categóricas
#df_cat = df[col_cat]

# Aplicar one-hot encoding
df_onehot = pd.get_dummies(col_cat)

# Concatenar el DataFrame one-hot encoding con el DataFrame original
df2 = pd.concat([df, df_onehot], axis=1)

# Eliminar las columnas originales de las variables categóricas
df2 = df1.drop(col_cat, axis=1)

# Mostrar el DataFrame final
print(df2.head())


   Subsegmento  Region  Edad     Renta  Antiguedad  Internauta  Adicional  \
0          160    13.0    43       0.0         130           1          1   
1          160    13.0    46  143640.0          69           1          0   
2          170    13.0    45  929106.0          24           1          1   
3          151    13.0    46  172447.0         134           0          1   
4          170    13.0    46  805250.0         116           0          1   

   Dualidad  Monoproducto  Ctacte  ...  ColL2CC_T01  ColMx_T01  PagoNac_T01  \
0         0             0       1  ...        29396        0.0        33000   
1         0             0       1  ...            0        0.0       300000   
2         0             0       1  ...            0        0.0       216676   
3         0             1       0  ...            0        0.0        60000   
4         1             0       1  ...        32028        0.0       272925   

   PagoInt_T01  EeccNac_T01  EeccInt_T01  UsoL1_T01  UsoL2_T01

###Se escalan los datos

In [None]:
# Se crea primero el objeto Standard Scaler
scaler = StandardScaler()

# Luego "entrenamos" con los datos para obtener los parámetros del escalamiento
scaler.fit(df3)

# Finalmente aplicamos el escalamiento
array_scaler = scaler.transform(df3)

In [None]:
#Corroboramos que dio resultado
pd.DataFrame(array_scaler).describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,549,550,551,552,553,554,555,556,557,558
count,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,...,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0
mean,-3.966256e-16,-1.328227e-16,1.554344e-16,1.232755e-16,3.483874e-17,-1.728537e-16,-1.473947e-16,6.029781e-18,-1.3399510000000002e-17,1.306453e-16,...,3.8858590000000005e-17,1.0719610000000001e-17,-4.019854e-18,-6.029781e-18,1.875932e-17,-9.463407e-18,-3.215883e-17,1.0719610000000001e-17,-1.5409440000000003e-17,-1.284678e-16
std,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,...,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012
min,-1.04607,-2.939945,-1.534836,-1.073372,-1.068198,-1.44194,-0.615079,-0.7640273,-0.2805825,-3.257748,...,-0.3949343,-0.1085649,-0.5185678,-0.04378413,-6.839189,-73.79601,-13.07863,-0.3141723,-70.35966,-0.3234127
25%,-0.7331581,-0.5586593,-0.7995095,-1.073372,-0.7087937,-1.44194,-0.615079,-0.7640273,-0.2805825,0.3069605,...,-0.3949343,-0.1085649,-0.4860103,-0.04378413,-0.5668166,-0.07302657,-0.5800451,-0.3141633,-0.07949237,-0.3234127
50%,-0.3854784,0.6319834,-0.2847809,-0.0637078,-0.4046822,0.6935103,-0.615079,-0.7640273,-0.2805825,0.3069605,...,-0.3949343,-0.1085649,-0.2843852,-0.04378413,-0.3593191,-0.07302657,-0.3638511,-0.2520201,-0.07949237,-0.3234127
75%,1.00524,0.6319834,0.6711437,0.4969094,0.4523594,0.6935103,1.625807,1.308854,-0.2805825,0.3069605,...,-0.03245447,-0.1085649,0.120195,-0.04378413,0.1436719,-0.07302657,0.1500601,-0.08468123,-0.07949237,-0.3234127
max,22.318,0.6319834,4.71544,27.14114,7.723389,0.6935103,1.625807,1.308854,3.564014,0.3069605,...,26.02861,41.18615,56.11698,107.5882,14.24652,36.66162,14.25628,26.38703,35.39687,3.092025


In [None]:
# Eliminar columnas con al menos un valor nulo
df3 = df2.dropna(axis=0)

# Mostrar el DataFrame después de eliminar las columnas nulas
print(df3.head())

   Subsegmento  Region  Edad     Renta  Antiguedad  Internauta  Adicional  \
0          160    13.0    43       0.0         130           1          1   
1          160    13.0    46  143640.0          69           1          0   
2          170    13.0    45  929106.0          24           1          1   
3          151    13.0    46  172447.0         134           0          1   
4          170    13.0    46  805250.0         116           0          1   

   Dualidad  Monoproducto  Ctacte  ...  ColL2CC_T01  ColMx_T01  PagoNac_T01  \
0         0             0       1  ...        29396        0.0        33000   
1         0             0       1  ...            0        0.0       300000   
2         0             0       1  ...            0        0.0       216676   
3         0             1       0  ...            0        0.0        60000   
4         1             0       1  ...        32028        0.0       272925   

   PagoInt_T01  EeccNac_T01  EeccInt_T01  UsoL1_T01  UsoL2_T01

In [None]:
df3.shape

(42422, 559)

In [None]:
df3.isna().sum().sum()

0

In [None]:
df4=df3

In [None]:
# Se crea primero el objeto Standard Scaler
scaler = StandardScaler()

# Luego "entrenamos" con los datos para obtener los parámetros del escalamiento
scaler.fit(datos)

# Finalmente aplicamos el escalamiento
array_scaler = scaler.transform(datos)

###Aplicamos PCA

[Acá](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) puede encontrar información de la función PCA

In [None]:
# Al no incluir el número de componentes, lo que hace PCA es conservarlos todos
pca = PCA()

In [None]:
pca.fit(array_scaler)

In [None]:
scaler=StandardScaler()#instantiate
scaler.fit(df3) # calcula la media y estandar para cada dimension
X_scaled=scaler.transform(df3)# transforma los datos a su nueva escala

In [None]:
pca.fit(X_scaled) # buscar los componentes principales
X_pca=pca.transform(X_scaled)
#revisemos la forma del array
print("shape of X_pca", X_pca.shape)

shape of X_pca (42422, 559)


Veamos cuán buenos predictores son las nuevas dimensiones

In [None]:
expl = pca.explained_variance_ratio_
print(expl)
print('suma:',sum(expl[0:160]))
#con 160 componentes tenemos algo mas del 87,7% de varianza explicada

[6.54291627e-02 5.04237219e-02 4.78500687e-02 4.01359450e-02
 3.71706945e-02 2.96268204e-02 1.80382771e-02 1.69507058e-02
 1.43261298e-02 1.38326281e-02 1.29035973e-02 1.14634604e-02
 1.08302014e-02 1.02660693e-02 9.61697454e-03 9.50749319e-03
 8.98855888e-03 8.57854653e-03 8.30466553e-03 7.88047317e-03
 7.70963450e-03 7.56827547e-03 7.26054068e-03 7.15956008e-03
 6.94090248e-03 6.88582889e-03 6.77820141e-03 6.71173612e-03
 6.62282201e-03 6.61080839e-03 6.55846874e-03 6.42846940e-03
 6.41585044e-03 6.27349622e-03 6.16172391e-03 6.06249576e-03
 5.80309336e-03 5.77816318e-03 5.63335517e-03 5.55659799e-03
 5.47812091e-03 5.44747697e-03 5.42756008e-03 5.34151220e-03
 5.25144827e-03 5.22593569e-03 5.12475997e-03 5.04226973e-03
 4.87817004e-03 4.82069862e-03 4.74091714e-03 4.70392350e-03
 4.56094558e-03 4.48776169e-03 4.41703420e-03 4.33700166e-03
 4.27025203e-03 4.17805311e-03 4.11473636e-03 4.06261303e-03
 3.99156054e-03 3.88110557e-03 3.84839499e-03 3.78805759e-03
 3.67256997e-03 3.627134

###Un poco de interpretación:

Una vez entrenado el objeto PCA, pude accederse a toda la información de las componentes creadas.

components_ contiene el valor que definen cada componente (eigenvector). Las filas se corresponden con las componentes principales (ordenadas de mayor a menor varianza explicada). Las filas se corresponden con las variables de entrada.

In [None]:
# Se combierte el array a dataframe para añadir nombres a los ejes.
pd.DataFrame(
    data    = pca.components_,
    columns = datos.columns,
    index   = ['PC1', 'PC2', 'PC3', 'PC4']
)

TypeError: ignored

Analizar con detalle el vector que forma cada componente puede ayudar a interpretar qué tipo de información recoge cada una de ellas. Por ejemplo, la primera componente es el resultado de la siguiente combinación lineal de las variables originales:

**PC1=0.535899 Murder+0.583184 Assault+0.278191 UrbanPop+0.543432 Rape**


Los pesos asignados en la primera componente a las variables Assault, Murder y Rape son aproximadamente iguales entre ellos y superiores al asignado a UrbanPoP. Esto significa que la primera componente recoge mayoritariamente la información correspondiente a los delitos. En la segunda componente, es la variable UrbanPoP es la que tiene el peso mayor (aunque sea negativo), por lo que se corresponde principalmente con el nivel de urbanización del estado. Si bien en este ejemplo la interpretación de las componentes es bastante clara, no en todos los casos ocurre lo mismo, sobre todo a medida que aumenta el número de variables.

Una vez calculadas las componentes principales, se puede conocer la varianza explicada por cada una de ellas, la proporción respecto al total y la proporción de varianza acumulada. Esta información está almacenada en los atributos **explained_variance_** y **explained_variance_ratio_** del modelo.

In [None]:
print(pca.explained_variance_ratio_)

[6.54291627e-02 5.04237219e-02 4.78500687e-02 4.01359450e-02
 3.71706945e-02 2.96268204e-02 1.80382771e-02 1.69507058e-02
 1.43261298e-02 1.38326281e-02 1.29035973e-02 1.14634604e-02
 1.08302014e-02 1.02660693e-02 9.61697454e-03 9.50749319e-03
 8.98855888e-03 8.57854653e-03 8.30466553e-03 7.88047317e-03
 7.70963450e-03 7.56827547e-03 7.26054068e-03 7.15956008e-03
 6.94090248e-03 6.88582889e-03 6.77820141e-03 6.71173612e-03
 6.62282201e-03 6.61080839e-03 6.55846874e-03 6.42846940e-03
 6.41585044e-03 6.27349622e-03 6.16172391e-03 6.06249576e-03
 5.80309336e-03 5.77816318e-03 5.63335517e-03 5.55659799e-03
 5.47812091e-03 5.44747697e-03 5.42756008e-03 5.34151220e-03
 5.25144827e-03 5.22593569e-03 5.12475997e-03 5.04226973e-03
 4.87817004e-03 4.82069862e-03 4.74091714e-03 4.70392350e-03
 4.56094558e-03 4.48776169e-03 4.41703420e-03 4.33700166e-03
 4.27025203e-03 4.17805311e-03 4.11473636e-03 4.06261303e-03
 3.99156054e-03 3.88110557e-03 3.84839499e-03 3.78805759e-03
 3.67256997e-03 3.627134

En orden, PC1 explica la varianza total en un 62%

Si sumamos todo, debe dar un 100% (o casi un 100%)

In [None]:
print(sum(pca.explained_variance_ratio_)*100)

100.00000000000011


Podemos obtener la varianza acumulada simplemente sumando y acumulando lo aportado por cada componente.

In [None]:
pca.explained_variance_ratio_.cumsum()

array([0.06542916, 0.11585288, 0.16370295, 0.2038389 , 0.24100959,
       0.27063641, 0.28867469, 0.3056254 , 0.31995153, 0.33378415,
       0.34668775, 0.35815121, 0.36898141, 0.37924748, 0.38886446,
       0.39837195, 0.40736051, 0.41593906, 0.42424372, 0.43212419,
       0.43983383, 0.4474021 , 0.45466264, 0.4618222 , 0.46876311,
       0.47564894, 0.48242714, 0.48913887, 0.4957617 , 0.5023725 ,
       0.50893097, 0.51535944, 0.52177529, 0.52804879, 0.53421051,
       0.54027301, 0.5460761 , 0.55185427, 0.55748762, 0.56304422,
       0.56852234, 0.57396982, 0.57939738, 0.58473889, 0.58999034,
       0.59521627, 0.60034103, 0.6053833 , 0.61026147, 0.61508217,
       0.61982309, 0.62452701, 0.62908796, 0.63357572, 0.63799275,
       0.64232975, 0.64660001, 0.65077806, 0.6548928 , 0.65895541,
       0.66294697, 0.66682808, 0.67067647, 0.67446453, 0.6781371 ,
       0.68176423, 0.68530986, 0.68875087, 0.69213663, 0.69550569,
       0.69884978, 0.70211675, 0.70536121, 0.70854901, 0.71169

Esto nos dice por ejemplo, que solo necesitamos  dimensiones (en el nuevo espacio de coordenadas) para explicar el 86.8% de la varianza total.

Una vez hecho esto, podemos transformar los datos originales al espacio nuevo creado.

La transformación es el resultado de multiplicar los vectores que definen cada componente con el valor de las variables.

In [None]:
# Aplicamos la transformación
proyecciones = pca.transform(df3)
# Lo transformamos a DataFrame, ya que queda como arreglo.
proyecciones = pd.DataFrame(proyecciones,columns = ['PC1', 'PC2', 'PC3', 'PC4'], index = df3.index)
proyecciones.head()



ValueError: ignored

###Comparemos con el original

In [None]:
datos.head()

Acá podemos decidir con cuantos componentes nos quedamos y así reducimos la dimensión. Eso dependiendo de con cuanta varianza explicada queremos quedarnos.

Finalmente, se puede reconstruir al espacio original una vez estando en el espacio transformado. Esto se hace con el método **inverse_transform()**. Es importante tener en cuenta que, la reconstrucción, solo será completa si se han incluido todas las componentes.

In [None]:
recostruccion = pca.inverse_transform(proyecciones)
recostruccion = pd.DataFrame(recostruccion, columns = datos.columns, index = datos.index)
recostruccion.head()

In [None]:
# Se crea primero el objeto Standard Scaler
scaler = StandardScaler()

# Luego "entrenamos" con los datos para obtener los parámetros del escalamiento
scaler.fit(df4)

# Finalmente aplicamos el escalamiento
array_scaler = scaler.transform(df4)

In [None]:
#Corroboramos que dio resultado
pd.DataFrame(array_scaler).describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,549,550,551,552,553,554,555,556,557,558
count,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,...,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0,42422.0
mean,-3.966256e-16,-1.328227e-16,1.554344e-16,1.232755e-16,3.483874e-17,-1.728537e-16,-1.473947e-16,6.029781e-18,-1.3399510000000002e-17,1.306453e-16,...,3.8858590000000005e-17,1.0719610000000001e-17,-4.019854e-18,-6.029781e-18,1.875932e-17,-9.463407e-18,-3.215883e-17,1.0719610000000001e-17,-1.5409440000000003e-17,-1.284678e-16
std,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,...,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012,1.000012
min,-1.04607,-2.939945,-1.534836,-1.073372,-1.068198,-1.44194,-0.615079,-0.7640273,-0.2805825,-3.257748,...,-0.3949343,-0.1085649,-0.5185678,-0.04378413,-6.839189,-73.79601,-13.07863,-0.3141723,-70.35966,-0.3234127
25%,-0.7331581,-0.5586593,-0.7995095,-1.073372,-0.7087937,-1.44194,-0.615079,-0.7640273,-0.2805825,0.3069605,...,-0.3949343,-0.1085649,-0.4860103,-0.04378413,-0.5668166,-0.07302657,-0.5800451,-0.3141633,-0.07949237,-0.3234127
50%,-0.3854784,0.6319834,-0.2847809,-0.0637078,-0.4046822,0.6935103,-0.615079,-0.7640273,-0.2805825,0.3069605,...,-0.3949343,-0.1085649,-0.2843852,-0.04378413,-0.3593191,-0.07302657,-0.3638511,-0.2520201,-0.07949237,-0.3234127
75%,1.00524,0.6319834,0.6711437,0.4969094,0.4523594,0.6935103,1.625807,1.308854,-0.2805825,0.3069605,...,-0.03245447,-0.1085649,0.120195,-0.04378413,0.1436719,-0.07302657,0.1500601,-0.08468123,-0.07949237,-0.3234127
max,22.318,0.6319834,4.71544,27.14114,7.723389,0.6935103,1.625807,1.308854,3.564014,0.3069605,...,26.02861,41.18615,56.11698,107.5882,14.24652,36.66162,14.25628,26.38703,35.39687,3.092025


In [None]:
# Al no incluir el número de componentes, lo que hace PCA es conservarlos todos
pca = PCA()

In [None]:
pca.fit(array_scaler)

In [None]:
# Obtén los nombres de las columnas de df4
column_names = df4.columns.tolist()

# Crea una lista de nombres para los índices
index_names = [f'Componente_{i+1}' for i in range(len(column_names))]

# Convierte el array a DataFrame para añadir nombres a los ejes
pca_components_df = pd.DataFrame(
    data=pca.components_,
    columns=column_names,
    index=index_names
)


In [None]:
print(pca.explained_variance_ratio_)

[6.54291627e-02 5.04237219e-02 4.78500687e-02 4.01359450e-02
 3.71706945e-02 2.96268204e-02 1.80382771e-02 1.69507058e-02
 1.43261298e-02 1.38326281e-02 1.29035973e-02 1.14634604e-02
 1.08302014e-02 1.02660693e-02 9.61697454e-03 9.50749319e-03
 8.98855888e-03 8.57854653e-03 8.30466553e-03 7.88047317e-03
 7.70963450e-03 7.56827547e-03 7.26054068e-03 7.15956008e-03
 6.94090248e-03 6.88582889e-03 6.77820141e-03 6.71173612e-03
 6.62282201e-03 6.61080839e-03 6.55846874e-03 6.42846940e-03
 6.41585044e-03 6.27349622e-03 6.16172391e-03 6.06249576e-03
 5.80309336e-03 5.77816318e-03 5.63335517e-03 5.55659799e-03
 5.47812091e-03 5.44747697e-03 5.42756008e-03 5.34151220e-03
 5.25144827e-03 5.22593569e-03 5.12475997e-03 5.04226973e-03
 4.87817004e-03 4.82069862e-03 4.74091714e-03 4.70392350e-03
 4.56094558e-03 4.48776169e-03 4.41703420e-03 4.33700166e-03
 4.27025203e-03 4.17805311e-03 4.11473636e-03 4.06261303e-03
 3.99156054e-03 3.88110557e-03 3.84839499e-03 3.78805759e-03
 3.67256997e-03 3.627134