### Paso 0: Datos para su aplicación

In [10]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("data/X_ventas.csv")

# Seleccionar solo las columnas numéricas excepto la columna 'ventas_soles'
X = df.select_dtypes(include='number').drop(columns=['ventas_soles'])

# Mostrar las primeras filas de la variable X
print(X.head())

   clientes_dia  horas_abierto  publicidad_soles  promociones_activas  \
0           122       4.096825        935.878755                    4   
1           199       4.072308        866.527827                    4   
2           112       6.856235        724.295798                    3   
3            34      11.409553        508.113969                    1   
4           126       5.829414        544.307445                    1   

   empleados_turno  precio_promedio  visitas_redes  productos_vendidos  \
0                9        40.141186            568                 400   
1                6        46.723270            271                 498   
2                9        49.547073            126                 216   
3                3        31.157723            387                 182   
4                4         9.899673            912                 412   

   tiempo_espera_min  ticket_promedio  
0          12.226162       114.214809  
1           6.279561       177.17571

### Paso 1: Cálculo de la media
Se calcula la media de cada variable numérica.

In [11]:
medias = X.mean()
print('Media de cada variable:')
print(medias)

Media de cada variable:
clientes_dia           110.254000
horas_abierto            7.957854
publicidad_soles       518.289960
promociones_activas      1.988000
empleados_turno          4.986500
precio_promedio         27.830179
visitas_redes          527.024750
productos_vendidos     262.248250
tiempo_espera_min        8.104006
ticket_promedio        104.579461
dtype: float64


### Paso 2: Centrado de los datos
Se resta la media a cada valor para centrar los datos.

In [12]:
X_centrado = X - medias
print('Primeras filas de los datos centrados:')
print(X_centrado.head())

Primeras filas de los datos centrados:
   clientes_dia  horas_abierto  publicidad_soles  promociones_activas  \
0        11.746      -3.861029        417.588795                2.012   
1        88.746      -3.885547        348.237867                2.012   
2         1.746      -1.101620        206.005838                1.012   
3       -76.254       3.451698        -10.175991               -0.988   
4        15.746      -2.128440         26.017485               -0.988   

   empleados_turno  precio_promedio  visitas_redes  productos_vendidos  \
0           4.0135        12.311007       40.97525           137.75175   
1           1.0135        18.893090     -256.02475           235.75175   
2           4.0135        21.716893     -401.02475           -46.24825   
3          -1.9865         3.327543     -140.02475           -80.24825   
4          -0.9865       -17.930507      384.97525           149.75175   

   tiempo_espera_min  ticket_promedio  
0           4.122156         9.635348

### Paso 3: Matriz de covarianza
Calculamos la matriz de covarianza de los datos centrados.

In [13]:
import numpy as np
matriz_cov = np.cov(X_centrado.T)
print('Matriz de covarianza:')
print(matriz_cov)

Matriz de covarianza:
[[ 2.75780944e+03  1.43548489e+00 -1.53509942e+02 -5.68594149e-01
   2.55956889e+00 -1.45684310e+01 -3.13378131e+02 -1.17346642e+02
  -9.93398825e-01 -1.16097527e+01]
 [ 1.43548489e+00  5.30195396e+00  7.80912537e+00  8.68176038e-02
  -4.81230981e-03 -4.70793864e-01  1.00583518e+01  2.54010127e+00
  -8.03288633e-02  2.40862394e+00]
 [-1.53509942e+02  7.80912537e+00  7.30719730e+04  3.78820473e+00
  -5.03519670e+00 -4.48737147e-01  1.72351775e+02  3.21732438e+02
   1.53435171e+01 -5.21092666e+02]
 [-5.68594149e-01  8.68176038e-02  3.78820473e+00  1.99835559e+00
  -1.00937234e-01 -2.45280586e-01 -1.01779975e+01  3.72993248e-03
  -8.75876800e-02 -9.44608946e-01]
 [ 2.55956889e+00 -4.81230981e-03 -5.03519670e+00 -1.00937234e-01
   6.71799725e+00  1.62003744e-01  1.15632249e+01  2.54798837e+00
   6.24737841e-02  2.60954266e-01]
 [-1.45684310e+01 -4.70793864e-01 -4.48737147e-01 -2.45280586e-01
   1.62003744e-01  1.68846898e+02  6.53714785e+01 -5.06824690e+00
  -2.598946

### Paso 4: Autovalores y autovectores
Calculamos los autovalores y autovectores de la matriz de covarianza.

In [14]:
from numpy.linalg import eig
autovalores, autovectores = eig(matriz_cov)
print('Autovalores:')
print(autovalores)
print('Autovectores:')
print(autovectores)

Autovalores:
[7.54474212e+04 7.30651946e+04 1.87594035e+04 2.75427444e+03
 2.99959757e+03 1.68705748e+02 1.59631035e+01 1.99106981e+00
 5.29666624e+00 6.71440862e+00]
Autovectores:
[[-4.44472148e-03 -1.85873662e-03 -7.38224307e-03 -9.97768680e-01
   6.59391764e-02  5.52946208e-03 -3.76653880e-04 -2.25143516e-04
   5.35923895e-04 -9.60834627e-04]
 [ 1.40051600e-04  9.64146295e-05  1.34292033e-04 -6.12045861e-04
  -8.20438557e-04 -2.90194644e-03  7.73989745e-03  2.65054225e-02
  -9.99595417e-01 -6.08636159e-03]
 [ 7.35981768e-02  9.97240028e-01 -6.05212926e-03 -2.61783679e-03
  -7.21720891e-03  8.90730389e-06  2.13038129e-04  4.62598736e-05
   1.15634311e-04  7.04009055e-05]
 [-1.30709094e-04  6.20654497e-05 -3.50205131e-06  2.42434194e-04
   3.16617199e-04 -1.43064882e-03  6.45935147e-03 -9.99415663e-01
  -2.63204110e-02 -2.07754301e-02]
 [ 1.47577788e-04 -8.02497168e-05  1.39954485e-04 -9.58287615e-04
  -5.30861921e-05  1.02849461e-03 -7.22926442e-03 -2.06543117e-02
  -6.69319743e-03  

### Paso 5: Ordenamiento
Ordenamos los autovectores según los autovalores de mayor a menor.

In [15]:
idx = np.argsort(autovalores)[::-1]
autovalores_ordenados = autovalores[idx]
autovectores_ordenados = autovectores[:, idx]
print('Autovalores ordenados:')
print(autovalores_ordenados)


Autovalores ordenados:
[7.54474212e+04 7.30651946e+04 1.87594035e+04 2.99959757e+03
 2.75427444e+03 1.68705748e+02 1.59631035e+01 6.71440862e+00
 5.29666624e+00 1.99106981e+00]


In [16]:
# Calcular proporción de varianza explicada y acumulada
varianza_explicada = autovalores_ordenados / np.sum(autovalores_ordenados)
varianza_acumulada = np.cumsum(varianza_explicada)

# Crear DataFrame con resultados
tabla_pca = pd.DataFrame({
    'Comp.': [f'PC{i+1}' for i in range(len(autovalores_ordenados))],
    'Autovalor (Varianza)': autovalores_ordenados,
    'Proporción de varianza explicada': varianza_explicada,
    'Varianza acumulada': varianza_acumulada
})

# Mostrar la tabla
print(tabla_pca)

  Comp.  Autovalor (Varianza)  Proporción de varianza explicada  \
0   PC1          75447.421242                          0.435547   
1   PC2          73065.194574                          0.421795   
2   PC3          18759.403544                          0.108295   
3   PC4           2999.597565                          0.017316   
4   PC5           2754.274435                          0.015900   
5   PC6            168.705748                          0.000974   
6   PC7             15.963104                          0.000092   
7   PC8              6.714409                          0.000039   
8   PC9              5.296666                          0.000031   
9  PC10              1.991070                          0.000011   

   Varianza acumulada  
0            0.435547  
1            0.857342  
2            0.965637  
3            0.982953  
4            0.998853  
5            0.999827  
6            0.999919  
7            0.999958  
8            0.999989  
9            1.000000 

### Paso 6: Proyección
Proyectamos los datos originales sobre los componentes principales.

In [17]:
# Proyectar sobre los 3 primeros componentes principales
X_PCA = np.dot(X_centrado, autovectores_ordenados[:, :3])

# Crear DataFrame con nombres de columnas
df_PCA = pd.DataFrame(X_PCA, columns=['PC1', 'PC2', 'PC3'])

# Guardar en archivo CSV
df_PCA.to_csv("X_ventas_PCA3.csv", index=False)

# Mostrar primeras filas
print(df_PCA.head())

          PC1         PC2         PC3
0   70.721144  414.210909  135.267963
1 -231.925548  366.966587  230.781049
2 -384.958240  234.245235  -50.426129
3 -140.177633   -0.718311  -81.131594
4  384.740130   -1.623002  151.507745
