# SVD : Singular Value Descomposition
Consiste en expresar una matriz de datos en 3 matrices :
$$
\mathbf{X} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T
$$

$$
\mathbf{X} \approx \sum_{k=1}^{r} \sigma_k \mathbf{u}_k \mathbf{v}_k^T
$$

$$
\begin{bmatrix}
| & | & & | \\
\mathbf{x}_1 & \mathbf{x}_2 & \cdots & \mathbf{x}_m \\
| & | & & |
\end{bmatrix}
=
\begin{bmatrix}
| & & | \\
\mathbf{u}_1 & \cdots & \mathbf{u}_n \\
| & & |
\end{bmatrix}
\begin{bmatrix}
\sigma_1 & & \\
& \ddots & \\
& & \sigma_r
\end{bmatrix}
\begin{bmatrix}
- & \mathbf{v}_1^T & - \\
& \vdots & \\
- & \mathbf{v}_r^T & -
\end{bmatrix}
$$

Notar que $\mathbf{x_k} ,\mathbf{u_k}    \in  \mathbb{R^n}$ para $n$ número de filas de datos

Donde:
1. $\mathbf{U}$  Matriz de vectores singulares izquierdos- Modos Espcaciales: contiene a los vectores $\mathbf{u_k}$ vectores ortogonales y unitarios que contruyen una base para el espacio de las columnas $\mathbf{x}$.
   
2. $\mathbf{\Sigma}$ Valores singulares - Energía: Matriz diagonal ordenada, representan la importancia o energía de cada modo $\mathbf{u_k}$. Valores altos indican qque el patrón $\mathbf{u_k}$ es fundamental, por el contrario valores cercanos a cero indican ruido. Estos se cortan para reducir dimensionalidad.
   
3. $\mathbf{V^T}$ Valores singulares derechos : Cada columna de $\mathbf{V^T}$ representa a cada cliente expresado por el mixture de cada $\mathbf{u_k}$ para generar cada cliente $\mathbf{x_k}$




## Representación de multiplicaciones

Represento la multiplicación de $\mathbf{U} \times \mathbf{\Sigma}$
$$\underbrace{
\begin{bmatrix}
| & | & & | \\
\mathbf{u}_1 & \mathbf{u}_2 & \cdots & \mathbf{u}_r \\
| & | & & |
\end{bmatrix}
}_{\text{Formas Unitarias (Norma 1)}}
\times
\underbrace{
\begin{bmatrix}
\sigma_1 & 0 & \cdots & 0 \\
0 & \sigma_2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \sigma_r
\end{bmatrix}
}_{\text{Energía Escalar}}
=
\underbrace{
\begin{bmatrix}
| & | & & | \\
\sigma_1 \mathbf{u}_1 & \sigma_2 \mathbf{u}_2 & \cdots & \sigma_r \mathbf{u}_r \\
| & | & & |
\end{bmatrix}
}_{\text{Formas "Cargadas" de Energía}}$$

Definimos la matriz de patrones ponderados $\mathbf{L} = \mathbf{U}\mathbf{\Sigma}$.

La reconstrucción del vector de datos del cliente $j$ ($\mathbf{x}_j$) es una combinación lineal:

$$\mathbf{x}_j = v_{1,j} (\sigma_1 \mathbf{u}_1) + v_{2,j} (\sigma_2 \mathbf{u}_2) + \dots + v_{r,j} (\sigma_r \mathbf{u}_r)$$

$$
\mathbf{x}_j = \sum_{k=1}^{r} v_{k,j} (\sigma_k \mathbf{u}_k)
$$

La MATRIZ COMPLETA se puede por tanto escribir de esta manera 
$$
\mathbf{X}=\sum_{k=1}^{r} \sigma_k u_k v^T_k
$$







Expandiendo matricialmente para visualizar la mezcla:

$$
\underbrace{
\begin{bmatrix}
| & | & | \\
\mathbf{x}_1 & \cdots & \mathbf{x}_m \\
| & | & |
\end{bmatrix}
}_{\mathbf{X} \text{ (Datos)}}
=
\underbrace{
\begin{bmatrix}
| & & | \\
\sigma_1 \mathbf{u}_1 & \cdots & \sigma_r \mathbf{u}_r \\
| & & |
\end{bmatrix}
}_{\mathbf{L} = \mathbf{U}\mathbf{\Sigma} \text{ (Patrones con Energía)}}
\times
\underbrace{
\begin{bmatrix}
v_{1,1} & v_{1,2} & \cdots & v_{1,m} \\
\vdots & \vdots & \ddots & \vdots \\
v_{r,1} & v_{r,2} & \cdots & v_{r,m}
\end{bmatrix}
}_{\mathbf{V}^T \text{ (Mezcla por Cliente)}}
$$

Donde $v_{k,j}$ es la coordenada $k$ del cliente $j$ (fila $k$, columna $j$ de $\mathbf{V}^T$).

In [2]:
#Hora de importar datos REALES DE CONSUMOS ELECTRICOS
import pandas as pd 
import os 


# Ruta del directorio donde están tus archivos .PRN [Energías]
input_dir = r"C:\Users\nasca\Desktop\POYECTO CM 2025\lecturas_ener_procesadas"

# Nombre (y ruta) para el archivo de salida (CSV final)
#output_file = r"C:\Users\nasca\Desktop\ONE DRIVE CM\DATA POWER BI CLIENTES LIBRES\ENERGÍAS 2025\ENERO 25\combine_ENE25.csv"

# Obtenemos la lista de archivos que terminen con .prn
prn_files = [f for f in os.listdir(input_dir)] #Lista de Compresión(comprhensive list)
#f.lower() : convierte a minúscula el nombre
#ends.with('.prn'):identifica los archivos prn

# Lista donde almacenaremos temporalmente los DataFrames
dfs = []  #Una vez que se almecena debería eliminarse creo

for prn_filename in prn_files:
    file_path = os.path.join(input_dir, prn_filename) #Necesario para una ruta segura a los archivos PRN, tanto en Windows como Mac
    
    # Leemos cada PRN con pandas
    # Ajustar:
    #   encoding si requieres un encoding particular (ej. 'latin1', 'utf-8', etc.)
    df = pd.read_csv(file_path, 
                     sep='\t',     #Separado por tabulaciones(\t), hay más... 
                     header=0,     # Cambiar a None si el archivo NO tiene header
                     engine="c"    # Usa 'python' si los PRNs tienen spacing variable
                    )
    
    # Aquí combinamos un archivo PRN a otro 
    #OJO : Aquí solo está una lista de listas lista_de_listas= [ [prn_filename1],[prn_filename2],...]
    dfs.append(df)

c_df = pd.concat(dfs, ignore_index=True, sort=False)
# Concatenamos todos los DataFrames con "sort=False" no ordena alfebeticamente las columnas.
# ignore_index=True : ignora los índices de cada df, para evitar indices duplicados.
# Las columnas que no estén presentes en algún archivo se rellenan con NaN en la concatenación.

# Guardamos el resultado en un CSV (sin índice)
#c_df.to_csv(output_file, index=False, encoding="utf-8")

print("¡Archivos combinados con éxito! Archivo resultante, muy bien ")

# Duda aqui parece que concatena listas no DFs ....


¡Archivos combinados con éxito! Archivo resultante, muy bien 


In [43]:
c_df

Unnamed: 0,Account:,Date,Time,Int.Len,kWh-Del,kVARh-Q1,kWh-Rec,kVARh-Q4,kVARh-Del,kVARh-Rec,kVARh-Q2,kVARh-Q3
0,25000010,01/10/25,00:15,15,0.2233,0.0460,0.0,0.0000,,,,
1,25000010,01/10/25,00:30,15,0.2212,0.0420,0.0,0.0000,,,,
2,25000010,01/10/25,00:45,15,0.2256,0.0476,0.0,0.0000,,,,
3,25000010,01/10/25,01:00,15,0.2246,0.0476,0.0,0.0000,,,,
4,25000010,01/10/25,01:15,15,0.2236,0.0440,0.0,0.0000,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
3772539,41144411,31/10/25,23:00,15,0.0235,0.0000,0.0,0.0131,,,0.0,0.0
3772540,41144411,31/10/25,23:15,15,0.0226,0.0000,0.0,0.0132,,,0.0,0.0
3772541,41144411,31/10/25,23:30,15,0.0297,0.0000,0.0,0.0125,,,0.0,0.0
3772542,41144411,31/10/25,23:45,15,0.0378,0.0000,0.0,0.0141,,,0.0,0.0


## Exploración y Limpieza

In [44]:
# Primero energías
#Datos del mes de septiembre 2025 de SOLO ENERGÍAS
c_df_ener=c_df[['Account:','Date','kWh-Del']]

c_df_ener


Unnamed: 0,Account:,Date,kWh-Del
0,25000010,01/10/25,0.2233
1,25000010,01/10/25,0.2212
2,25000010,01/10/25,0.2256
3,25000010,01/10/25,0.2246
4,25000010,01/10/25,0.2236
...,...,...,...
3772539,41144411,31/10/25,0.0235
3772540,41144411,31/10/25,0.0226
3772541,41144411,31/10/25,0.0297
3772542,41144411,31/10/25,0.0378


In [4]:
# Limpieza de datos hay clientes que tienen lecturas incompletas
 
conteo=c_df_ener['Account:'].value_counts()
conteo

Account:
41144411    2976
25000010    2976
25000074    2976
25000181    2976
25002088    2976
            ... 
26407527    1083
26458894     988
35893437     925
26248912     922
35707003       1
Name: count, Length: 1277, dtype: int64

In [10]:
clientes_incompletos = conteo[conteo != 2976]
clientes_incompletos
#Se ve que son 22 clientes 

Account:
26408032    2820
36917720    2820
37242550    2817
35433740    2292
38446125    2251
27151069    2161
35950177    2070
37128995    2065
38141848    2064
25623394    2060
38858825    2057
37338123    1691
38468786    1663
39968198    1660
26035851    1086
38400224    1084
26248897    1084
26407527    1083
26458894     988
35893437     925
26248912     922
35707003       1
Name: count, dtype: int64

In [45]:
# Removemos clientes con datos incompletos :

#Paso 1: Extraigo los id's de los clientes con datos incompletos 
clientes_a_eliminar= clientes_incompletos.index 
#Extraigo la lista del indice porque el df tiene indexado los Account



#Paso 2: Mascara Booleana
mask=c_df_ener['Account:'].isin(clientes_a_eliminar) 
#Mapea cada fila y verifica si ese acount esta en el DF principal
#Me una tabla con verdadero para cada cliente que hay que eliminar


#Paso 3: Aplico la mascara con el ~ para eliminar los de la lista negra para volverlo FALSO y eliminarlo
# de la lista...

c_df_ener_clean=c_df_ener[~mask]

c_df_ener_clean

Unnamed: 0,Account:,Date,kWh-Del
0,25000010,01/10/25,0.2233
1,25000010,01/10/25,0.2212
2,25000010,01/10/25,0.2256
3,25000010,01/10/25,0.2246
4,25000010,01/10/25,0.2236
...,...,...,...
3772539,41144411,31/10/25,0.0235
3772540,41144411,31/10/25,0.0226
3772541,41144411,31/10/25,0.0297
3772542,41144411,31/10/25,0.0378


In [37]:
len(c_df_ener_clean['Account:'].unique()) #Numero de clientes a procesar 1255

1255

## Con Energías
$$\bar{X} =
\begin{bmatrix}
\mid & \mid &        & \mid \\
\mathbf{x}_1^{(i)} & \mathbf{x}_2 & \cdots & \mathbf{x}_{k=1255} \\
\mid & \mid &        & \mid
\end{bmatrix} $$
- Donde cada $x_k$ va a representa un cliente con lecuturas de demanda en kW (kW-Del)
- Cada fila $x^{(i)} \in \mathbb{R}^{1277}$  representa una lectura 15-minutal



$$
\mathbf{X} \approx \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T
$$

$$
\begin{bmatrix}
| & | & & | \\
\mathbf{c}_1 & \mathbf{c}_2 & \cdots & \mathbf{c}_m \\
| & | & & | \\
\text{(Lecturas)} & & &
\end{bmatrix}
=
\begin{bmatrix}
| & & | \\
\mathbf{u}_1 & \cdots & \mathbf{u}_r \\
| & & | \\
\text{(Patrones)} & &
\end{bmatrix}
\begin{bmatrix}
\sigma_1 & & \\
& \ddots & \\
& & \sigma_r
\end{bmatrix}
\begin{bmatrix}
- & \mathbf{v}_1^T & - \\
\vdots & \vdots & \vdots \\
- & \mathbf{v}_r^T & - \\
& \text{(Coef. Clientes)} &
\end{bmatrix}
$$

Donde:
* $\mathbf{c}_j$: Vector de lecturas del cliente $j$.
* $\mathbf{u}_k$: Patrón de comportamiento temporal $k$ (Arquetipo).
* $\mathbf{v}_j^T$: "ADN" del cliente $j$ (cuánto tiene de cada patrón).

In [47]:
# Doy forma a mi dataframe y lo convierto a dato de numpy para procesar el algoritmo de SVD

#Genero mi matriz X

X = c_df_ener_clean.pivot(index='Date', columns='Account:', values='kWh-Del')
X


ValueError: Index contains duplicate entries, cannot reshape