## Proceso de Carga de Datos, Transformaci√≥n y Almacenamiento

![image.png](attachment:fc850100-182c-4dd8-be65-e3cea86bf7d4.png)

En esta primera etapa se debe cargar los nuevos datos de consumo e inspecciones en las bases de datos del m√≥dulo de predicci√≥n. Para ello, seguir estos pasos:
1. **Cargar datos de consumo mensual**: Cargar los archivos Excel (.xlsx) o Csv (.csv) en la carpeta *"data/consumo"*, con el formato de exportaci√≥n normal. Una vez procesados estos se mover√°n a la carpeta *"data/procesados"*.
2. **Cargar datos de inspecciones**: Cargar archivos Excel (.xlsx) o Csv (.csv) en la carpeta *"data/inspecciones"*. El formato esperado para estos archivos viene dado por el reporte de √≠ndice de riesgo obtenido en una ejecuci√≥n anterior del m√≥dulo de predicci√≥n. Una vez procesados estos archivos se mover√°n a la carpeta *"data/procesados"*.
3. **Ejecutar celdas ETL**: Las celdas de abajo permiten obtener las series de consumo etiquetadas junto con variables categ√≥ricas y derivadas, tanto para el set de entrenamiento como para los consumos del mes actual. Luego de ejecutarlas, se podr√° llevar a cabo el entrenamiento del modelo de predicci√≥n, y con ello obtener las predicciones para guiar las inspecciones en campo, desde la notebook *train_predicciones.ipynb*.

In [1]:
######## CONFIGURACIONES PRELIMINARES Y CARGA DE LIBRER√çAS DEL M√ìDULO ##########
## {Formato viejo de archivo de multas: **Recordar que la estructura de estos archivos debe contener una columna *"C√≥digo novedad"*, sin valor para las inspecciones sin multa y con alg√∫n valor para aquellas inspecciones con multa**.}
import os
import pandas as pd
import warnings
import io
warnings.filterwarnings('ignore')
pd.options.display.float_format = '{:.5f}'.format #evita que muestre notacion cientifica
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
module_path = os.path.abspath(os.path.join('../../'))
import sys
if module_path not in sys.path:
    sys.path.append(module_path)
from src.preprocessing import etl

#### CARGA DE ARCHIVOS DE CONSUMO
Se utilizan los archivos que est√°n dentro de la carpeta "data/consumo", los cuales deben tener formato excel (.xlsx) o csv (.csv), y ser√°n movidos a la carpeta "data/procesados"

In [2]:
%%time
df_historico, df_instalacion_cuenta = etl.concatenar_nuevos_datos_consumo()

---Importaci√≥n de datos nuevos de consumos---
Tama√±o original df datos hist√≥rico: (22864856, 17)
Tama√±o datos agregados: (0, 0)
Tama√±o final df datos hist√≥rico: (18904050, 17)
Cantidad total de Cuentas: 1412352
Cantidad total de Instalaciones: 696867
---Finalizado: Importaci√≥n de datos nuevos de consumos---
CPU times: total: 2min 18s
Wall time: 1min 21s


#### CARGA DE ARCHIVOS DE INSPECCIONES
Se buscan archivos existentes en "data/inspecciones" en formato Excel (.xlsx). En este caso, los archivos que se esperan tienen como fuente el Reporte de Instalaciones con alto √≠ndice de riesgo, el mismo que se emite al final del m√≥dulo de predicci√≥n (Fase de Retroalimentaci√≥n).
Luego de agregarse a la base de datos del m√≥dulo de predicciones, los archivos recolectados ser√°n movidos a la carpeta "data/procesados". El formato esperado para estos archivos es similar al reporte de √≠ndice de riesgo obtenido en ejecuciones anteriores del m√≥dulo, y es el siguiente (los nombres deben coincidir de forma exacta):

 1. *Fecha*: Contiene la fecha de realizaci√≥n de la inspecci√≥n al cliente. Su formato esperado es: **dd/mm/aaaa** (Tambi√©n debe coincidir de forma exacta el formato en todas las filas).
   
 2. *Instalacion*: Contiene el n√∫mero de instalaci√≥n asociado a la inspecci√≥n, que luego se vincular√° con el n√∫mero de cuenta mediante el listado maestro de consumos.
    
 3. *Inspecciones realizadas*: Columna que indica, para cada caso, si la inspecci√≥n se realiz√≥ para esa instalaci√≥n. Su formato es: *1* si se realiz√≥ inspecci√≥n, y *0* si no se realiz√≥ inspecci√≥n. Sirve para permitir el uso de un reporte de √≠ndice de riesgo sin necesidad de remover la lista completa de instalaciones, a√∫n cuando no se efectu√≥ la totalidad de inspecciones.
    
 4. *Notificaciones*: Esta columna permite distinguir los casos de infracci√≥n y los casos en los que no se detect√≥ infracci√≥n al realizar la inspecci√≥n. Su formato tambi√©n es *1* para infracci√≥n y *0* para no infracci√≥n. Permite identificar los casos positivos y negativos para la clase *fraude* en el dataset de entrenamiento.

In [3]:
%%time
df_historico_inspecciones = etl.concatenar_nuevos_datos_inspecciones()

---Importaci√≥n de datos nuevos de inspecciones---
Tama√±o original df datos hist√≥rico inspecciones: (55516, 9)
Tama√±o datos nuevos datos de inspecciones: (0, 0)
Tama√±o final df datos hist√≥rico inspecciones: (55516, 9)
---Finalizado: Importaci√≥n de datos nuevos de inspecciones---
CPU times: total: 219 ms
Wall time: 162 ms


#### ETIQUETADO DE VALORES DE CONSUMO PARA LAS INSTALACIONES INSPECCIONADAS
En esta secci√≥n se elabora una base de datos que contendr√° los consumos etiquetados como fraude o no fraude, solamente para las instalaciones que figuran en las inspecciones registradas. Para el caso de las situaciones de fraude, se tomar√°n el o los per√≠odos en que se registr√≥ fraude como consumo/s fraudulentos, y el resto como no fraudulentos. Se incluyen aqu√≠ todos los consumos del per√≠odo correspondiente para todas las instalaciones que figuran inspeccionadas.

In [4]:
%%time
df_fraudes_completo_etiquetado = etl.etiquetar_consumos_inspecciones_train()

---Generaci√≥n de datos de consumo etiquetados---
Tama√±o original df datos hist√≥rico: (18904050, 17)
Tama√±o original df datos hist√≥rico fraudes: (55516, 9)
Tama√±o final df datos hist√≥rico completos etiquetados: (1126711, 20)
---Finalizado: Generaci√≥n de datos de consumo etiquetados---
CPU times: total: 14.5 s
Wall time: 14.5 s


#### GENERACI√ìN Y ETIQUETADO DE SERIES DE CONSUMO PARA ENTRENAMIENTO
En esta fase se lleva a cabo la elaboraci√≥n de las series de consumo para el set de entrenamiento. Se procesan todos los datos de inspecciones agregados en el paso anterior, vincul√°ndolos con los datos de consumo, para armar las series con la etiqueta correspondiente, de acuerdo al hallazgo de situaci√≥n de fraude o no en el consumo final de la serie. Cada serie incluye doce meses anteriores de consumo.

In [8]:
%%time
df_wide_normal_and_fraud = etl.series_de_consumo_etiquetadas()

---Generaci√≥n de series de consumo etiquetadas---


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 13/13 [00:09<00:00,  1.30it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 13/13 [01:04<00:00,  4.97s/it]


Tama√±o final series etiquetadas: (27483, 32)
---Finalizado: Generaci√≥n de series de consumo etiquetadas---
CPU times: total: 1min 18s
Wall time: 1min 17s


#### GENERACI√ìN DE FEATURES ESTAD√çSTICAS Y TEMPORALES SOBRE LAS SERIES ETIQUETADAS
Aqu√≠ se computan las distintas features sint√©ticas que tambi√©n formar√°n parte del dataset en las fases posteriores. En este caso se computan las features correspondientes al set de datos de entrenamiento, es decir, aquellos registros de inspecciones para casos de multa y casos sin multa, vinculando los datos de las series de consumo elaboradas en el paso anterior.

In [9]:
df_series_features = etl.cleaning_feature_engineering()

---Generaci√≥n de features de series de consumo etiquetadas---
-- Usando datos hist√≥ricos de feature eng: (70344, 115) ../../data/historico/df_series_features_train.parquet
Tama√±o datos wide a agregar (nuevos datos no catalogados antes): (62, 32)
*** Feature extraction started ***



*** Feature extraction finished ***
*** Feature extraction started ***



*** Feature extraction finished ***
Tama√±o final series con features: (70406, 115)
---Finalizado: Generaci√≥n de features de series de consumo etiquetadas---


#### PROCESAMIENTO DE DATASET FINAL PARA ENTRENAMIENTO
Seguidamente, en esta fase se generan los datos necesarios para poder efectuar el entrenamiento del modelo de predicci√≥n. Se generan y guardan *X*, *y* y *df_features_selected*, que contendr√°n las series de consumo acompa√±adas de variables sint√©ticas y categ√≥ricas (X), la indicaci√≥n de clase *Fraude* o *No Fraude* (y), y las variables seleccionadas por el m√©todo Boruta (df_features_selected) respectivamente.

In [None]:
%%time
X, y, df_features_selected = etl.feature_selection_dataset_entrenamiento()

---Selecci√≥n de Features y Armado de Dataset de Entrenamiento---
Tama√±o original X: (70406, 114), Tama√±o original y: (70406,)


 40%|‚ñà‚ñà‚ñà‚ñà      | 2/5 [07:33<11:25, 228.40s/it]

#### ARMADO DE LAS SERIES DE CONSUMO PARA EL MES ACTUAL
En esta fase se arman las series temporales que ingresar√°n posteriormente a la fase de generaci√≥n de features sint√©ticas del m√≥dulo. Sobre estas series se deben computar luego las variables sint√©ticas con la librer√≠a *TSFEL*.

In [3]:
%%time
series_mes = etl.series_de_consumo_mes_especifico()#,mes='2022/12'

---Generaci√≥n de series de consumo para predicci√≥n de mes espec√≠fico: 2023/10---
Filtrado de datos del per√≠odo
Consumos reales/estimados: Contabilizando cantidad de estimaciones
Estados: Contabilizando por tipo
Categor√≠as: Contabilizando categor√≠as del per√≠odo y √∫ltima categor√≠a por instalaci√≥n
Categor√≠as: Identificando categorias mas frecuentes del per√≠odo por instalaci√≥n
Categor√≠as: Contabilizando cambios
Iniciando armado de series
Iniciando uni√≥n de series y caracter√≠sticas
----Finalizado armado de series del mes----
CPU times: total: 16min 29s
Wall time: 15min 50s


#### C√ìMPUTO DE FEATURES TSFEL PARA LAS SERIES DE CONSUMO DEL MES ACTUAL
En esta fase se computan las features sint√©ticas *TSFEL* para las series de consumo generadas en el paso anterior. Las series temporales etiquetadas y con sus features generadas ingresar√°n posteriormente a la fase de *Inferencia* del m√≥dulo. En dicha fase, luego de haber efectuado el re-entrenamiento del modelo de predicci√≥n LGBM con los √∫ltimos datos de inspecciones registrados, se emitir√° el *Reporte de √çndice de Riesgo* para las instalaciones registradas, que permitir√° la posterior planificaci√≥n de inspecciones para el nuevo per√≠odo. **Este c√≥mputo se lleva a cabo de manera incremental, por lo que es posible, en caso de que no se haya finalizado el proceso correctamente, reanudarlo m√°s tarde**.

Con este paso se concluye la etapa de ETL, al disponer de todos los datos necesarios para efectuar entrenamiento e inferencia (predicci√≥n de valores nuevos de √≠ndice de riesgo o probabilidad de fraude). Las tareas siguientes se ejecutan en la notebook **train_predicciones.ipynb**.

In [4]:
# SERIES A ESPERAR QUE SEAN GENERADAS:
## DEBER√çAN GENERARSE M√ÅS DATOS DE INSTALACIONES, POR LAS AGREGADAS EN CADA MES
import pandas as pd
df_historico = pd.read_parquet('../../data/historico/df_raw_completo.parquet')
ant = df_historico.query('mesfac == "2023/09"').instalacion.nunique()
act = df_historico.query('mesfac == "2023/10"').instalacion.nunique()
print(f'instalaciones mes anterior: {ant}')
print(f'instalaciones mes actual: {act}')

instalaciones mes anterior: 691968
instalaciones mes actual: 695131


In [None]:
%%time
num_bloques = 30
series_features = etl.cleaning_feature_engineering_mes_especifico(num_bloques=num_bloques)

---Generaci√≥n de features de series de consumo de mes espec√≠fico---
Continuamos desde batch 11...
*** Feature extraction started ***


In [3]:
### OPCIONAL: CHEQUEAR PROGRESO
import pandas as pd
df_parcial = pd.read_parquet('../../data/historico/df_series_features_mes_parcial.parquet')
print(f'df_parcial: {df_parcial.shape}')
#df_parcial.tail()

df_parcial: (695131, 115)


In [5]:
# REPORTE DE REGISTROS DE CONSUMO POR MES
df_historico.groupby('date').size()

date
2021-07-01    666178
2021-08-01    666749
2021-09-01    609019
2021-10-01    669822
2021-11-01    670203
2021-12-01    670790
2022-01-01    639999
2022-02-01    672971
2022-03-01    673833
2022-04-01    674394
2022-05-01    674872
2022-06-01    676186
2022-07-01    677301
2022-08-01    678540
2022-09-01    680011
2022-10-01    680776
2022-11-01    681040
2022-12-01    680995
2023-01-01    681322
2023-02-01    681895
2023-03-01    682271
2023-04-01    682917
2023-05-01    683488
2023-06-01    683931
2023-07-01    687150
2023-08-01    690179
2023-09-01    692025
2023-10-01    695193
dtype: int64