## Proceso de Carga de Datos, Transformación y Almacenamiento
1. **Cargar datos de consumo mensual**: Cargar los archivos Excel (.xlsx) o Csv (.csv) en la carpeta *"data/consumo"*, con el formato de exportación normal. Una vez procesados estos se moverán a la carpeta *"data/procesados"*.
2. **Cargar datos de inspecciones**: Cargar los archivos Excel (.xlsx) o Csv (.csv) en la carpeta *"data/inspecciones"*. El formato esperado para estos archivos es el siguiente:  
    2.1 **Archivo de Inspecciones**: Debe contener el listado completo de inspecciones realizadas, tanto aquellas que resultaron en multa como las que no. Las columnas que debe contener este archivo son, mínimamente, las siguientes (los nombres deben coincidir de forma exacta):  
    > 2.1.1 *Cta.contrato*: Contiene el número de cuenta asociado a la inspección, que luego se vinculará con el número de instalación mediante el listado maestro de consumos.  
     > 2.1.2 *Fe.contab.*: Contiene la fecha de realización de la inspección al cliente. Su formato esperado es: **dd.mm.aaaa** (También debe coincidir de forma exacta el formato).

    2.2 **Archivo de multas**: Contendrá el listado de inspecciones que resultaron en aplicación de multas. Es importante mencionar que en el archivo de Inspecciones debe existir una contraparte para cada uno de los registros de multa, ya que para armar el dataset de entrenamiento es necesaria esta coincidencia completa. Las columnas que mínimamente deberá contener este archivo son (los nombres deben coincidir de forma exacta):
    > 2.2.1 *Instalación*: Número de instalación correspondiente al registro de multa (Número entero).  
    > 2.2.2 *Cuenta*: Número de cuenta asociado a la instalación en el registro de multa y en el registro maestro de consumos (Número entero).  
    > 2.2.3 *Fecha*: Fecha exacta de aplicación de la multa, en formato **dd/mm/aaaa**. Notar la diferencia de formato con la fecha de Inspección.
Una vez procesados estos archivos se moverán a la carpeta *"data/procesados"*.  
3. **Ejecutar celdas ETL**: Las celdas de abajo permiten obtener las series de consumo etiquetadas. Luego de ejecutarlas, se podrá llevar a cabo el entrenamiento del modelo de predicción en la notebook *train_predicciones.ipynb*, y con ello obtener las predicciones para guiar las inspecciones en campo.

In [2]:
######## CONFIGURACIONES PRELIMINARES ##########
## {Formato viejo de archivo de multas: **Recordar que la estructura de estos archivos debe contener una columna *"Código novedad"*, sin valor para las inspecciones sin multa y con algún valor para aquellas inspecciones con multa**.}
import os
import pandas as pd
import warnings
import io
warnings.filterwarnings('ignore')
pd.options.display.float_format = '{:.5f}'.format #evita que muestre notacion cientifica
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
module_path = os.path.abspath(os.path.join('../../'))
import sys
if module_path not in sys.path:
    sys.path.append(module_path)
from src.preprocessing import etl

In [3]:
%%time
df_historico, df_instalacion_cuenta = etl.concatenar_nuevos_datos_consumo()

---Importación de datos nuevos de consumos---
Tamaño original df datos histórico: (16005327, 16)
Tamaño datos agregados: (0, 0)
Tamaño final df datos histórico: (16005327, 16)
Cantidad total de Cuentas: 703374
Cantidad total de Instalaciones: 683742
---Finalizado: Importación de datos nuevos de consumos---
CPU times: user 34.3 s, sys: 7.59 s, total: 41.9 s
Wall time: 1min 54s


In [5]:
#df_historico_inspecciones = etl.concatenar_nuevos_datos_inspecciones_formato_viejo()
df_historico_inspecciones = etl.concatenar_nuevos_datos_inspecciones()

---Importación de datos nuevos de inspecciones---
Tamaño original df datos histórico inspecciones: (10511, 9)
--- No se agregaron datos nuevos de inspecciones/multas


In [6]:
#df_fraudes_completo_etiquetado = etl.etiquetar_consumos_inspecciones_train_formato_viejo(df_historico,df_historico_inspecciones)
df_fraudes_completo_etiquetado = etl.etiquetar_consumos_inspecciones_train(df_historico,df_historico_inspecciones)

---Generación de datos de consumo etiquetados---
Tamaño original df datos histórico: (16005327, 16)
Tamaño original df datos histórico fraudes: (10511, 9)
Tamaño final df datos histórico completos etiquetados: (221533, 19)
---Finalizado: Generación de datos de consumo etiquetados---


In [7]:
df_wide_normal_and_fraud = etl.series_de_consumo_etiquetadas(df_fraudes_completo_etiquetado)

---Generación de series de consumo etiquetadas---


100%|██████████| 12/12 [00:04<00:00,  2.60it/s]
100%|██████████| 12/12 [00:14<00:00,  1.22s/it]

Tamaño final series etiquetadas: (4992, 32)
---Finalizado: Generación de series de consumo etiquetadas---





In [3]:
df_series_features = etl.cleaning_feature_engineering(df_wide_normal_and_fraud)

---Generación de features de series de consumo etiquetadas---
-- Usando datos históricos de feature eng: (4992, 115) ../../data/historico/df_series_features_train.parquet
Tamaño datos wide a agregar (nuevos datos no catalogados antes): (0, 32)
Tamaño final series con features: (4992, 115)
---Finalizado: Generación de features de series de consumo etiquetadas---


In [None]:
%%time
X, y, df_features_selected = etl.feature_selection_dataset_entrenamiento(df_series_features)

In [7]:
%%time
series_mes = etl.series_de_consumo_mes_especifico(df_historico)#,mes='2022/12'

---Generación de series de consumo para predicción de mes específico: 2022/12---
Filtrado de datos del período
Consumos reales/estimados: Contabilizando cantidad de estimaciones
Estados: Contabilizando por tipo
Categorías: Contabilizando categorías del período y última categoría por instalación
Categorías: Identificando categorias mas frecuentes del período por instalación
Categorías: Contabilizando cambios
Iniciando armado de series
Iniciando unión de series y características
----Finalizado armado de series del mes----
CPU times: user 17min 32s, sys: 4.87 s, total: 17min 37s
Wall time: 17min 36s


In [11]:
%%time
series_features = cleaning_feature_engineering_mes_especifico(df_series_mes)

---Generación de features de series de consumo de mes específico---
*** Feature extraction started ***



*** Feature extraction finished ***
*** Feature extraction started ***



*** Feature extraction finished ***
Tamaño final series con features del mes: (1000, 112)
---Finalizado: Generación de features de series de consumo etiquetadas mes específico---
(1000, 112)


Unnamed: 0,instalacion,12_anterior,11_anterior,10_anterior,9_anterior,8_anterior,7_anterior,6_anterior,5_anterior,4_anterior,3_anterior,2_anterior,1_anterior,cant_consumo_est,cant_estado_0,cant_estado_1,cant_estado_2,cant_estado_3,cant_estado_4,mes,bimestre,trimestre,cuatrimestre,semestre,cant_categorias,ult_categoria,categ_mas_frecuente,cambios_categoria,index,0_Absolute energy,0_Average power,0_ECDF Percentile Count_0,0_ECDF Percentile Count_1,0_ECDF Percentile_0,0_ECDF Percentile_1,0_ECDF_0,0_ECDF_1,0_ECDF_2,0_ECDF_3,0_ECDF_4,0_ECDF_5,0_ECDF_6,0_ECDF_7,0_ECDF_8,0_ECDF_9,0_Entropy,0_Histogram_0,0_Histogram_1,0_Histogram_2,0_Histogram_3,0_Histogram_4,0_Histogram_5,0_Histogram_6,0_Histogram_7,0_Histogram_8,0_Histogram_9,0_Interquartile range,0_Kurtosis,0_Max,0_Mean,0_Mean absolute deviation,0_Median,0_Median absolute deviation,0_Min,0_Peak to peak distance,0_Root mean square,0_Skewness,0_Standard deviation,0_Variance,0_Area under the curve,0_Autocorrelation,0_Centroid,0_Mean absolute diff,0_Mean diff,0_Median absolute diff,0_Median diff,0_Negative turning points,0_Neighbourhood peaks,0_Positive turning points,0_Signal distance,0_Slope,0_Sum absolute diff,0_Zero crossing rate,mean_3,cant_ceros_3,max_cant_ceros_seg_3,slope_3,min_cons3,max_cons3,std_cons3,var_cons3,skew_cons3,mean_6,cant_ceros_6,max_cant_ceros_seg_6,slope_6,min_cons6,max_cons6,std_cons6,var_cons6,skew_cons6,kurt_cons6,mean_12,cant_ceros_12,max_cant_ceros_seg_12,slope_12,min_cons12,max_cons12,std_cons12,var_cons12,skew_cons12,kurt_cons12
0,50000000,664.0,664.0,527.0,653.0,131.0,707.0,784.0,666.0,681.0,683.0,649.0,696.0,1,3.0,1.0,4.0,2.0,1.0,12,6,4,3,2,2,DOM,DOM,1,0,4997019.0,45427445.45455,2.0,9.0,527.0,683.0,0.08333,0.16667,0.25,0.33333,0.41667,0.5,0.58333,0.66667,0.75,0.83333,0.95351,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,34.25,4.90408,784.0,625.41667,98.80556,665.0,17.0,131.0,653.0,645.30477,-2.41337,158.97246,25272.24306,68.25,4997019.0,0.05821,150.36364,2.90909,77.0,2.0,4.0,0.0,3.0,1655.31488,10.94755,1654.0,0.0,676.0,0,0,6.5,649.0,696.0,24.26932,589.0,-1.18996,693.16667,0,0,-13.97143,649.0,784.0,47.32617,2239.76667,1.81247,3.86044,625.41667,0,0,10.94755,131.0,784.0,166.04132,27569.7197,-2.77275,8.52537
1,50000001,17.0,21.0,42.0,18.0,2.0,27.0,32.0,41.0,39.0,32.0,47.0,31.0,1,3.0,3.0,4.0,1.0,1.0,12,6,4,3,2,3,SAL,DOM,3,1,11971.0,108827.27273,2.0,9.0,17.0,39.0,0.08333,0.16667,0.25,0.33333,0.41667,0.5,0.58333,0.66667,0.75,0.83333,0.95351,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,19.25,-0.32329,47.0,29.08333,10.06944,31.5,10.0,2.0,45.0,31.58454,-0.57502,12.3184,151.74306,3.25,11971.0,0.06729,13.09091,1.27273,15.0,4.0,2.0,0.0,3.0,144.74499,1.90559,144.0,0.0,36.66667,0,0,-0.5,31.0,47.0,8.96289,80.33333,1.70783,37.0,0,0,0.17143,31.0,47.0,6.41872,41.2,0.68746,-0.96404,29.08333,0,0,1.90559,2.0,47.0,12.86615,165.53788,-0.66065,0.21966
2,50000002,243.0,227.0,256.0,240.0,240.0,258.0,262.0,214.0,212.0,221.0,216.0,215.0,0,3.0,1.0,4.0,2.0,1.0,12,6,4,3,2,3,,DOM,7,2,658984.0,5990763.63636,2.0,9.0,214.0,243.0,0.08333,0.16667,0.25,0.33333,0.41667,0.5,0.58333,0.66667,0.75,0.83333,0.95351,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,30.5,-1.43074,262.0,233.66667,16.16667,233.5,18.0,212.0,50.0,234.34021,0.26041,17.7545,315.22222,25.75,658984.0,0.05198,13.45455,-2.54545,9.0,-1.0,2.0,0.0,3.0,150.04564,-3.02797,148.0,0.0,217.33333,0,0,-3.0,215.0,221.0,3.21455,10.33333,1.54539,223.33333,0,0,-6.28571,212.0,262.0,19.17985,367.86667,2.3197,5.47748,233.66667,0,0,-3.02797,212.0,262.0,18.54397,343.87879,0.29919,-1.53996
3,50000003,120.0,120.0,99.0,112.0,112.0,122.0,138.0,126.0,139.0,143.0,131.0,165.0,0,2.0,3.0,4.0,0.0,1.0,12,6,4,3,2,2,,DOM,5,3,197649.0,1796809.09091,2.0,9.0,112.0,138.0,0.08333,0.16667,0.25,0.33333,0.41667,0.5,0.58333,0.66667,0.75,0.83333,0.90702,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,20.25,0.09728,165.0,127.25,13.29167,124.0,12.0,99.0,66.0,128.33842,0.54012,16.67895,278.1875,13.845,197649.0,0.0623,12.27273,4.09091,12.0,4.0,3.0,0.0,2.0,137.4027,3.82867,135.0,0.0,146.33333,0,0,11.0,131.0,165.0,17.24336,297.33333,0.83739,140.33333,0,0,4.4,126.0,165.0,13.53021,183.06667,1.36311,2.52436,127.25,0,0,3.82867,99.0,165.0,17.4206,303.47727,0.62055,0.88789
4,50000004,202.0,204.0,203.0,195.0,40.0,198.0,200.0,199.0,199.0,198.0,198.0,199.0,6,3.0,3.0,4.0,1.0,1.0,12,6,4,3,2,1,DOM,DOM,0,4,439669.0,3996990.90909,2.0,9.0,195.0,200.0,0.08333,0.16667,0.25,0.33333,0.41667,0.5,0.58333,0.66667,0.75,0.83333,0.77894,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.5,7.03506,204.0,186.25,24.375,199.0,1.0,40.0,164.0,191.41338,-2.99961,44.15904,1950.02083,20.345,439669.0,0.05584,29.90909,-0.27273,1.0,0.0,1.0,0.0,2.0,333.19764,1.31818,329.0,0.0,198.33333,0,0,0.5,198.0,199.0,0.57735,0.33333,1.73205,198.83333,0,0,-0.25714,198.0,200.0,0.75277,0.56667,0.31257,-0.10381,186.25,0,0,1.31818,40.0,204.0,46.12261,2127.29545,-3.44629,11.91126


In [3]:
# REPORTE DE REGISTROS DE CONSUMO POR MES
df_historico.groupby('date').size()

date
2021-01-01    658163
2021-02-01    658562
2021-03-01    659023
2021-04-01    660299
2021-05-01    661579
2021-06-01    663180
2021-07-01    666178
2021-08-01    666749
2021-09-01    609019
2021-10-01    669822
2021-11-01    670203
2021-12-01    670790
2022-01-01    639999
2022-02-01    672971
2022-03-01    673833
2022-04-01    674394
2022-05-01    674872
2022-06-01    676186
2022-07-01    677301
2022-08-01    678540
2022-09-01    680011
2022-10-01    680776
2022-11-01    681040
2022-12-01    681837
dtype: int64