In [1]:
from utils.tf import *
from utils.db import *
from utils.gd import * 
from utils.clt_repetidos import *
from datetime import datetime
import cx_Oracle
import pandas as pd
import os
import plotly.express as px
import plotly.graph_objects as go
from utils.clt_repetidos import * 
from ydata_profiling import ProfileReport
import dask.dataframe as dd
import gc
import matplotlib.pyplot as plt

# Get the data and create the output directory (Extraction)

In [12]:
path_dir_data = "/home/ale1726/proyects/datalake/clientes/data/productos/SOI/data"

In [13]:
# Obtenemos la fecha actual para crear un directorio
# donde se guardaran los archivos de salida
date_now = datetime.now().strftime("%d_%m_%Y") 
path_dir_today =  os.path.join(path_dir_data, date_now)

# Creamos el directorio si no existe
os.makedirs(path_dir_today, exist_ok=True)

In [14]:
query_productos_soi = """ 
WITH CLIENTES_ACTIVOS AS (
   SELECT  BA_BCO_FFON, BACVE_BANC, BANOM_BAN
   FROM SOI.SOI_BANCO sb
   WHERE BA_ACTIVO = 'S'
), CLT_LINEA AS (
	SELECT CA.*, SBL.BLNO_LINEA
	FROM CLIENTES_ACTIVOS CA
	LEFT JOIN SOI.SOI_BANCO_LIN SBL ON CA.BACVE_BANC = SBL.BLCVE_BANC
), LINEA_CT1 AS (
	SELECT SL.*, SB.TFDESC_CONT 
	FROM SOI.SOI_LINEA sl
	LEFT JOIN SOI.SOI_TIP_CREDI SB ON SL.LITIP_CONT = SB.TFTIP_CONT
), CLT_LINEA_DESCRIP AS (
	SELECT CL.*, SL.*
	FROM CLT_LINEA CL 
	LEFT JOIN LINEA_CT1 SL ON CL.BLNO_LINEA = SL.LINO_LINEA
) SELECT * FROM CLT_LINEA_DESCRIP
"""

In [15]:
path_dir_productos = get_table(path_dir_today, db_soi, "productos_clientes_soi", query = query_productos_soi)

# Transform the data and output the transformation

In [35]:
path_dir_output_transformation = os.path.join("/home/ale1726/proyects/datalake/clientes/data/productos/SOI/agrupados", date_now)
os.makedirs(path_dir_output_transformation, exist_ok=True)
path_dir_output_transformation

'/home/ale1726/proyects/datalake/clientes/data/productos/SOI/agrupados/22_04_2025'

In [20]:
productos_soi =  pd.read_csv(path_dir_productos, low_memory=False)

In [18]:
productos_soi.columns

Index(['BA_BCO_FFON', 'BACVE_BANC', 'BANOM_BAN', 'BLNO_LINEA', 'LINO_LINEA',
       'LITIPO_LIN', 'LIF_FIRMA', 'LIF_EFECT', 'LIMTO_LIN', 'LIMONEDA',
       'LIINT_MOR1', 'LIINT_MOR2', 'LIPLA_AMO1', 'LIPLA_AMO2', 'LIVIGENCIA',
       'LIFECHAREN', 'LIGASTLOCA', 'LIDES_GTO1', 'LIDES_GTO2', 'LINUM_SHCP',
       'LIF_SHCP', 'LIOBLISHCP', 'LICOMXLIN', 'LIACUM_DES', 'LIF_LIM_DE',
       'LITIP_CONT', 'LIPLA_AMO3', 'LIPERIOCAP', 'LIPERIOINT', 'LICVE_CORR',
       'LIISR', 'LIINT_FIN', 'LICVE_ACRE', 'LIREF_CRED', 'LIMTO_REF',
       'LISTATUS', 'LICVE_GAR', 'LICVE_DOM', 'LICTA_DOM', 'LINUEVO',
       'LIACREDIT', 'LIE_ACREDI', 'LIDIA_FER1', 'LIDIA_FER2', 'LIF_PRPACAP',
       'LIF_LIQUIDACION', 'LIPLA_AMO4', 'LI_PL_ID_ACRE', 'LI_PL_ID_GAR',
       'LI_PL_ID_DOM', 'LICVE_INTER', 'LI_PL_ID_INTER', 'LIMTO_CAP',
       'TFDESC_CONT'],
      dtype='object')

In [36]:
productos_soi["LIF_FIRMA"] = pd.to_datetime(productos_soi["LIF_FIRMA"])
productos_soi["AÑO_FFIRMA"] = productos_soi["LIF_FIRMA"].dt.year
productos_soi["MES_FFIRMA"] = productos_soi["LIF_FIRMA"].dt.month
productos_soi["MES_STR"] = productos_soi["LIF_FIRMA"].dt.month_name()  
productos_soi["LIVIGENCIA"] = pd.to_datetime(productos_soi["LIVIGENCIA"])

In [37]:
agrupado_operaciones_anuales = (
    productos_soi.groupby(['AÑO_FFIRMA'], as_index=False)
    .agg(
        num_contratos=('LINO_LINEA', 'count'), 
        monto_anuales_sum=('LIMTO_LIN', lambda x: round(x.sum(), 2)),
        monto_anuales_min=('LIMTO_LIN', 'min'), 
        monto_anuales_max=('LIMTO_LIN', 'max'), 
        monto_anuales_mean=('LIMTO_LIN', lambda x: round(x.mean(), 2)),
        monto_anuales_median=('LIMTO_LIN', 'median')
    ).sort_values(by=['AÑO_FFIRMA'], ascending=True)
)

In [38]:
agrupado_operaciones_anuales

Unnamed: 0,AÑO_FFIRMA,num_contratos,monto_anuales_sum,monto_anuales_min,monto_anuales_max,monto_anuales_mean,monto_anuales_median
0,1980.0,3,26273040.0,3195948.0,13808510.0,8757678.0,9268573.0
1,1981.0,3,22582420.0,2402418.0,15000000.0,7527473.0,5179999.0
2,1983.0,1,6195494.0,6195494.0,6195494.0,6195494.0,6195494.0
3,1984.0,3,42113110.0,8372561.0,17075240.0,14037700.0,16665310.0
4,1985.0,3,228133200.0,8330000.0,144800000.0,76044390.0,75003180.0
5,1986.0,2,56982270.0,26546810.0,30435460.0,28491140.0,28491140.0
6,1987.0,3,6866605.0,276290.0,6066498.0,2288868.0,523817.6
7,1988.0,4,32352850.0,2554432.0,17339220.0,8088214.0,6229600.0
8,1989.0,2,12559540.0,1659545.0,10900000.0,6279772.0,6279772.0
9,1990.0,2,123850900.0,23850920.0,100000000.0,61925460.0,61925460.0


In [39]:
agrupado_operaciones_anuales.to_csv(os.path.join(path_dir_output_transformation, "agrupado_operaciones_anuales.csv"), index=False)

In [41]:
agrupado_operaciones_anuales_mes = (
    productos_soi.groupby(['AÑO_FFIRMA','MES_FFIRMA','MES_STR'], as_index=False)
    .agg(
        num_contratos=('LINO_LINEA', 'count'), 
        monto_anuales_sum=('LIMTO_LIN', lambda x: round(x.sum(), 2)),
        monto_anuales_min=('LIMTO_LIN', 'min'), 
        monto_anuales_max=('LIMTO_LIN', 'max'), 
        monto_anuales_mean=('LIMTO_LIN', lambda x: round(x.mean(), 2)),
        monto_anuales_median=('LIMTO_LIN', 'median')
    ).sort_values(by=['AÑO_FFIRMA','MES_FFIRMA'], ascending=True)
)

In [42]:
agrupado_operaciones_anuales_mes.to_csv(os.path.join(path_dir_output_transformation, "agrupado_operaciones_anuales_mes.csv"), index=False)