**Seleccionamos el grupo de pr√©stamos m√°s √≥ptimo a titulizar seg√∫n los l√≠mites establecidos**
- Por defecto lo que no venga marcado como l√≠mite es suceptible de cogerse para la titulizaci√≥n con un 100% (limit value por defecto 1.0)

In [1]:
from IPython.core.display import HTML
display(HTML("<style>pre { white-space: pre !important; }</style>"))
from pyspark.sql import functions as F, DataFrame
import datetime as dt
from datetime import date, datetime, timedelta
from dateutil.relativedelta import relativedelta
from pyspark.sql.window import Window
import pyspark.sql.types as t
from decimal import Decimal
from pyspark.sql.functions import regexp_replace

In [2]:
from dataproc_sdk.dataproc_sdk_datiopysparksession.datiopysparksession import DatioPysparkSession
datioSparkSession = DatioPysparkSession().get_or_create()

from dataproc_sdk.dataproc_sdk_datiopysparksession import datiopysparksession
dataproc = datiopysparksession.DatioPysparkSession().get_or_create()

from dataproc_sdk.dataproc_sdk_schema.datioschema import DatioSchema
from dataproc_sdk.dataproc_sdk_datiofilesystem.datiofilesystem import DatioFileSystem

In [3]:
# para evitar problemas de tipolog√≠a de datos
spark.conf.set("spark.sql.parquet.enableVectorizedReader", "false")

# para evitar problemas de particiones
spark.conf.set("spark.sql.sources.partitionColumnTypeInference.enabled", "false")

In [4]:
# procesamiento de la cartera √≥ptima en python
import pandas as pd
import numpy as np

# Configuracion

In [5]:
fecha = date.today() # por defecto la fecha de hoy (se actualizar√° en el proceso con la m√°s reciente)

## Paths

### Paths in

In [6]:
root_path = '/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/'
root_path

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/'

In [7]:
# relaci√≥n entre l√≠mites y a qu√© campo de Datio aplica
path_campos = '/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/limites/campos_datio/PR_current/PR_limites_camposDatio.csv'

### Paths out

In [8]:
path_out = root_path+'closing_date='+str(fecha)+'/PR_cartera_titulizar'
path_out

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/PR_cartera_titulizar'

In [9]:
path_out_csv = root_path+'closing_date='+str(fecha)+'/PR_cartera_titulizar_csv'
path_out_csv

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/PR_cartera_titulizar_csv'

## Columnas
Selecci√≥n de columnas necesarias para acotar los limites

In [10]:
# clave unica de operaci√≥n
key_facility = ['delta_file_id','delta_file_band_id','branch_id']
key_facility_micro = ['delta_file_id','delta_file_band_id'] # en MicroStrategy se quedan a este nivel

# clave del launchpad limites
key_limites = ['limit_escenario', 'limit_fecha', 'limit_portfolio_size']

# # columnas directas de la salida titulizaciones de joystick
# cols_lim = ['gf_ma_ead_amount','Total_Amount_EUR', # exposicion a default y consumo de capital
#             'clan_date','com_product', # fecha de los datos y tipo de producto(project finance o corporate loan)
#             'gf_pf_current_ratg_id','group_rating_sp', # an√°lisis de rating individual para project finace y corporate loan
#             'project_country_desc','customer_country', # pais donde se lleva el proyecto y pais del cliente
#             'project_sector_desc','project_subsector_desc', # sector y subsector del proyecto
#             'g_asset_allocation_sector_desc','g_asset_allocation_subsec_desc', # sector y subsector de la actividad del cliente
#             'customer_country','group_country_desc',
#             'financial_product_desc','currency_id']
#             #'gf_pf_project_const_type',

# # columnas nuevas calculadas 
# cols_lim_c = ['non_ig_flag', # rating malos
#               'building_project_flag', # proyecto en construcci√≥n
#              ]

## Diccionarios
Se genera un diccionario para el grupo de facilities que entran en la cartera

### Tipos de Facility
tipolog√≠a de las operaciones que entran en la titulizacion

In [11]:
d_tipo_facility = {'corporate_loan':'Corporate Facilities', # titulizacion tipo Corporate solo operaciones corporate
                 'project_finance':'Project Finance'} # titulizacion tipo Project solo operaciones project

### Limitaci√≥n importe
sobre que campo aplica el % de los l√≠mites

In [12]:
d_imp_limit = {'individual':'importe_susceptible', # el % del limite se aplica sobre el importe susceptible de la facility
               'portfolio':'portfolio_size'} # el % del limite se aplica sobre el importe marcado en el portfolio size

# Funciones

### Porcentajes
para aquellos limites que su % va ligado a alg√∫n c√°lculo

In [13]:
def get_limit_value (df:DataFrame):
    df_l = df.withColumn('limit_value', 
                         F.when(F.col('limit_type')=='risk_retention',(F.lit(1) - F.col('limit_value')).cast('float')
                               ).otherwise(F.col('limit_value')))
    return df_l       

### Gen√©ricas

In [14]:
# calculamos la fecha m√°s reciente de la ruta tomando como campo de particion el pasado como par√°metro
def last_partition (p_path:str, campo:str):
    
    datio_path = DatioFileSystem().get().qualify(p_path)
    fs = datio_path.fileSystem()
    path = datio_path.path()
    path_list = fs.listStatus(path)
    paths = [path.getPath().toString() for path in path_list] #listado de todos los paths de la ruta pasada
    
    l_fechas = [element.split(campo+'=')[1] for element in paths if campo in element] #listado de todas las fechas
    return max(l_fechas) # fecha mayor

In [15]:
# Formato fecha a formato string
def date_to_str(fecha: date, mascara: str = "%Y-%m-%d") -> str:
    try:
        return format(fecha.strftime(mascara))
    except ValueError as e:
        raise Exception(
            'Ha habido un error con la m√°scara ' + mascara + ' definida para la fecha ' + str(fecha) + ' \n {}'.format(
                str(e)))

In [16]:
# Formato string a formato fecha
def str_to_date(fecha: str, mascara: str = "%Y-%m-%d") -> datetime:
    try:
        return datetime.strptime(fecha, mascara)
    except ValueError as e:
        raise Exception(
            'Ha habido un error con la m√°scara ' + mascara + ' definida para la fecha ' + fecha + ' \n {}'.format(
                str(e)))

In [17]:
def get_fecha (fecha_ini:str, ndays:int, op:str='add'):
    if(op=='add'):
        d = fecha_ini + timedelta(days=ndays)
    else:
        d = fecha_ini - timedelta(days=ndays)
    return d

In [18]:
# get_fecha(2024-06-24,365) # datetime.date(2025, 6, 24)

In [19]:
# si es un valor num√©rico lo pasamos a int
import re

def value_cast(p):
    patron_numero = r'^(0|[1-9][0-9]*)$'
    pv=re.findall(patron_numero,p)
    if((pv==None) | (len(pv)==0)):
        return p
    else:
        return int(p)   

# 1. Pto Partida
- operaciones disponibles a carterizar
- limites establecidos para la titulizaciones

In [20]:
fecha_ejecucion = last_partition (root_path, 'closing_date')
print('Fecha de ejecuci√≥n del modelo titulizaci√≥n:', fecha_ejecucion)
root_pathc = root_path + 'closing_date=' + str(fecha_ejecucion)
root_pathc

Fecha de ejecuci√≥n del modelo titulizaci√≥n: 2024-10-22


'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22'

In [21]:
# actualizamos la fecha base
fecha = fecha_ejecucion

## Limites
los limites current

In [22]:
foto_limites= ['name_list_desc', 'limit_date']

In [23]:
# leemos los l√≠mites fijados y recalculamos el limit_value de aquellos necesarios
path_limites_only = root_pathc + '/limites'
limites_or = dataproc.read().parquet(path_limites_only)
limites = get_limit_value(limites_or)

In [24]:
#limites_or.show(1,False)

In [25]:
limites.show(1,False)

+-------------------------+----------+------------------+--------------+---------------------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+
|name_list_desc           |limit_date|limit_type        |concept1_desc |concept1_value                         |concept2_desc|concept2_value|limit_value|corporate_loan_flag|project_finance_flag|limit_scope|active_flag|visual_order|complex_limit|id_limit|closing_date|
+-------------------------+----------+------------------+--------------+---------------------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+
|escenario model verano IV|2024-06-24|customer_subsector|subsector_desc|Paper, plastic, metal & glass packaging|null         |null          |0.5        |1                  |0                   |po

In [26]:
# ya viene con el valor final 1-%launchpad
# limites.where(F.col('limit_type')=='risk_retention').show(1,False)

In [27]:
# limites.where(F.col('limit_type')=='sts_group').show(1,False)

In [28]:
escenario, date_titulizacion = [(x.name_list_desc,x.limit_date) for x in limites.select(*foto_limites).distinct().collect()][0]
print('escenario:',escenario)
print('fecha titulizacion',date_titulizacion)
print('numero de limites:',limites.count())

escenario: escenario model verano IV
fecha titulizacion 2024-06-24
numero de limites: 216


### Tipo titulizacion
marca las facilities que entran: solos las marcadas con Corporate/Project seg√∫n corresponda

In [29]:
tipo_titulizacion = limites.where(F.col('limit_type')=='portfolio_type').select('corporate_loan_flag','project_finance_flag')
corporate_flag = tipo_titulizacion.select('corporate_loan_flag').collect()[0].corporate_loan_flag
project_flag = tipo_titulizacion.select('project_finance_flag').collect()[0].project_finance_flag

if(corporate_flag==1):
    tipo_f='corporate_loan'
    print('titulizacion de corporate loan')
if(project_flag==1):
    tipo_f='project_finance'
    print('titulizacion de project finance')   

titulizacion de corporate loan


In [30]:
# limite = 'risk_retention'
# limites.where(F.col('limit_type')==limite).show(50,False)

## Relaci√≥n limite - campo
- cada l√≠mite el campo de la tabla de operaciones al que aplica

(*) es una tabla que se sube como un cat√°logo directamente al Sandbox

In [31]:
path_campos

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/limites/campos_datio/PR_current/PR_limites_camposDatio.csv'

In [32]:
limite_campo = spark.read.option('header','True').option('delimiter',';').csv(path_campos)
# limite_campo.show(5,False)

# depende de la tipolog√≠a de la titulizaci√≥n cogemos una columna y otra para la referencia al campo Datio
if(corporate_flag==1):
    df_campos = limite_campo.drop('project_finance_column'
                                 ).withColumnRenamed('corporate_loan_column','campo_datio')
else:
    df_campos = limite_campo.drop('corporate_loan_column'
                                 ).withColumnRenamed('project_finance_column','campo_datio')
df_campos.show(5,False)

+--------------+----------------+------------+-----------+---------+-----------+
|limit_type    |campo_datio     |complex_flag|header_flag|imp_limit|null_values|
+--------------+----------------+------------+-----------+---------+-----------+
|portfolio_size|gf_ma_ead_amount|0           |1          |portfolio|0          |
|portfolio_date|clan_date       |0           |1          |portfolio|0          |
|portfolio_type|com_product     |0           |1          |portfolio|0          |
|risk_retention|Total_Amount_EUR|0           |0          |facility |0          |
|non_ig        |non_ig_flag     |0           |0          |portfolio|0          |
+--------------+----------------+------------+-----------+---------+-----------+
only showing top 5 rows



In [33]:
# limite_campo.show(1,False)

In [34]:
# complex_flag si el limite afecta a 2 campos de Datio
# df_campos.where(F.col('complex_flag')==1).show(2,False)
# +-------------------------+-------------------------------------------------------------+------------+
# |limit_type               |campo_datio                                                  |complex_flag|
# +-------------------------+-------------------------------------------------------------+------------+
# |project_sector_subsector |project_sector_desc/project_subsector_desc                   |1           |

#### Listado de campos Datio
dejamos en una lista todos los campos que estan implicados en los l√≠mites

In [35]:
# dejamos el listado de todos los campos de Datio que se tienen en cuenta (Ej.project_sector_desc,project_subsector_desc)
cols_datio = [x.campo_datio.split('/')[0] for x in df_campos.select('campo_datio').distinct().collect()]
# cols_datio

### Fusionamos informacion Limites
A√±adimos una columnas que por l√≠mite sepamos el campo Datio al que hace referencia

In [36]:
limites_total = limites.join(df_campos,['limit_type'],'left').dropDuplicates(
).withColumn('imp_limit', F.when(F.col('imp_limit')=='limit_scope', F.col('limit_scope')).otherwise(F.col('imp_limit')))

limites_total.show(5,False)
# si es un limite compuesto en la columna campo Datio campo1/campo2

+------------------+-------------------------+----------+--------------+--------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+------------------------------+------------+-----------+---------+-----------+
|limit_type        |name_list_desc           |limit_date|concept1_desc |concept1_value            |concept2_desc|concept2_value|limit_value|corporate_loan_flag|project_finance_flag|limit_scope|active_flag|visual_order|complex_limit|id_limit|closing_date|campo_datio                   |complex_flag|header_flag|imp_limit|null_values|
+------------------+-------------------------+----------+--------------+--------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+------------------------------+------------+-----------+---------+-----------+
|

In [37]:
# limite = 'risk_retention'
# limites_total.where(F.col('limit_type')==limite).show(50,False)

## Operaciones
la ultima foto disponible

In [38]:
path_facilities = root_pathc + '/facilities'
facilities_0 = dataproc.read().parquet(path_facilities)

In [39]:
path_facilities

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/facilities'

In [40]:
#facilities.groupBy('com_product').count().show(truncate=False)

In [41]:
#d_tipo_facility[tipo_f]

### Facilities tipo
solo cogemos las facilities del tipo de titulizacion

In [42]:
facilities = facilities_0.where(F.col('com_product')==d_tipo_facility[tipo_f])

In [43]:
if(facilities.count()==facilities.select(*key_facility).distinct().count()):
    print('Datos a nivel facility')
fecha_facilities = date_to_str([x.data_date for x in facilities.select('data_date').distinct().collect()][0])
    
print('numero de operaciones de base:', facilities.select(*key_facility).distinct().count())
print('fecha foto facilities:',fecha_facilities)

Datos a nivel facility
numero de operaciones de base: 1023
fecha foto facilities: 2024-10-21


### A√±adimos Columnas Traza
- excluded: operaci√≥n excluida, se marca con flag 1/0 para indicar si se excluye por los l√≠mites
- exclusion_limit: limite que marca su exclusi√≥n de la cartera √≥ptima

Se inicializan a excluded=0 y exclusion_limit=''

In [44]:
cols_traza = ['excluded','exclusion_limit']

In [45]:
facilities_t = facilities.withColumn('excluded', F.lit(0)
                        ).withColumn('exclusion_limit', F.lit(''))

In [46]:
# sorted(facilities.columns)

In [47]:
facilities_t.show(2,False)

+-----------------------+-------------+------------------+---------+------------------------+----------------------+--------------------------+--------------+------------+-----------+-----------------+---------------+----------------------------+-----------+------------------------+------------------+------------------------+---------------------------+------------------------------+-------------------------------+---------------+-------------------------+------------------+---------------+--------------------+------------------------------+------------------------------+----------------+--------------------+-----------------+---------------------+---------------------+-------------------------+---------------+-----------------------------+--------------------------+------------------------+----------------------------+---------------------+--------------------+----------------------+---------------------------+--------------------------+--------------------------+----------------+----

## Portfolio Size
el importe total que se quiere titulizar

In [48]:
portfolio_size = [x.limit_value for x in limites_total.where(F.col('limit_type')=='portfolio_size').select('limit_value').collect()][0]
print('Importe a portfolio size total:', portfolio_size)

Importe a portfolio size total: 2000000000.0


# 2. Importe Susceptible (importe base)
Por cada facility: Calculamos aplicando f√≥rmula de la hoja t√°ctica, que parte de la facility se podr√≠a titulizar

## Aplicamos f√≥rmula

**importe_susceptible = (min(ead_regulatorio, (saldo vivo+importe disponible*CCF))) - (importe_titulizado/risk_retention)**
- ead_regulatorio -> gf_ma_ead_amount
- saldo vivo -> bbva_drawn_eur_amount (saldo dispuesto - amortizado). Es directamente el dato del dispuesto en euros
- importe disponible -> bbva_available_eur_amount (importe en oficina en euros)
- CCF : dentro del launchpad de limites (limit_type=='ccf'). Es el factor de conversi√≥n con el que se calcula el EAD
- importe titulizado -> gf_facility_securitization_amount
- risk retention : dentro del launchpad de limite (limit_type=='risk_retention'). Ya est√° calculado su valor con (1 - %del excel), que ser√≠a el % a aplicar

= +MIN(AU81;U81+75%*V81)-SI.ERROR(BUSCARV( ùëç81;‚Ä≤ùëâùëíùëüùëéùëõùëúùêºùëÖùëÖ‚Ä≤! B:$C;2;0)/80%;0) = min(EADReg, Saldo Vivo BBVA + Importe Disponible BBVA_euros * 0.75) - (Reference Obligation Notional Amount/0.8)

### L√≠mites necesarios 
Incluimos columnas limites necesarios

In [49]:
# como hay limites que se aplican directamente en alguna f√≥rmula los identificamos para saber que ya se han aplicado
lim_usados = []

In [50]:
lim_imp = ['risk_retention', 'ccf']
lim_usados = lim_usados + lim_imp

In [51]:
l = [(x.limit_type, x.limit_value) for x in limites_total.select('limit_type','limit_value').where(F.col('limit_type').isin(*lim_imp)).collect()]
l

[('risk_retention', 0.800000011920929), ('ccf', 0.75)]

In [52]:
facilities_t1 = facilities_t.withColumn('limit_escenario',F.lit(escenario)
                           ).withColumn('limit_fecha',F.lit(date_titulizacion))
for e in l:
    facilities_t1 = facilities_t1.withColumn('limit_'+e[0],F.lit(e[1]))

In [53]:
facilities_t1.select('limit_ccf','limit_risk_retention').show(2,False)

+---------+--------------------+
|limit_ccf|limit_risk_retention|
+---------+--------------------+
|0.75     |0.800000011920929   |
|0.75     |0.800000011920929   |
+---------+--------------------+
only showing top 2 rows



### C√°lculo del importe
Se incluye una nueva columna con el importe

importe_susceptible = (min(ead_regulatorio, (saldo vivo+importe disponible*CCF))) - (importe_titulizado/risk_retention).

Lo dividimos en partes:
- importe1 = saldo vivo+importe disponible*CCF
- importe2 = importe_titulizado/risk_retention
- importe_susceptible = min(ead_regulatorio,importe1) - importe2

In [54]:
facilities_f0 = facilities_t1.withColumn('importe1', F.col('bbva_drawn_eur_amount')+(F.col('bbva_available_eur_amount')*F.col('limit_ccf'))
                                           ).withColumn('importe2', F.col('gf_facility_securitization_amount')/F.col('limit_risk_retention')
                                           ).withColumn('importe_susceptible', F.least(F.col('gf_ma_ead_amount'),F.col('importe1')) - F.col('importe2'))

In [55]:
id_test = '366005' # '815974' #'415725'

cols_f0 = ['bbva_drawn_eur_amount','bbva_available_eur_amount','limit_ccf','importe1',
          'gf_facility_securitization_amount','limit_risk_retention','importe2',
          'gf_ma_ead_amount','importe_susceptible']

facilities_f0.select(*key_facility,*cols_f0).where(F.col('delta_file_id')==id_test).show(5,False)

+-------------+------------------+---------+---------------------+-------------------------+---------+--------+---------------------------------+--------------------+--------+----------------+-------------------+
|delta_file_id|delta_file_band_id|branch_id|bbva_drawn_eur_amount|bbva_available_eur_amount|limit_ccf|importe1|gf_facility_securitization_amount|limit_risk_retention|importe2|gf_ma_ead_amount|importe_susceptible|
+-------------+------------------+---------+---------------------+-------------------------+---------+--------+---------------------------------+--------------------+--------+----------------+-------------------+
+-------------+------------------+---------+---------------------+-------------------------+---------+--------+---------------------------------+--------------------+--------+----------------+-------------------+



In [56]:
print('Facilities totales:', facilities_f0.count())
print('Facilities con importe a titulizar:', facilities_f0.where(F.col('importe_susceptible')>0).count())

Facilities totales: 1023
Facilities con importe a titulizar: 917


In [57]:
# facilities_f1.where(F.col('delta_file_id')=='415725').show(5,False)
# tramo 1: 24.750.854,13
# tramo 3: 366.875,99

**(*)otra formula: min((saldo_vivo - Titulizado/risk_retention), (ead/risk_retention))**
- importe1a = saldo_vivo - Titulizado/risk_retention . (*) no s√© si ccf o risk_retention, en la hoja aplica directamente un 0.8
- importe2a = ead/risk_retention
- importe_susceptible = min(importe1a,importe2a)

In [58]:
# NUEVOS CAMPOS: para esta f√≥rmula si fueran necesarios
# facilities_f1 = facilities_f0.withColumn('importe1_v1', (F.col('bbva_drawn_eur_amount') - (F.col('gf_facility_securitization_amount')/F.col('limit_risk_retention')))
#                                     ).withColumn('importe2_v1', F.col('gf_ma_ead_amount')/F.col('limit_risk_retention')
#                                     ).withColumn('importe_susceptible_v1',F.least('importe1_v1','importe2_v1'))

In [59]:
# cols_fa = ['bbva_drawn_eur_amount','gf_facility_securitization_amount','limit_risk_retention','importe1_v1',
#           'gf_ma_ead_amount','importe2_v1','importe_susceptible_v1']

# facilities_f1.select(*key_facility,*cols_fa).where(F.col('delta_file_id')==id_test).show(5,False)                                            

In [60]:
# TEST
# cls = list(set(key_facility + cols_f0 + cols_fa))
# facilities_f1.where(F.col('importe_susceptible_v1')!=F.col('importe_susceptible')).count() # 886
# facilities_f1.where(F.col('importe_susceptible_v1')!=F.col('importe_susceptible')).select(*cls).orderBy(*key_facility).show(5,False)
# facilities_f1.where((F.col('importe_susceptible_v1')>0) & (F.col('importe_susceptible')==0)).count() # 0
# facilities_f1.where((F.col('importe_susceptible')>0) & (F.col('importe_susceptible_v1')==0)).count() # 379

# 3. L√≠mites Individuales
Aplicamos limites √°mbito individual: min(%limit_value) 

- a√±adimos columna con el % que se aplica por cada l√≠mite individual
- a√±adimos columna con el l√≠mite individual m√°s restrictivo (el de menor % en el l√≠mite)
- a√±adimos columna con el % del valor del l√≠mite individual m√°s restrictivo (menor %)
- a√±adimos columna con el importe titulizable de cada facility : importe susceptible a titulizar * min(%individual)

In [61]:
limites_ind = limites_total.where(F.col('limit_scope')=='individual')
limites_ind.select('limit_type','concept1_desc','campo_datio','limit_scope').distinct().orderBy('limit_type').show(limites_ind.count(),False)

if(limites_ind.where(F.col('complex_limit')==1).count()>0):
    print('existen filtros complejos: definici√≥n de 2 niveles de conceptos')
    limites_ind.where(F.col('complex_limit')==1
                    ).select('limit_type','concept1_desc','concept2_desc','campo_datio','limit_scope').distinct().orderBy('limit_type').show(20,False)

+-------------------+-----------------+------------------------------+-----------+
|limit_type         |concept1_desc    |campo_datio                   |limit_scope|
+-------------------+-----------------+------------------------------+-----------+
|bei                |bei_flag         |delta_file_id                 |individual |
|excluded_facilities|facility_id      |delta_file_id                 |individual |
|maturity_min       |num_days         |expiration_date               |individual |
|rating_rga_esl     |rating_large     |gf_ma_expanded_master_scale_id|individual |
|rating_sp          |rating_group     |group_rating_sp               |individual |
|risk_retention     |risk_bbva_percent|Total_Amount_EUR              |individual |
|sts_payment        |sts_flag         |sts_payment_flag              |individual |
|sts_rw_modelo      |sts_flag         |sts_sm_rw_flag                |individual |
+-------------------+-----------------+------------------------------+-----------+

exi

### Diccionario
correspondencia entre: limite - campo Datio

In [62]:
# limit_ind.show(2,False)

In [63]:
# limites simples
lista =limites_ind.select('limit_type','campo_datio').collect()
dict_lim_ind = {row['limit_type']: row['campo_datio'] for row in lista}

In [64]:
dict_lim_ind

{'rating_rga_esl': 'gf_ma_expanded_master_scale_id',
 'excluded_facilities': 'delta_file_id',
 'rating_sp': 'group_rating_sp',
 'risk_retention': 'Total_Amount_EUR',
 'maturity_min': 'expiration_date',
 'sts_payment': 'sts_payment_flag',
 'sts_rw_modelo': 'sts_sm_rw_flag',
 'bei': 'delta_file_id'}

In [65]:
# dict_lim_ind

In [66]:
# dict_lim_ind_p

### Columnas valor nulo
para campos a nulos que % del limite se aplica. Por defecto limite aplica a 0% si la columna tiene valor nulo
-  viene marcado en el fichero limite-campo

In [67]:
l =limites_ind.select('limit_type','null_values').collect()
dict_lim_ind_nul = {row['limit_type']: row['null_values'] for row in l}
# dict_lim_ind_nul

### Limites por Facility
- generamos columna con lista de limites aplicados
- generamos las columnas con el valor de los limites
- generamos las columnas de los importes m√°ximos por limites

#### Dividimos seg√∫n importe referencia
- portfolio: el % del limite hace referencia al portfolio_size
- facility: el % del limite hace referencia al importe susceptible de la facility

In [68]:
# Importe de referencia sobre el que calculamos el importe m√°ximo por l√≠mite:tomamos el valor marcado en el fichero limites - campos
# puede ser sobre le portfolio o sobre la facility
li =limites_ind.select('limit_type','imp_limit').collect()
dict_lim_ind_imp = {row['limit_type']: row['imp_limit'] for row in li}
# dict_lim_ind_imp

In [69]:
# Columna del dataframe correspondiente donde tomar el importe seg√∫n tipolog√≠a marcada en el fichero limites - campos
# importe m√°ximo = %limite * portfolio_size √≥ %limite*importe_titulizable
dict_imp_campos= {'portfolio':'portfolio_size',
                  'facility':'importe_susceptible'}

### Aplicamos por facility
para cada facility calculamos sus limites y sus importes m√°ximos

In [70]:
# tomamos de base las facilities y vamos a√±adiendo columnas y comprobaciones
facilities_add = facilities_f0.withColumn('limits_applied',F.lit('')
                                         ).withColumn('portfolio_size',F.lit(portfolio_size).cast('float')) 
varios_campos = 0 # partimos de la base que s√≥lo afecta a un campo de Datio
limits_indv = []
imp_max_indv = []
cols_facility = facilities_add.columns

for k,v in dict_lim_ind.items():
    print('*** limite analizado:',k)
    print('campo de la facility al que aplica:',v)
    col_imp = dict_imp_campos[dict_lim_ind_imp[k]]
    print('importe m√°ximo se calcula sobre:', col_imp)
    
    if('/' in v): # limite con varios campos viene con este separador en el cat√°logo de campos
        varios_campos = 1
        
    # CASO BASE: casi todos lo l√≠mites aplican a un solo campo
    if (varios_campos == 0):
        df_limite1 = limites_ind.where(F.col('limit_type')==k
                                            ).withColumn('concepto_valor',F.when(F.col('complex_limit')==1,F.col('concept2_value')).otherwise(F.col('concept1_value'))
                                            ).select('concepto_valor','limit_value'
                                            ).withColumnRenamed('concepto_valor' ,v
                                            ).withColumnRenamed('limit_value' ,'limit_'+k
                                            ).withColumn('limit_'+k,F.col('limit_'+k).cast("float")
                                            ).withColumn('limit_apply', F.lit('limit_'+k))
        
        
        # limite generico para todas las facilities
        if((df_limite1.count()==1)&(df_limite1.select(v).collect()[0][v]=='total')):
            facilities_add = facilities_add.withColumn('limit_'+k,F.lit(df_limite1.select('limit_'+k).collect()[0]['limit_'+k]).cast("float")
                                                      ).withColumn('limit_apply', F.lit('limit_'+k))
            print('limit simple con limit value total:','limit_'+k)
        
        # limite seg√∫n categoria - valor
        else:
            facilities_add = facilities_add.join(df_limite1, [v],'left').fillna(1.0).fillna({'limit_apply':''}) # si alg√∫n valor no vienen marcado en el l√≠mite se aplica un valor del 100% (1,0)
            # valor del limite para columnas nulas
            n0 = facilities_add.where(F.col(v).isNull()).count()
            if(n0>0): # si hay columnas nulas para ese campo
                print('facilities con columna:',v,'nula:',facilities_add.where(F.col(v).isNull()).count())
                print('% de limite',k,'para estas facilities:',dict_lim_ind_nul[k])
                facilities_add = facilities_add.withColumn('limit_'+k,F.when(F.col(v).isNull(),dict_lim_ind_nul[k]).otherwise(F.col('limit_'+k))) # pongo el limite establecido para las columnas nulas 
    
    #CASO COMPLEJO: aplica a varios campos 
    else:
        v1,v2 = v.split('/')
        
        df_limite2 = limites_ind.where(F.col('limit_type')==k
                                            ).select('concept1_value','concept2_value','limit_value'
                                            ).withColumnRenamed('concept1_value' ,v1
                                            ).withColumnRenamed('concept2_value' ,v2
                                            ).withColumnRenamed('limit_value' ,'limit_'+k
                                            ).withColumn('limit_'+k,F.col('limit_'+k).cast("float")
                                            ).withColumn('limit_apply', F.lit('limit_'+k))
        
        # limite generico para todas las facilities
        if((df_limite2.count()==1)&(df_limite2.select(v1).collect()[0][v1]=='total')):

            if((df_limite2.count()==1)&(df_limite2.select(v2).collect()[0][v2]=='total')):
                facilities_add = facilities_add.withColumn('limit_'+k,F.lit(df_limite2.select('limit_'+k).collect()[0]['limit_'+k]).cast("float")
                                                          ).withColumn('limit_apply', F.lit('limit_'+k))
            else:
                facilities_add = facilities_add.join(df_limite2, [v2],'left').fillna(1.0).fillna({'limit_apply':''}) # si alg√∫n valor no vienen marcado en el l√≠mite se aplica un valor del 100% (1,0)

        # limite seg√∫n categoria - valor
        else:
            if((df_limite2.count()==1)&(df_limite2.select(v2).collect()[0][v2]=='total')):
                facilities_add = facilities_add.join(df_limite2, [v1],'left').fillna(1.0).fillna({'limit_apply':''}) # si alg√∫n valor no vienen marcado en el l√≠mite se aplica un valor del 100% (1,0)
            else:
                facilities_add = facilities_add.join(df_limite2, [v1,v2],'left').fillna(1.0).fillna({'limit_apply':''}) # si alg√∫n valor no vienen marcado en el l√≠mite se aplica un valor del 100% (1,0)   
                # valor del limite para columnas nulas
                n1 = facilities_add.where(F.col(v2).isNull()).count()
                if(n1>0): #si hay valores nulos para la columna v2
                    print('facilities con columna:',v2,'nula:',facilities_add.where(F.col(v2).isNull()).count())
                    print('% de limite',k,'para estas facilities:',dict_lim_ind_nul[k])
                    # pongo el limite establecido para las columnas nulas 
                    facilities_add = facilities_add.withColumn('limit_'+k,F.when(F.col(v2).isNull(),dict_lim_ind_nul[k]
                                                                                ).otherwise(F.col('limit_'+k)))  
    
    # a√±adimos al campo de limites aplicados el procesado que vendr√° con valor cuando los limites han coincidido
    facilities_add = facilities_add.withColumn('limits_applied',F.when(F.col('limit_apply')!='',F.concat(F.col('limits_applied'),F.lit(','),F.col('limit_apply'))
                                                                      ).otherwise(F.col('limits_applied'))).drop('limit_apply'
                                   ).withColumn('exclusion_limit', F.when(F.col('limit_'+k)==0,F.concat(F.lit(k),F.lit(', '),F.col('exclusion_limit'))
                                                                    ).otherwise(F.col('exclusion_limit'))
                                   ).withColumn('imp_maximo_'+k, (F.col('limit_'+k)*F.col(col_imp)).cast("float")) # a√±adimos el importe tope marcado por el limite
    limits_indv.append('limit_'+k)
    imp_max_indv.append('imp_maximo_'+k)
    varios_campos = 0

*** limite analizado: rating_rga_esl
campo de la facility al que aplica: gf_ma_expanded_master_scale_id
importe m√°ximo se calcula sobre: portfolio_size
*** limite analizado: excluded_facilities
campo de la facility al que aplica: delta_file_id
importe m√°ximo se calcula sobre: portfolio_size
*** limite analizado: rating_sp
campo de la facility al que aplica: group_rating_sp
importe m√°ximo se calcula sobre: portfolio_size
*** limite analizado: risk_retention
campo de la facility al que aplica: Total_Amount_EUR
importe m√°ximo se calcula sobre: importe_susceptible
limit simple con limit value total: limit_risk_retention
*** limite analizado: maturity_min
campo de la facility al que aplica: expiration_date
importe m√°ximo se calcula sobre: portfolio_size
*** limite analizado: sts_payment
campo de la facility al que aplica: sts_payment_flag
importe m√°ximo se calcula sobre: portfolio_size
*** limite analizado: sts_rw_modelo
campo de la facility al que aplica: sts_sm_rw_flag
importe m√°xi

In [71]:
# tipos de agrupaciones de limites
# facilities_add.groupBy('limits_applied').count().show(truncate=False)

In [72]:
campos = list(dict_lim_ind.values())
facilities_add.select(*key_facility,'limits_applied',*limits_indv,*campos,*imp_max_indv).show(5,False)
#.where(F.col('limit_rating_sp')<1).show(5,False)

+-------------+------------------+---------+------------------------------------------+--------------------+-------------------------+---------------+--------------------+------------------+-----------------+-------------------+---------+------------------------------+-------------+---------------+----------------+---------------+----------------+--------------+-------------+-------------------------+------------------------------+--------------------+-------------------------+-----------------------+----------------------+------------------------+--------------+
|delta_file_id|delta_file_band_id|branch_id|limits_applied                            |limit_rating_rga_esl|limit_excluded_facilities|limit_rating_sp|limit_risk_retention|limit_maturity_min|limit_sts_payment|limit_sts_rw_modelo|limit_bei|gf_ma_expanded_master_scale_id|delta_file_id|group_rating_sp|Total_Amount_EUR|expiration_date|sts_payment_flag|sts_sm_rw_flag|delta_file_id|imp_maximo_rating_rga_esl|imp_maximo_excluded_facili

In [73]:
# TEST de los limites aplicados
# n_filas = 5
# for k,v in dict_lim_ind.items():
#     l = 'limit_'+k
#     print('limite testeado:',l)
#     facilities_add.groupBy(l,v).count().orderBy(l,v).show(n_filas,False)

In [74]:
# Rating completo
# facilities_add.groupBy('limit_rating_sp','g_lmscl_internal_ratg_type').count().orderBy('limit_rating_sp','g_lmscl_internal_ratg_type').show(50,False)

# tipos de rating:
# - g_lmscl_internal_ratg_type es el rating interno formato largo
# - gf_pf_current_ratg_id es el de acreditadas (para project finance): viene marcado que sea este campo para titulizaciones project finance, es el de s&p
# - group_rating_sp es el del grupo

In [75]:
# sorted(facilities_add.columns)

### Separamos limit_individuales
- minimo aplicado sobre el importe del portfolio_size
- minimo aplicado sobre el importe susceptible facility

El importe titulizable es el m√≠nimo de los importes m√°ximos calculados por limites de ambos tipos

In [76]:
# limites cuyo % aplica sobre el portfolio_size
lim_imp_port = ['limit_'+k for k,v in dict_lim_ind_imp.items() if v=='portfolio']
# lim_imp_port
if(len(lim_imp_port)>0):
    if(len(lim_imp_port)==1):
        facilities_add = facilities_add.withColumn('limit_individual_p',F.col(lim_imp_port[0]).cast('float'))
    else:
        facilities_add = facilities_add.withColumn('limit_individual_p', F.least(*[F.col(x).cast('float') for x in lim_imp_port]))
else:
    facilities_add = facilities_add.withColumn('limit_individual_p', F.lit(1.0))                                                

In [77]:
# limites cuyo % aplica sobre el importe_susceptible de la facility
lim_imp_fac = ['limit_'+k for k,v in dict_lim_ind_imp.items() if v=='facility']
# lim_imp_fac
if(len(lim_imp_fac)>0):
    if(len(lim_imp_fac)==1):
        facilities_add = facilities_add.withColumn('limit_individual_f',F.col(lim_imp_fac[0]).cast('float'))
    else:
        facilities_add = facilities_add.withColumn('limit_individual_f', F.least(*[F.col(x).cast('float') for x in lim_imp_fac]))
else:
    facilities_add = facilities_add.withColumn('limit_individual_f', F.lit(1.0))  

### Importe titulizable
El importe que se puede titulizar de cada facility

por cada facility, calculamos:
- limite_individual: menor de sus limites, para quedarnos con el % m√°s restrictivo
- importe m√°ximo individual: menor de los importes posibles por limites (%limite * portfolio_size) √≥ 
    (%limite * importe_susceptible) como el caso de risk_retention que limita el % que se puede tomar de la titulizacion
- importe titulizable = min(importe susceptible,importe_maximo_individual)
- candidata: facilities con importe titulizable
marcamos si es excluida por limites:
- 'excluded'=1, si algun limite 0 y son facilities excluidas por limites
- 'exclusion_limit': el/los limites que son excluyentes porque su porcentaje marcado en el launchpad es 0

In [78]:
facilities_tot = facilities_add.withColumn('limit_individual', F.least(*[F.col(x).cast('float') for x in limits_indv])
                              ).withColumn('imp_maximo_individual', F.least(*[F.col(x).cast('float') for x in imp_max_indv])
                              ).withColumn('importe_titulizable', F.least(F.col('importe_susceptible'),F.col('imp_maximo_individual'))
                              ).withColumn('excluded', F.when(((F.col('limit_individual')==0)|(F.col('imp_maximo_individual')<=0)),1).otherwise(F.col('excluded'))
                              ).withColumn('candidata',F.when(F.col('importe_titulizable')>0,1).otherwise(0))                             

In [79]:
facilities_tot.select(*key_facility,*limits_indv,'limit_individual','importe_susceptible','importe_titulizable','imp_maximo_individual','excluded','exclusion_limit','candidata').show(10,False)

+-------------+------------------+---------+--------------------+-------------------------+---------------+--------------------+------------------+-----------------+-------------------+---------+----------------+--------------------+-------------------+---------------------+--------+---------------+---------+
|delta_file_id|delta_file_band_id|branch_id|limit_rating_rga_esl|limit_excluded_facilities|limit_rating_sp|limit_risk_retention|limit_maturity_min|limit_sts_payment|limit_sts_rw_modelo|limit_bei|limit_individual|importe_susceptible |importe_titulizable|imp_maximo_individual|excluded|exclusion_limit|candidata|
+-------------+------------------+---------+--------------------+-------------------------+---------------+--------------------+------------------+-----------------+-------------------+---------+----------------+--------------------+-------------------+---------------------+--------+---------------+---------+
|813008       |0                 |7803     |0.0075              |1.

### A√±ado columna Motivo Exclusion
para poder analizar el por q√∫e se excluye la facility
- hay casos de importe susceptible en negativo, lo tomamos como importe 0

In [80]:
facilities_tr = facilities_tot.withColumn('motivo_exclusion', F.when(F.col('excluded')==1,'limite individual 0'
                                                         ).when(F.col('importe_susceptible')<=0,'importe susceptible 0'
                                                         ).otherwise('NA')
                              ).withColumn('detalle_exclusion', F.col('exclusion_limit'))

In [81]:
facilities_tr.groupBy('candidata','motivo_exclusion').count().show()

+---------+-------------------+-----+
|candidata|   motivo_exclusion|count|
+---------+-------------------+-----+
|        0|limite individual 0|  229|
|        1|                 NA|  794|
+---------+-------------------+-----+



In [82]:
# comprobar caso an√≥malo
# facilities_tr.where((F.col('candidata')==0)&(F.col('motivo_exclusion')=='NA')
#                    ).select('limit_rating_rga_esl','importe_titulizable_ini','importe_titulizable','imp_maximo_individual').show(5,False)

In [83]:
# facilities_tr.groupBy('candidata','motivo_exclusion').count().show()
# +---------+--------------------+-----+
# |candidata|    motivo_exclusion|count|
# +---------+--------------------+-----+
# |        0| limite individual 0|  254|
# |        1|                  NA| 1207|
# |        0|importe susceptib...|  155|
# +---------+--------------------+-----+

In [84]:
# facilities no excluidas por los limites individuales
facilities_tr.where(F.col('excluded')==0).select(*key_facility,*limits_indv,'limit_individual',
                                                 'importe_susceptible','importe_titulizable','imp_maximo_individual',
                                                 'excluded','exclusion_limit').show(10,False)

+-------------+------------------+---------+--------------------+-------------------------+---------------+--------------------+------------------+-----------------+-------------------+---------+----------------+--------------------+-------------------+---------------------+--------+---------------+
|delta_file_id|delta_file_band_id|branch_id|limit_rating_rga_esl|limit_excluded_facilities|limit_rating_sp|limit_risk_retention|limit_maturity_min|limit_sts_payment|limit_sts_rw_modelo|limit_bei|limit_individual|importe_susceptible |importe_titulizable|imp_maximo_individual|excluded|exclusion_limit|
+-------------+------------------+---------+--------------------+-------------------------+---------------+--------------------+------------------+-----------------+-------------------+---------+----------------+--------------------+-------------------+---------------------+--------+---------------+
|813008       |0                 |7803     |0.0075              |1.0                      |1.0   

### Persistimos Sbx
persistimos en sandbox las facilities excluidas de la cartera a titulizar

In [85]:
path_facilities_lim_ind = root_pathc + '/facilities_limit_ind'
path_facilities_lim_ind

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/facilities_limit_ind'

In [86]:
facilities_tr.write.parquet(path_facilities_lim_ind, mode='overwrite')

#### Estadisticas

In [87]:
df = dataproc.read().parquet(path_facilities_lim_ind)

In [88]:
print('facilities totales', df.count())
print('facilities excluidas por limites individuales', df.where(F.col('excluded')==1).count())
print('facilities con importe titulizable', df.where(F.col('candidata')==1).count()) # en la ultima titulizaci√≥n finalmente fueron 86 las facilities seleccionadas

facilities totales 1023
facilities excluidas por limites individuales 229
facilities con importe titulizable 794


In [89]:
# pueden darse importes susceptibles negativos, pero se marcan como NO CANDIDATAS a entrar en la cartera
# df.where(F.col('importe_titulizable')<0).show()
# df.where(F.col('importe_titulizable')<0).select('candidata').distinct().show()

#### Facilities excluded
persistimos las facilities excluidas por limites individuales
(*) ahora mismo en el visor, ver si seguimos dejando esta parte

In [90]:
path_excluded = root_pathc + '/facilities_excluded'
path_excluded

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/facilities_excluded'

In [91]:
# cols_datio

In [92]:
cols_ex = set(key_facility + cols_datio)
# cols_ex

In [93]:
# cols_ex = cols_traza + key_facility + cols_datio
df_exc = df.where(F.col('excluded')==1).select(*cols_traza,*cols_ex)
df_exc.show(2,False)

+--------+---------------+---------------------+---------------+--------+----------+------------------------------+----------------------+---------+----------------+---------+--------------+------------------+---------------+-------------+--------------------+-----------+----------------+------------------+------------------------------+------------+------------------------+-----------+-------------------+------------------------+----------------------+------------------------------+----------------+-----------+---------------+
|excluded|exclusion_limit|building_project_flag|expiration_date|ico_flag|project_id|g_asset_allocation_sector_desc|financial_product_desc|branch_id|gf_ma_ead_amount|clan_date|sts_sm_rw_flag|g_holding_group_id|group_rating_sp|delta_file_id|com_product         |customer_id|sts_payment_flag|delta_file_band_id|gf_ma_expanded_master_scale_id|workout_flag|project_country_desc    |currency_id|project_sector_desc|customer_country        |project_subsector_desc|g_asset_a

In [94]:
# df_exc.groupBy('customer_country').count().show()

In [95]:
# sorted(df_exc.columns)

In [96]:
df_exc.write.parquet(path_excluded, mode='overwrite')

In [97]:
# el expiration_date es menor a un a√±o respecto a la fecha de la titulizacion '2024-06-24'
# df_exc.select('expiration_date','exclusion_limit').where(F.col('exclusion_limit').like('%maturity_min%')).show(100,False)

# 4. Limites Portfolio
Una vez sabemos lo disponible de cada pr√©stamo, seleccionamos la cartera de los que pueden entrar
- Limites Portfolio:ordenamos facilities y vamos consumiendo los l√≠mites globales
- Resultado final: colectivo √≥ptimo de facilities a titulizar

Marcan el % sobre el portfolio_size que se puede consumir de cada categoria

In [98]:
# Quitamos lo limites marcados como cabecera (no interfieren en el ranking) y el sts
# limit_cabecera = ['portfolio_size','portfolio_type','portfolio_date','sts','ccf','rw']
# antes excluiamos los 0% porque estaban ya analizados .where(F.col('limit_value')!=0)

limit_port = limites_total.where(F.col('limit_scope')=='portfolio'
                            ).where(F.col('header_flag')==0
                            ).where(F.col('limit_type')!='sts')

                        # ).where(~(F.col('limit_type').isin(*limit_cabecera)))
limit_port.show(2,False)

+------------------+-------------------------+----------+--------------+------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+------------------------------+------------+-----------+---------+-----------+
|limit_type        |name_list_desc           |limit_date|concept1_desc |concept1_value          |concept2_desc|concept2_value|limit_value|corporate_loan_flag|project_finance_flag|limit_scope|active_flag|visual_order|complex_limit|id_limit|closing_date|campo_datio                   |complex_flag|header_flag|imp_limit|null_values|
+------------------+-------------------------+----------+--------------+------------------------+-------------+--------------+-----------+-------------------+--------------------+-----------+-----------+------------+-------------+--------+------------+------------------------------+------------+-----------+---------+-----------+
|custom

In [99]:
print('limites portfolio:', limit_port.count())

limites portfolio: 119


## Diccionarios
Generamos diccionarios con los datos de los limites

### Diccionario limite-campo Datio
correspondencia entre: limite - campo Datio
- 'customer_subsector': 'g_asset_allocation_subsec_desc'

In [100]:
# limites globales
lista =limit_port.select('limit_type','campo_datio').collect()
dict_lim_port = {row['limit_type']: row['campo_datio'] for row in lista}

In [101]:
# dict_lim_port

In [102]:
lim_portfolio = list(dict_lim_port.keys())
# lim_portfolio

### Diccionario limite-valores
Limites del launchpad: correspondencia entre: limite - categor√≠a - valor
- 'customer_country-Spain': 0.3499999940395355

In [103]:
# limites globales: no complejos
lista1 =limit_port.select('limit_type','concept1_value','limit_value'
                         ).where(F.col('complex_limit')==0).collect()
dict_lim_values1 = {row['limit_type'] + '-' + row['concept1_value']:row['limit_value'] for row in lista1}

In [104]:
# sorted(dict_lim_values1)

In [105]:
# limites globales: complejos
lista2 =limit_port.select('limit_type','concept2_value','limit_value'
                         ).where(F.col('complex_limit')==1).collect()
dict_lim_values2 = {row['limit_type'] + '-' + row['concept2_value']:row['limit_value'] for row in lista2}

In [106]:
lista2

[Row(limit_type='sts_group', concept2_value='total', limit_value=0.019999999552965164)]

In [107]:
# sorted(dict_lim_values2)

In [108]:
# FUSIONO en un √∫nico diccionario
dict_lim_values= dict_lim_values1.copy()   # start with x's keys and values
dict_lim_values.update(dict_lim_values2) 

In [109]:
# sorted(dict_lim_values)

## Facilities disponibles
- listado de facilities con traza de importe titulizable + limites individuales

(*) cogemos todo el listado para tener traza de todo por si hay que revisar alg√∫n l√≠mite. S√≥lo entrar√≠an en la cartera a titulizar las candidatas = 1 (importe_titulizable>0)

In [110]:
path_facilities_lim_ind = root_pathc + '/facilities_limit_ind'
path_facilities_lim_ind

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/facilities_limit_ind'

In [111]:
# Pto de arranque son las facilities con importe titulizable
facilities_disp = spark.read.parquet(path_facilities_lim_ind)
print('facilities totales:',facilities_disp.count())
print('facilities candidatas a titulizar:',facilities_disp.where(F.col('candidata')==1).count())

facilities totales: 1023
facilities candidatas a titulizar: 794


In [112]:
facilities_disp.show(2,False)

+-------------+--------------+----------------+---------------+---------------+------------------------------+-----------------------+------------------+---------+------------------------+----------------------+--------------------------+--------------+------------+-----------+-----------------+----------------------------+-----------+------------------------+------------------+------------------------+---------------------------+-------------------------------+---------------+-------------------------+------------------+---------------+--------------------+------------------------------+------------------------------+----------------+--------------------+-----------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------+------------------------+----------------------------+---------------------+--------------------+----------------------+---------------------------+--------------------------+----------------

In [113]:
# facilities_disp.columns

### Preparaci√≥n datos
Transformados en Pandas

In [114]:
raw_data = facilities_disp.toPandas() 

  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series
  df[column_name] = series


#### Formateo de los datos
Formatos correspondientes pyspark - pandas

In [115]:
# tipos al pasar a pandas
# raw_data.dtypes

In [116]:
# Diccionario de tipologia PYSPARK de las columnas

# listado de: columna - tipo de dato
tipos = list(facilities_disp.dtypes)

# en formato diccionario
cols_type = dict(tipos)
# cols_type

In [117]:
# LOOP PARA FORMATEAR PANDAS COLUMNAS DATIO DEL DICCIONARIO
# posibles valores: 'string','date','decimal(,)','double','int','boolean'
for r in raw_data.columns:
    if (cols_type[r] == 'string'):
        # print('string',r)
        raw_data[r] = raw_data[r].astype('str')
    elif (cols_type[r] == 'date'):
        # raw_data[r] = raw_data[r].astype('datetime64')
        raw_data[r] = raw_data[r].astype('datetime64[D]')
        #print(r)
    elif (cols_type[r] == 'boolean'):
        raw_data[r] = raw_data[r].astype('bool')
    elif (cols_type[r] == 'int'):
        raw_data[r] = raw_data[r].astype('int')
    elif (cols_type[r] == 'double'):
        raw_data[r] = raw_data[r].astype('float')
    elif ('decimal' in cols_type[r]):
        raw_data[r] = raw_data[r].astype('float')       

In [118]:
df = raw_data.sort_values(by='importe_titulizable', ascending=False).reset_index(drop=True)

#### Columnas limites portfolio
- A√±adimos una columna para marcar la traza de los valores de limite portfolio que aplican por facility (por defecto 1.0)
- selected = 1: si se ha seleccionado para la titulizacion (por defecto 0)
- limit_portfolio = min(limites portfolio) que aplica a la facility (por defecto 1.0, un 100% de lo disponible) 

In [119]:
def ini_columns():
    cols_test=[]
    
    for k in lim_portfolio:
        df['limit_'+k]=1.0000 # por defecto el limite es del 100%, en el proceso de cartera en los casos que hay limite marcado se actualiza
        df['max_portfolio_size_'+k]= portfolio_size #por defecto, se puede coger el m√°ximo importe a titulizar
        df['consumido_'+k]=0.0000 # % consumido para ese limite
        df['importe_consumido_'+k]=0.0000 # importe consumido para ese limite
        cols_test.append('limit_'+k)
        cols_test.append('max_portfolio_size_'+k)
        cols_test.append('consumido_'+k)
        cols_test.append('importe_consumido_'+k)

    df['selected']=0 # si se incluye en la cartera
    df['limit_portfolio']=1.0000 # limite m√°s restrictivo a nivel portfolio
    df['porcentaje_portfolio_size']= 0.0000 # % del importe del portfolio_size consumido por la facility (peso de la facility en la cartera)
    df['importe_optimo']= 0.0000 # importe que se incluye de la facility
    df['ranking_candidata']=0 # orden de prioridad en el modelo
    df['ranking_selected']=0 # orden de selecci√≥n en la cartera final
    df['importe_optimo_acumulado']=0.0000 # suma de los importes de las facilities incluidas en la cartera
    df['porcentaje_portfolio_size_acumulado']=0.0000 # % de la cartera (portfolio_size) que se ha ido consumiendo
    df['porcentaje_optimo']=0.0000 # % sobre el importe suceptible de la facility que se toma en la cartera
    
    # lo incluyo como columna el m√°ximo importe a titulizar
    df['limit_portfolio_size']=portfolio_size

    return cols_test + ['selected','limit_portfolio','porcentaje_portfolio_size','importe_optimo',
                        'ranking_candidata','ranking_selected','importe_optimo_acumulado',
                        'porcentaje_portfolio_size_acumulado','porcentaje_optimo','limit_portfolio_size']
    
cols_test = ini_columns()

In [120]:
df[[*cols_test]]

Unnamed: 0,limit_customer_subsector,max_portfolio_size_customer_subsector,consumido_customer_subsector,importe_consumido_customer_subsector,limit_divisa,max_portfolio_size_divisa,consumido_divisa,importe_consumido_divisa,limit_financial_product,max_portfolio_size_financial_product,...,selected,limit_portfolio,porcentaje_portfolio_size,importe_optimo,ranking_candidata,ranking_selected,importe_optimo_acumulado,porcentaje_portfolio_size_acumulado,porcentaje_optimo,limit_portfolio_size
0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
1,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
2,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
3,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
4,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1018,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
1019,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
1020,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09
1021,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,0.0,0.0,1.0,2.000000e+09,...,0,1.0,0.0,0.0,0,0,0.0,0.0,0.0,2.000000e+09


### Consumos Limites
- Por cada limites-categoria posible de las facilities:
    - columna del consumo acumulado: Inicializamos a 0 consumo inicial
    - columna del m√°ximo permitido: Calculamos el m√°ximo sobre el portfolio size (max_limite = portfolio_size * limite_launchpad)

- Ej. posibles monedas: EUR,DOL,.. se ir√°n incrementando al seleccionar pr√©stamos con esa moneda y contrastando con su m√°ximo

(*)Todos los posibles valores a nivel facility se tienen que corresponder con un limite,
si no existe se genera por defecto con 1.0, que es el m√°ximo

In [121]:
# dict_lim_port.items()

In [122]:
#dict_lim_values['maturity_min-365'] # 0.0

In [123]:
# sorted(list(dict_lim_values.keys()))

#### Diccionarios
- con los consumos a 0
- con el consumo_maximo calculado (portfolio_size*limite)

In [124]:
def inicializar_consumos():
    l_lim_consumidos= {}# inicializamos diccionario de consumos
    l_lim_marcados={} # inicializamos diccionario de limites
    l_max_limites={} # calculo el m√°ximo portfolio por cada limite-categoria
    limit_keys = list(dict_lim_values.keys()) # % marcados en launchad
    keys_fechas = ['maturity_min','maturity_max']

    for k,v in dict_lim_port.items():
        # print(k,v)
        if(k not in keys_fechas): # caso base: limite-categoria=valor      
            for k1 in df[v].unique(): # recojo todos los posibles valores de ese campo en la facility
                l_lim_consumidos[k+'-'+str(k1)]=0.0000

                #si no hay marcado limite se pone a 1.0
                if(k+'-'+str(k1) not in limit_keys):                 
                    valor = 1.0000

                    if(k+'-'+'total' in limit_keys): # si es un limite a nivel global como TODOS los grupos
                        valor = round(float(dict_lim_values[k+'-'+'total']),4)

                    dict_lim_values[k+'-'+str(k1)]=valor 
                    
        else: # no es un limite directo y hay que calcular fechas: limite-ndias=valor
            # print('limite:',k)
            lk = [l for l in limit_keys if k in l][0]
            dias = int(lk[len(k)+1:]) # ndias que marcan fecha tope
            f_tope = np.datetime64(get_fecha(date_titulizacion,dias)).astype('datetime64[D]')
            
            for k1 in df[v].unique().astype('datetime64[D]'):
                l_lim_consumidos[k+'-'+str(k1)]=0.0000                
                # maturity_min: si la fecha maturity es mayor o igual no aplica limite
                # maturity_max: si la fecha maturity es menor o igual no aplica limite
                if(((k=='maturity_min')&(k1>=f_tope)) | ((k=='maturity_max')&(k1<=f_tope))):
                    valor = 1.0000 # valor si el limite no aplica
                else:
                    valor = round(float(dict_lim_values[lk]),4) # valor si el limite aplica
                    # print('fecha restringida:',k1, 'valor:',valor)
                    
                dict_lim_values[k+'-'+str(k1)]=valor


    facilities_keys = list(l_lim_consumidos.keys()) 
    l_lim_marcados = {key: round(dict_lim_values[key],4) for key in facilities_keys}
    l_max_limites = {key: (l_lim_marcados[key] * portfolio_size)  for key in l_lim_marcados}
    return l_lim_consumidos,l_lim_marcados,l_max_limites


    
l_lim_consumidos,l_lim_marcados,l_max_limites= inicializar_consumos()
# generamos un diccionario tb de importe consumido por cada limite
l_importe_consumidos = l_lim_consumidos.copy()

In [125]:
print('listado de clave limites_categoria marcados en el lauchpad:',sorted(l_lim_marcados))

listado de clave limites_categoria marcados en el lauchpad: ['customer_country-Argentina', 'customer_country-Australia', 'customer_country-Austria', 'customer_country-Belgium', 'customer_country-Bermuda Islands', 'customer_country-Brazil', 'customer_country-Canada', 'customer_country-Cayman Islands', 'customer_country-Chile', 'customer_country-China', 'customer_country-Colombia', 'customer_country-Denmark', 'customer_country-Finland', 'customer_country-France', 'customer_country-Germany', 'customer_country-Guernsey', 'customer_country-Hong Kong', 'customer_country-Hungary', 'customer_country-Ireland', 'customer_country-Italy', 'customer_country-Japan', 'customer_country-Jersey', 'customer_country-Luxembourg', 'customer_country-Mauritius', 'customer_country-Mexico', 'customer_country-Netherlands', 'customer_country-No Informado', 'customer_country-Panama', 'customer_country-Peru', 'customer_country-Portugal', 'customer_country-Qatar', 'customer_country-Saudi Arabia', 'customer_country-S

In [126]:
key_l = list(l_lim_marcados)[0]
key_l

'customer_subsector-Technology (software, hardware and computer services)'

In [127]:
l_lim_marcados[key_l]

0.5

In [128]:
l_lim_consumidos[key_l]

0.0

In [129]:
l_max_limites[key_l]

1000000000.0

In [130]:
l_lim_marcados['customer_country-Austria']

0.05

In [131]:
l_max_limites['customer_country-Austria']

100000000.0

In [132]:
l_lim_marcados['sts_group-G00000000000005']

0.02

In [133]:
l_max_limites['sts_group-G00000000000005']

40000000.0

In [134]:
l_lim_marcados['group-G20080109113719']

0.0075

In [135]:
l_max_limites['group-G20080109113719']

15000000.0

In [136]:
# dict_lim_values['customer_country-Brazil']
# l_lim_marcados['customer_country-Brazil']
# l_lim_marcados['maturity_min-2025-02-05']
# l_lim_marcados['maturity_min-2026-10-13']

In [137]:
#sorted(l_lim_marcados)

In [138]:
# l_lim_consumidos

# 'financial_product': {'Term Loan': 0,
#   'RCF': 0,
#   'Credit Line and Guarantee': 0,
#   'Guarantee': 0}

In [139]:
# PRUEBA para limites en concreto
# divisa_importe = {divisa: 0 for divisa in df['currency_id'].unique()} # posibles valores de divisas en nuestras facilities
# pais_importe = {pais: 0 for pais in df['customer_country'].unique()} # posibles valores de paises en nuestras facilities

# divisa_importe

## Generaci√≥n Cartera
Nos quedamos con las facilities que entran en la titulizacion

### Limites por facility
Funci√≥n para obtener campo-valor de la facility a contrastar con los limites marcados
- 'customer_country-United States of America'

In [140]:
# guardamos en un diccionario columna Datio - valor para la facility analizada
def get_keys_facility(i_facility, dataframe):   
    d_keys={} # formato lista de clave-valor
    res={} # diccionario de campos
    
    # para cada limite, el valor del campo de Datio indicado 
    # ej. para facility fila 1 -> divisa = df.loc[1, 'currency_id'] -> 'divisa':'USD'
    for k,v in dict_lim_port.items():    
        res[k]=dataframe.loc[i_facility, v]
        
        if (cols_type[v] == 'date'):
            res[k]=dataframe.loc[i_facility, v].strftime('%Y-%m-%d')
        
    for k,v in res.items():
        key = str(k) + '-' + str(v)
        d_keys[k]=key
        
    return d_keys

In [141]:
dict_lim_port.items()

dict_items([('customer_subsector', 'g_asset_allocation_subsec_desc'), ('divisa', 'currency_id'), ('financial_product', 'financial_product_desc'), ('customer_country', 'customer_country'), ('no_esg_linked', 'esg_linked_flag'), ('customer_sector', 'g_asset_allocation_sector_desc'), ('sts_group', 'g_holding_group_id'), ('non_ig', 'non_ig_flag'), ('group', 'g_holding_group_id')])

In [142]:
#get_keys_facility(0,df)

In [143]:
# get_keys_facility(0, df)

# {'customer_subsector': 'customer_subsector-Integrated Utility',
#  'customer_country': 'customer_country-United States of America',
#  'customer_sector': 'customer_sector-Utilities',
#  'financial_product': 'financial_product-Term Loan',
#  'non_ig': 'non_ig-0',
#  'sts_group': 'sts_group-G00000000010863',
#  'divisa': 'divisa-USD',
#  'group': 'group-G00000000010863'}

In [144]:
# get_keys_facility(54, df)

**dudas de como aplicar el limite rw (usa para ponderar la ordenaci√≥n por riesgo y es 0.9 sobre el RORC)**

In [145]:
# columnas candidatas sobre las que aplican los %
# cols_ajuste = ['Total_Amount_EUR','Total_Amount_CCY','EC_per','RC_per','Risk_Weight','EL_per','Reg_EL_per']

### Ordenaci√≥n Facilities
- Ordenamos de mayor a menor importe a titulizar

(*) segunda versi√≥n incluir tb ordenar de mayor a menor riesgo

In [146]:
# columnas de ordenacion: importe titulizable del pr√©stamo. segunda fase probar tb a incluir el porcentaje de riesgo
cols_ord = ['importe_titulizable']#, 'RC_per']

df = df.sort_values(by=cols_ord, ascending=False).reset_index(drop=True)

# ** parte inicialmente no requerida ***#
# HACERLO PARA TODOS LOS CAMPOS NECESARIOS EN LOS LIMITES (con el diccionario de limites)
# Convertir datos a listas para su uso en Pulp y OR-Tools
# importes = data['Total_Amount_EUR'].tolist()
# riesgos = data['RC_per'].tolist()
# divisas = data['currency_id'].tolist()
# paises = data['customer_country'].tolist()
# ranking = data.index.values.tolist()
# n = len(importes)


In [147]:
# df[[*key_facility,*cols_ord,'candidata']]

### Inicializaci√≥n de variables
Inicializamos las variables necesarias en el modelo de selecci√≥n

In [148]:
# Inicializar el contador del importe acumulado de las facilities
importe_acumulado = 0.0000
# Inicializamos el % carterizado sobre el total a titulizar
porcentaje_portfolio_size_acumulado = 0.0000000

# marcamos el m√°ximo a titulizar, que es el importe que se quiere titulizar
maximo_importe = portfolio_size

# columna sobre el importe de la facility disponible a ser titulizado
col_imp = 'importe_titulizable'

# Lista para almacenar los √≠ndices de las facilities seleccionadas y sus proporciones
selected_facilities = []

# los contadores de limites
# l_lim_consumidos: todos a 0 inicialmente, l_lim_marcados: % marcados en el launchad, l_max_limites: portfolio_size por limite
l_lim_consumidos,l_lim_marcados,l_max_limites = inicializar_consumos() # inicializamos los consumos antes de comenzar

# columnas a√±adidas en el proceso
cols_test = ini_columns() # inicializamos los valores de las columnas

### Modelo de titulizacion
Proceso para generar la cartera

In [149]:
# si queremos ver el detalle de la traza de ciertas facilities
traza_candidata = []#['830990','815808','848947']#[]#['185065','783009']
traza_exclusion = False # para almacenar traza en la cartera final

In [150]:
for i in df.index: # para recoger cada numero de fila (1 fila por facility)
    if(df.loc[i]['delta_file_id'] in traza_candidata):
        print('**** facility ',i,'****************************************************')
        print('---- id_facilitiy',df.loc[i]['delta_file_id'])
    
    # PASO_1: importe titulizable de la facility
    expediente_importe = df.loc[i, col_imp]
    df.loc[i,'ranking_candidata']=i+1 # posicion en el ranking de la facility dentro de las candidatas en la cartera (iniciamos en 1)
    
    if(df.loc[i]['delta_file_id'] in traza_candidata):
        print('expediente_importe',expediente_importe)
    
    
    # PASO_2: %m√°ximo a titulizar de la facility    
    # inicializamos el m√°x titulizable de la facility
    max_proportion = 1.0000 # por defecto se intenta titulizar todo lo disponible por facility
    
    # si el importe de la facility ya excede lo que hay disponible para titulizar se calcula ese m√°ximo
    if((importe_acumulado + expediente_importe) > maximo_importe):
        max_proportion = (maximo_importe - importe_acumulado) / expediente_importe # max % que se puede titulizar de la facility
    
    if(df.loc[i]['delta_file_id'] in traza_candidata):
        print('maximo:',max_proportion)
        
    
    # PASO_3: %m√≠nimo marcado por los limites que ser√° lo m√°ximo que se puede titulizar
    # campos de la facility - valor que hay que limitar
    keys_f = get_keys_facility(i,df)
    if(df.loc[i]['delta_file_id'] in traza_candidata):
        print(keys_f)
    min_lim= max_proportion # inicializamos el m√≠nimo con el m√°ximo posible a titulizar
    min_portfolio=max_proportion
    for k,v in keys_f.items():
        #print('limite aplicar:',l_lim_marcados[v])
        df.loc[i, 'limit_'+k] = l_lim_marcados[v] # genero el limite del campo y actualizo valor para la categor√≠a de esa facility
        df.loc[i,'max_portfolio_size_'+k]= l_max_limites[v]
        min_portfolio = min(min_portfolio,l_lim_marcados[v])# minimo de los limites de portfolio       
        disponible_proportion = round(float(l_lim_marcados[v] - l_lim_consumidos[v]),4)
        #***********************
        if(disponible_proportion<0): # debido al redondeo de decimales
            disponible_proportion = 0.0000
            # print('limit_'+k,l_lim_marcados[v])
            # print('consumido',l_lim_consumidos[v])
            # print(i)
        #***********************
        df.loc[i, 'disponible_'+k] = disponible_proportion
        min_lim = min(min_lim,disponible_proportion) # minimo que se puede aplicar teniendo en cuenta lo que ya est√° consumido   
        if(df.loc[i]['delta_file_id'] in traza_candidata):
            print('limite-categoria',v,'% m√°ximo',min_lim, 'marcado',l_lim_marcados[v],'consumido',l_lim_consumidos[v], 'disponible',disponible_proportion)
            
    if(df.loc[i]['delta_file_id'] in traza_candidata):
        print(' proporcion m√°xima:',min_lim)
    df.loc[i, 'limit_portfolio'] = min_portfolio
    df.loc[i, 'porcentaje_max_portfolio'] = min_lim # m√°ximo % disponible de los consumos de los limites
    
    # PASO_4: Comprobamos si esa facility se puede incluir y sino pasamos a la siguiente
    # que sea candidato por importe titulizable>0 y que no se haya consumido alguno de sus limites
    if((df.loc[i, 'candidata']==1) and (min_lim>0)):
       
        # PASO_5: Calculamos el importe a titulizar de la facility
        importe_max_facility = maximo_importe * min_lim # importe m√°ximo a titulizar para la facility: portfolio_size*%m√°s restrictivo
        df.loc[i,'importe_max_facility'] = importe_max_facility # guardamos el importe m√°ximo que se puede coger de esa facility
        # si el importe que se puede incluir es mayor o igual al de la facility incluimos todo
        if(importe_max_facility >= expediente_importe):
            importe_seleccionado = expediente_importe
        else:
            importe_seleccionado = importe_max_facility
        if(df.loc[i]['delta_file_id'] in traza_candidata):
            print('importe_seleccionado:',importe_seleccionado)

         # Si el importe √≥ptimo>0, 
        if(importe_seleccionado>0):
            print('PASO: ',i,'importe acumulado:',importe_acumulado, 'importe seleccionado:', importe_seleccionado)
            # PASO_6: Actualizamos los acumulado tanto de limites como de importe a titulizar
            importe_acumulado = importe_acumulado + importe_seleccionado
            por_consumido = round(float(importe_seleccionado/maximo_importe),7) # peso_cartera: % de la titulizacion sobre la cartera
            if(df.loc[i]['delta_file_id'] in traza_candidata):
                print('% usado de la cartera (porcentaje_portfolio_size):',por_consumido)
                
            for k,v in keys_f.items():
                l_lim_consumidos[v] = round(float(l_lim_consumidos[v] + por_consumido),7) # actualizo los consumos limite-categoria
                l_importe_consumidos[v] = l_importe_consumidos[v] + importe_seleccionado
                df.loc[i, 'consumido_'+k] = l_lim_consumidos[v]
                df.loc[i, 'importe_consumido_'+k] = l_importe_consumidos[v]
                if(df.loc[i]['delta_file_id'] in traza_candidata):
                    print('consumido ',v,':',l_lim_consumidos[v])
                    print('importe_consumido ',v,':',l_importe_consumidos[v])

            # PASO_7: Rellenamos traza a nivel facility
            # Marcamos la facility como seleccionada con su proporcion_optima y su importe_optimo
            selected_facilities.append((i, por_consumido))  
            df.loc[i,'selected']=1
            df.loc[i,'importe_optimo'] = importe_seleccionado
            df.loc[i,'porcentaje_optimo']= round(float(importe_seleccionado/df.loc[i,'importe_susceptible']),7) # % del importe susceptible que finalmente se coge
            df.loc[i,'ranking_selected']=len(selected_facilities) # posicion en el ranking de las facilities seleccionadas
            df.loc[i,'importe_optimo_acumulado']= importe_acumulado
            porcentaje_portfolio_size_acumulado = round(float(importe_acumulado/maximo_importe),7) # % usado del portfolio_size
            df.loc[i,'porcentaje_portfolio_size_acumulado']= porcentaje_portfolio_size_acumulado
            df.loc[i, 'porcentaje_portfolio_size'] = por_consumido # porcentaje del portfolio_size que se consume (% sobre la cartera final)
            
            # TRAZA DE SALIDA
            if(df.loc[i]['delta_file_id'] in traza_candidata):
                if(traza_exclusion):
                    print('---- facility seleccionada:',df.loc[i,'ranking_selected'])
                    print('***Se ha alcanzado un limite a nivel columna-categoria. NUM CANDIDATA: ***',i+1)
                min_disponible=1.0                
                for k,v in keys_f.items():
                    if(traza_exclusion):
                        print('----- limite analizado:',v)
                        print('limite en launchpad:',l_lim_marcados[v])
                        print('consumido:',l_lim_consumidos[v])      
                    disponible_proportion = round(float(l_lim_marcados[v] - l_lim_consumidos[v]),4)
                    if(disponible_proportion<0): # debido al redondeo de decimales
                        disponible_proportion = 0.0000
                    if(traza_exclusion):
                        print('disponible:',disponible_proportion)
                    min_disponible = min(min_disponible,disponible_proportion) 
                if(traza_exclusion):
                    print('m√°ximo disponible para la facility:',min_disponible)
                
    # para aquellas facilities que no entran dejamos traza y arrastran los consumos e importes acumulados hasta el momento
    else:
        if(df.loc[i, 'candidata']==1): #solo para aquellas candidatas (que tengan importe disponible)
            min_disponible=1.0
            if(traza_exclusion):
                print('***Se ha alcanzado un limite a nivel columna-categoria. NUM CANDIDATA: ',i+1, 'DELTA FILE:',df.loc[i]['delta_file_id'],'***')
            for k,v in keys_f.items():    
                disponible_proportion = round(float(l_lim_marcados[v] - l_lim_consumidos[v]),4)
                if(disponible_proportion<0): # debido al redondeo de decimales
                    disponible_proportion = 0.0000
                if(disponible_proportion==0):
                    if(traza_exclusion):
                        print('----- limite analizado:',v)
                        print('limite en launchpad:',l_lim_marcados[v])
                        print('consumido:',l_lim_consumidos[v]) 
                        print('disponible:',disponible_proportion)
                    min_disponible = min(min_disponible,disponible_proportion)
                    if(l_lim_marcados[v]==0):
                        df.loc[i, 'motivo_exclusion']='limite portfolio 0'
                        df.loc[i,'detalle_exclusion']=v
                    else:
                        df.loc[i, 'motivo_exclusion']='consumido limite portfolio'
                        df.loc[i,'detalle_exclusion']=v  
            if(traza_exclusion):
                print('m√°ximo disponible para la facility:',min_disponible)
            
        # arrastramos valores acumulados
        df.loc[i,'importe_optimo_acumulado']= importe_acumulado # importe acumulado hasta el momento
        df.loc[i,'porcentaje_portfolio_size_acumulado']= porcentaje_portfolio_size_acumulado # % usado del portfolio_size hasta el momento
        for k,v in keys_f.items():
            df.loc[i, 'consumido_'+k] = l_lim_consumidos[v]
            df.loc[i, 'importe_consumido_'+k] = l_importe_consumidos[v]
        
    
    # PASO_8: si se ha alcanzado el m√°ximo a titulizar salimos del bucle, ya tenemos las facilities a titiulizar
    if(importe_acumulado>=maximo_importe):
        print('***Se ha superado el portfolio size. Importe acumulado:',importe_acumulado)
        break;

PASO:  0 importe acumulado: 0.0 importe seleccionado: 15000000.0
PASO:  2 importe acumulado: 15000000.0 importe seleccionado: 15000000.0
PASO:  3 importe acumulado: 30000000.0 importe seleccionado: 15000000.0
PASO:  5 importe acumulado: 45000000.0 importe seleccionado: 15000000.0
PASO:  6 importe acumulado: 60000000.0 importe seleccionado: 15000000.0
PASO:  8 importe acumulado: 75000000.0 importe seleccionado: 15000000.0
PASO:  9 importe acumulado: 90000000.0 importe seleccionado: 15000000.0
PASO:  10 importe acumulado: 105000000.0 importe seleccionado: 15000000.0
PASO:  12 importe acumulado: 120000000.0 importe seleccionado: 15000000.0
PASO:  13 importe acumulado: 135000000.0 importe seleccionado: 15000000.0
PASO:  14 importe acumulado: 150000000.0 importe seleccionado: 15000000.0
PASO:  15 importe acumulado: 165000000.0 importe seleccionado: 15000000.0
PASO:  16 importe acumulado: 180000000.0 importe seleccionado: 15000000.0
PASO:  17 importe acumulado: 195000000.0 importe selecciona

In [151]:
df[[*cols_test,'importe_titulizable','porcentaje_max_portfolio','porcentaje_optimo']]

Unnamed: 0,limit_customer_subsector,max_portfolio_size_customer_subsector,consumido_customer_subsector,importe_consumido_customer_subsector,limit_divisa,max_portfolio_size_divisa,consumido_divisa,importe_consumido_divisa,limit_financial_product,max_portfolio_size_financial_product,...,importe_optimo,ranking_candidata,ranking_selected,importe_optimo_acumulado,porcentaje_portfolio_size_acumulado,porcentaje_optimo,limit_portfolio_size,importe_titulizable,porcentaje_max_portfolio,porcentaje_optimo.1
0,0.5,1.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,...,15000000.0,1,1,15000000.0,0.0075,0.144903,2.000000e+09,82814144.0,0.0075,0.144903
1,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,0.0075,15000000.0,0.0,0.000000e+00,...,0.0,2,0,15000000.0,0.0075,0.000000,2.000000e+09,33798596.0,0.0000,0.000000
2,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,...,15000000.0,3,2,30000000.0,0.0150,0.373785,2.000000e+09,32104052.0,0.0075,0.373785
3,0.5,1.000000e+09,0.0150,30000000.0,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,...,15000000.0,4,3,45000000.0,0.0225,0.500000,2.000000e+09,24000000.0,0.0075,0.500000
4,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,0.0075,15000000.0,1.0,2.000000e+09,...,0.0,5,0,45000000.0,0.0225,0.000000,2.000000e+09,16594920.0,0.0000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1018,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,...,0.0,0,0,0.0,0.0000,0.000000,2.000000e+09,0.0,,0.000000
1019,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,...,0.0,0,0,0.0,0.0000,0.000000,2.000000e+09,0.0,,0.000000
1020,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,...,0.0,0,0,0.0,0.0000,0.000000,2.000000e+09,0.0,,0.000000
1021,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,0.0000,0.0,1.0,2.000000e+09,...,0.0,0,0,0.0,0.0000,0.000000,2.000000e+09,0.0,,0.000000


In [152]:
# (df['selected']==1).sum()
# df.count()

In [153]:
#l_lim_marcados['customer_country-United States of America']

In [154]:
#l_lim_consumidos['customer_country-United States of America']

# 5. Persistimos
- Pasamos de pandas a pyspark para guardar el resultado

In [155]:
df_sp = dataproc.getSparkSession().createDataFrame(df).fillna(0)

## Ajustes de tipos Columnas

In [156]:
tipos = []
for c in df_sp.columns:
    tipo = df_sp.schema[c].dataType
    # print(c,tipo)
    if tipo not in tipos:
        tipos.append(tipo)
        
    # redondeo los tipos num√©ricos a 2 decimales    
    if str(tipo) in ('LongType','DoubleType'):
        # print(c)
        if(c in ['porcentaje_portfolio_size','porcentaje_portfolio_size_acumulado']):
            df_sp = df_sp.withColumn(c, F.round(F.col(c),7)) #dejamos un redondeo de 6 decimales 
        else:
            df_sp = df_sp.withColumn(c, F.round(F.col(c),4)) #dejamos un redondeo de 4 decimales 
                                       
print('tipo de datos de las columnas:',tipos)

tipo de datos de las columnas: [StringType, LongType, TimestampType, DoubleType, BooleanType]


### parquet

In [157]:
path_out = root_path+'closing_date='+str(fecha)+'/cartera_titulizar'
path_out

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/cartera_titulizar'

In [158]:
df_sp.write.parquet(path_out,mode='overwrite')

### csv

In [159]:
path_out_csv = root_path+'closing_date='+str(fecha)+'/cartera_titulizar_csv'
path_out_csv

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/cartera_titulizar_csv'

In [160]:
dataproc.read().parquet(path_out).coalesce(1).write.csv(path_out_csv, mode='overwrite', header='True')

# 6. Estad√≠sticas

In [161]:
fecha_ejecucion = last_partition (root_path, 'closing_date')
print('Fecha de ejecuci√≥n del modelo titulizaci√≥n:', fecha_ejecucion)
root_pathc = root_path + 'closing_date=' + str(fecha_ejecucion)
root_pathc

Fecha de ejecuci√≥n del modelo titulizaci√≥n: 2024-10-22


'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22'

In [162]:
path_out = root_pathc+'/cartera_titulizar'
path_out

'/data/sandboxes/dslb/data/Joystick/TITULIZACIONES/cartera_optima/closing_date=2024-10-22/cartera_titulizar'

In [163]:
df_total = dataproc.read().parquet(path_out)
cartera_candidatas = df_total.where(F.col('candidata')==1)
cartera_titulizar = df_total.where(F.col('selected')==1)

In [164]:
df_total.show(2,False)

+-------------+--------------+----------------+-------------------+---------------+------------------------------+-------------------+------------------+---------+------------------------+-------------------------+--------------------------+--------------+------------+-----------+-----------------+----------------------------+-----------+------------------------+------------------+------------------------+---------------------------+-------------------------------+---------------+-------------------------+----------------+---------------+--------------------+------------------------------+-----------------------------------------------------+----------------+--------------------+-----------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------+------------------------+----------------------------+---------------------+--------------------+----------------------+---------------------------+-------------------

In [165]:
key_t = ['delta_file_id','delta_file_band_id']
n= df_total.groupBy(*key_t).agg(F.count('delta_file_id').alias('n')).where(F.col('n')>1).count()
if (n>1):
    print('MicroStrategy: Hay duplicados a nivel expediente-tramo')
    print(n)

MicroStrategy: Hay duplicados a nivel expediente-tramo
8


In [166]:
ids_delta = ['185065','783009']

In [167]:
df_total.where(F.col('delta_file_id').isin(ids_delta)).show(2,False)

+-------------+--------------+----------------+-------------------+---------------+------------------------------+-------------------+------------------+---------+--------------------+----------------------+--------------------------+--------------+------------+-----------+-----------------+----------------------------+-----------+----------------+------------------+------------------+---------------------------+-------------------------------+---------------+-------------------------+----------------+---------------+--------------------+------------------------------+-------------------------------------+----------------+--------------------+-----------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------+------------------------+----------------------------+---------------------+--------------------+----------------------+---------------------------+--------------------------+--------------------------+--

In [168]:
key_t = ['delta_file_id','delta_file_band_id','branch_id']
if (df_total.groupBy(*key_t).agg(F.count('delta_file_id').alias('n')).where(F.col('n')>1).count()>1):
    print('Hay duplicados a nivel facility')

In [169]:
# df_total.printSchema()

In [170]:
# sorted(df_total.columns)

In [171]:
print('numero total de facilities', df_total.count())
print('numero de facilities candidatas a titulizar', cartera_candidatas.count())
print('numero de facilities en la cartera a titulizar', cartera_titulizar.count())

numero total de facilities 1023
numero de facilities candidatas a titulizar 794
numero de facilities en la cartera a titulizar 135


In [172]:
df_importes = df_total.groupBy().agg(F.sum('importe_susceptible').alias('importe_susceptible'),
                 F.sum('importe_titulizable').alias('importe_titulizable'),
                 F.sum('importe_optimo').alias('importe_final_titulizar'),
                 F.collect_set('limit_portfolio_size')[0].alias('portfolio_size'))                

In [173]:
suma_sus,suma_imp_d,suma_imp,importe_titulizar = [(x.importe_susceptible,x.importe_titulizable,x.importe_final_titulizar,x.portfolio_size) for x in df_importes.collect()][0]

In [174]:
# suma_imp_d = [x.importe_titulizable for x in cartera_candidatas.groupBy().agg(F.sum('importe_titulizable').alias('importe_titulizable')).collect()][0]

In [175]:
# suma_imp = [x.importe_final_titulizar for x in cartera_titulizar.groupBy().agg(F.sum('importe_optimo').alias('importe_final_titulizar')).collect()][0]

In [176]:
# importe_titulizar = [x.limit_portfolio_size for x in df_total.select('limit_portfolio_size').distinct().collect()][0]

In [177]:
print('importe que se quiere titulizar',importe_titulizar) # 2.000.000.000
print('importe susceptible a titulizar',suma_sus) # 63.917.592.977
print('importe total titulizable', suma_imp_d) # 3.539.030.085
print('importe final titulizado', suma_imp)  # 793.488.411
print('porcentaje titulizado del total a titulizar', str(suma_imp/importe_titulizar)) # 0.39
print('se deja sin titulizar', str(importe_titulizar - suma_imp)) # 1.206.511.588

importe que se quiere titulizar 2000000000.0
importe susceptible a titulizar 55661807723.10201
importe total titulizable 10129725153.7091
importe final titulizado 2009824176.0
porcentaje titulizado del total a titulizar 1.004912088
se deja sin titulizar -9824176.0


### Trazas

#### importe susceptible
- importe1 = saldo vivo+importe disponible*CCF
- importe2 = importe_titulizado/risk_retention
- importe_susceptible = min(ead_regulatorio,importe1) - importe2

In [178]:
c_cal = ['bbva_drawn_eur_amount','bbva_available_eur_amount','limit_ccf','importe1',
          'gf_facility_securitization_amount','limit_risk_retention','importe2',
          'gf_ma_ead_amount','importe_susceptible']

In [179]:
df_total.select(*key_limites,*key_facility,*c_cal).show(10,False)

+-------------------------+-------------------+--------------------+-------------+------------------+---------+---------------------+-------------------------+---------+---------------+---------------------------------+--------------------+---------------+----------------+-------------------+
|limit_escenario          |limit_fecha        |limit_portfolio_size|delta_file_id|delta_file_band_id|branch_id|bbva_drawn_eur_amount|bbva_available_eur_amount|limit_ccf|importe1       |gf_facility_securitization_amount|limit_risk_retention|importe2       |gf_ma_ead_amount|importe_susceptible|
+-------------------------+-------------------+--------------------+-------------+------------------+---------+---------------------+-------------------------+---------+---------------+---------------------------------+--------------------+---------------+----------------+-------------------+
|escenario model verano IV|2024-06-24 00:00:00|2.0E9               |765728       |2                 |8218     |1.30793

#### limites individuales

In [180]:
c_lim_ind = ['limit_rating_sp','limit_excluded_facilities','limit_risk_retention',
             'limit_sts_rw_modelo','limit_sts_payment','limit_individual']
c_imp = ['importe_susceptible','importe_titulizable']
c_ex = ['excluded','exclusion_limit']
c_flag_i = ['candidata']

In [181]:
df_total.select(*key_limites,*key_facility,*c_lim_ind,*c_imp,*c_ex,*c_flag_i).show(10,False)

+-------------------------+-------------------+--------------------+-------------+------------------+---------+---------------+-------------------------+--------------------+-------------------+-----------------+----------------+-------------------+-------------------+--------+---------------+---------+
|limit_escenario          |limit_fecha        |limit_portfolio_size|delta_file_id|delta_file_band_id|branch_id|limit_rating_sp|limit_excluded_facilities|limit_risk_retention|limit_sts_rw_modelo|limit_sts_payment|limit_individual|importe_susceptible|importe_titulizable|excluded|exclusion_limit|candidata|
+-------------------------+-------------------+--------------------+-------------+------------------+---------+---------------+-------------------------+--------------------+-------------------+-----------------+----------------+-------------------+-------------------+--------+---------------+---------+
|escenario model verano IV|2024-06-24 00:00:00|2.0E9               |765728       |2  

#### limites portfolio

In [182]:
c_flag_p = ['selected','ranking_candidata','ranking_selected']
c_lim_portfolio =['limit_customer_subsector','consumido_customer_subsector',
                  'limit_customer_country','consumido_customer_country',
                  'limit_customer_sector','consumido_customer_sector',
                  'limit_financial_product','consumido_financial_product',
                  'limit_non_ig','consumido_non_ig',
                  'limit_sts_group','consumido_sts_group',
                  'limit_divisa','consumido_divisa',
                  'limit_group','consumido_group',
                  'limit_portfolio']
c_imp_p =['importe_titulizable','porcentaje_portfolio_size','importe_optimo',
         'porcentaje_portfolio_size_acumulado','importe_optimo_acumulado']


In [183]:
df_total.where(F.col('candidata')==1 # para analizar las facilities que son candidatas en la titulizacion 
              ).select(*key_limites,*key_facility,*c_lim_portfolio,*c_imp_p,*c_flag_p).show(10,False)

+-------------------------+-------------------+--------------------+-------------+------------------+---------+------------------------+----------------------------+----------------------+--------------------------+---------------------+-------------------------+-----------------------+---------------------------+------------+----------------+---------------+-------------------+------------+----------------+-----------+---------------+---------------+-------------------+-------------------------+--------------+-----------------------------------+------------------------+--------+-----------------+----------------+
|limit_escenario          |limit_fecha        |limit_portfolio_size|delta_file_id|delta_file_band_id|branch_id|limit_customer_subsector|consumido_customer_subsector|limit_customer_country|consumido_customer_country|limit_customer_sector|consumido_customer_sector|limit_financial_product|consumido_financial_product|limit_non_ig|consumido_non_ig|limit_sts_group|consumido_sts_gro