# 1. Importar librerías

In [191]:
import pandas as pd
import numpy as np
import plotly.express as px
pd.options.display.float_format = '{:.2f}'.format

# 2. Importar base de datos

In [192]:
df = pd.read_csv('datasets/data_limpio.csv')

In [178]:
df.head()

Unnamed: 0,tipo_entidad,fecha_corte,unicap,desc_unicap,renglon,desc_renglon,saldo_a_la_fecha,vigente,v1_2,v2_3,...,riesgo_a_c,riesgo_a_s,riesgo_b_c,riesgo_b_s,riesgo_c_c,riesgo_c_s,riesgo_d_c,riesgo_d_s,riesgo_e_c,riesgo_e_s
0,1,2015-01-31,1,CRÉDITO ROTATIVO,5,CRÉDITO ROTATIVO TOTAL,37651351298.0,34981440061.0,768061743.0,579918756.0,...,6176,32878868826.0,270,1835206170.0,142,975343138.0,326,1368695340.0,69,593093538.0
1,1,2015-01-31,1,CRÉDITO ROTATIVO,5,CRÉDITO ROTATIVO TOTAL,826852228377.0,782016598064.0,9271463391.0,8065650992.0,...,125128,772666404396.0,1840,11740703689.0,1486,9872854505.0,1854,14111818486.0,2469,18460447300.0
2,1,2015-01-31,1,CRÉDITO ROTATIVO,5,CRÉDITO ROTATIVO TOTAL,108451564795.0,104345665139.0,1359378501.0,845847453.0,...,9723,100426465880.0,324,2920771751.0,207,1936819277.0,165,1623502258.0,144,1544005629.0
3,1,2015-01-31,1,CRÉDITO ROTATIVO,5,CRÉDITO ROTATIVO TOTAL,209307777744.0,196907738953.0,6328341960.0,2236769512.0,...,91873,196131426784.0,4802,6541005114.0,2385,2574770601.0,2515,3677977262.0,160,382597983.0
4,1,2015-01-31,1,CRÉDITO ROTATIVO,5,CRÉDITO ROTATIVO TOTAL,243818014709.0,227311255658.0,6333845197.0,2691829784.0,...,32098,224904584796.0,951,5969178631.0,848,5034273159.0,521,3607315495.0,520,4302662628.0


In [193]:
df['tipo_entidad'] = df['tipo_entidad'].astype('object')
df['unicap'] = df['unicap'].astype('object')
df['renglon'] = df['renglon'].astype('object')
df['fecha_corte'] = pd.to_datetime(df['fecha_corte'])

# 3. Correlaciones variables numéricas

In [194]:
cols_num = df.select_dtypes(exclude=['object', 'datetime'])
df_corr = cols_num.corr()
fig = px.imshow(df_corr[(df_corr > 0.7) | (df_corr < -0.7)],  text_auto=True)
fig.update_layout(height=1000)
fig.show()

## ¿Por qué el saldo a la fecha y el saldo vigente presentan una correlación tan alta?

El saldo a la fecha y el saldo vigente presentan una alta correlación. El saldo vigente representa el saldo luego de los abonos de los clientes a cada una de las cuentas en cada mes. Por tanto, se decide descartar el saldo vigente ya que saldo a la fecha y los abonos nos brindan la misma información.

In [195]:
df.drop('vigente', axis=1, inplace=True)

## ¿Qué hacer con las altas correlaciones en los rangos de vencimiento?

Las demás columnas, aunque tengan una alta correlación, se decide conservarlas porque representan características diferentes de las cuentas. Mes a mes cambia el tiempo que lleva una cuenta vencida. Algunos rangos de vencimiento se traslapan, esto puede ser porque cada entidad maneja diferentes estrategias de cobranza dependiendo del tipo de producto y por tanto estipula diferentes rangos para establecer el tiempo que lleva una cuenta vencida.

Una entidad, dependiendo del riesgo, para un producto implementa una estrategia para cuentas de 1 a 3 meses vencidas, mientras que para otro producto aplica una estrategia si la cuenta tiene entre 1 y 2 meses vencida y otra estrategia si la cuenta tiene entre 2 y 3 meses vencida.

In [196]:
cols_mora = df.iloc[:,8:21].columns
df.groupby(['tipo_entidad', 'desc_unicap'])[cols_mora].sum().iloc[1,:].to_frame()

Unnamed: 0_level_0,1
Unnamed: 0_level_1,CARTERA COMERCIAL CORPORATIVO
v2_3,0.0
v1_3,30243146591518.68
v3_4,0.0
v+4,0.0
v3_6,33059046066284.94
v+6,0.0
v1_4,0.0
v4_6,0.0
v6_12,43874611086107.93
v12_18,0.0


Por ejemplo, una entidad de tipo 1, para carteras comerciales corporativas clasifica las cuentas cuentas vencidad de 1 a 3 meses, de 3 a 6 meses, de 6 a 12 meses y más de 12 meses.

In [197]:
df.groupby(['tipo_entidad', 'desc_unicap'])[cols_mora].sum().iloc[10,:].to_frame()

Unnamed: 0_level_0,1
Unnamed: 0_level_1,CONSUMO BAJO MONTO
v2_3,201552646764.76
v1_3,0.0
v3_4,0.0
v+4,0.0
v3_6,424888748982.12
v+6,132232049561.69
v1_4,0.0
v4_6,0.0
v6_12,0.0
v12_18,0.0


Mientras que la misma entidad, para cuentas de consumos de bajo monto, las clasifica de 1 a 2 meses, de 2 a 3 meses, de 3 a 6 meses y más de 6 meses.

Decidimos trabajar con todas las variables y observar los resultados obtenidos con reducción de dimensionalidad.

## ¿Qué hacer con las correlaciones altas en algunos riesgos?

In [198]:
df['year_month'] = pd.to_datetime(df.fecha_corte.apply(lambda x: str(x.year) + '-' + str(x.month) + '-' + '01'))
base = df.groupby(['year_month'])[['saldo_a_la_fecha','riesgo_a_s','riesgo_b_s','riesgo_c_s','riesgo_d_s','riesgo_e_s']].mean()
fig = px.line(base)
fig.show()

In [199]:
base2 = df.groupby(['year_month'])[['riesgo_a_c','riesgo_b_c','riesgo_c_c','riesgo_d_c','riesgo_e_c']].mean()
fig = px.line(base2)
fig.show()

La gran mayoría de los clientes tienen obligaciones catalogadas como de riesgo a, que es la categoría de menos riesgo para las entidades. Dado que las columnas saldo por riesgo representan cada una el saldo total de cuentas que hay de dichos riesgos y la gran mayoría son de riesgos a, hay una correlación casi de 100% entre el saldo de cuentas de riesgo a y el saldo total a la fecha, se puede observar que varían casi que igual en el tiempo. Dicho lo anterior, se decide conservar el saldo total a la fecha y descartar las columnas de saldo por riesgos. Las columnas de número de clientes por riesgos también representa muy bien la frecuencia e importancia de cada riesgos.

In [200]:
df.drop(['riesgo_a_s', 'riesgo_b_s', 'riesgo_c_s', 'riesgo_d_s', 'riesgo_e_s'], axis=1, inplace=True)

## ¿Qué hacer con las correlaciones altas de los riesgos con el número de clientes con más de 1 mes en mora?

In [201]:
base3 = df.groupby(['year_month'])[['clientes_mora+30d','riesgo_a_c','riesgo_b_c','riesgo_c_c','riesgo_d_c','riesgo_e_c']].mean()
fig = px.scatter_matrix(base3)
fig.update_layout(height=800)
fig.show()

Dado que esta variable presenta una alta correlación con otras 4 variables, se decide descartarla.

In [202]:
df.drop(['clientes_mora+30d', 'year_month'], axis=1, inplace=True)

## Observar correlación

In [203]:
cols_num = df.select_dtypes(exclude=['object', 'datetime'])
df_corr = cols_num.corr()
fig = px.imshow(df_corr,  text_auto=True)
fig.update_layout(height=1000)
fig.show()