Para el problema, lo que vamos hacer será cruzar todas las bases de datos posibles en función de un identificador común, en este caso usaremos los _id_ e _id2_ par todas las bases de datos excepto las bases de comportamiento. Primero vamos a importar las paqueterías necesarías y despúes las bases a estudiar.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Aquí se van a cargar las bases de datos que sí podemos cruzar, la base de datos "bd_inicio_parte1.txt" no se importó
# porque contiene la misma información que viene en "base_ini_interna".

base_ini_interna=pd.read_csv('base_ini_interna.csv')
base_ini_parte1=pd.read_csv('base_ini_parte1.csv')
base_ini_externa= pd.read_csv("base_ini_externa.txt", sep=" ")

In [3]:
#En estas dos bases, contienen el mismo identificador _id_, como se va a cruzar con "base_ini_interna", el cual también
#tiene dicha columna, para no repetir columnas, se van a eliminar de estos

base_ini_parte1=base_ini_parte1.drop(['_id_'],axis=1)
base_ini_externa=base_ini_externa.drop(['_id_'],axis=1)

In [4]:
#Una vez eliminado las columnas mencionadas arriba, vamos a juntar las tres bases que cargamos al principio.
base_final=pd.merge(base_ini_interna,base_ini_parte1,left_index=True, right_index=True)
base_final=pd.merge(base_final,base_ini_externa,left_index=True, right_index=True)
base_final

Unnamed: 0,_id_,fecha_inicio,comp_interno1,comp_interno2,comp_interno3,comp_interno4,categoria1,categoria2,categoria3,_id2_,comp_mixto1,comp_externo1,comp_externo2,comp_externo3,comp_externo4
0,78213,2020-03-25,0.000000,b'0',11.0,58.0,2.0,9.0,156.0,1798899,0.33522,260.869565,25.854639,56.0,-230.0
1,76457,2020-02-13,0.000000,b'1',28.0,45.0,1.0,4.0,173.0,1758511,0.33334,40.579710,2.872738,62.0,-230.0
2,40666,2018-01-24,0.000000,b'1',25.0,45.0,1.0,9.0,170.0,935318,0.29186,,,119.0,-230.0
3,8329,2016-10-07,0.000000,b'1',14.0,59.0,3.0,3.0,159.0,191567,0.29112,349.275362,34.616490,94.0,-230.0
4,68389,2019-07-30,2026.342452,b'1',1.0,67.0,2.0,9.0,146.0,1572947,0.27318,276.811594,27.434645,125.0,-230.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,78795,2020-04-27,0.000000,b'1',2.0,50.0,2.0,6.0,147.0,1812285,0.34318,140.579710,13.932778,95.0,-230.0
49996,9126,2016-08-10,1215.805471,b'1',30.0,70.0,3.0,4.0,175.0,209898,0.38000,188.405797,9.652399,114.0,-230.0
49997,44847,2018-09-17,0.000000,b'1',3.0,58.0,2.0,9.0,148.0,1031481,0.34000,434.782609,33.323758,124.0,-230.0
49998,87200,2020-10-27,0.000000,b'1',19.0,59.0,3.0,4.0,164.0,2005600,0.26984,919.130435,57.454754,108.0,-230.0


In [6]:
#Limpiar/filtrar la base de datos: 

#El valor 9999999769.99 es por default cuando no tenemos información en los campos externos, es decir asociados a valores de
#tipo NaN, por lo que no nos conviene utilizarlos, pues de hacer estadítica con esta columna, estaríamos analizando valores
#de tipo -230 con 9999999769.99, lo cual nos crearía mucha incertidumbre y no nos daría un valor congruente.

base_final=base_final[base_final['comp_externo4']!=9999999769.99]

#Dado que en la columna comp_interno1 tenemos muchos valores cero que no nos representan nada, se decidió no utilizarlos
base_final=base_final[base_final['comp_interno1']>0]

#Vamos a eliminar los datos de tipo NaN, es decir, partes del Dataframe que estan vacíos.
base_final=base_final.dropna()

#De ser utilizados las fechas de inicio, las ponemos de tipo "datatime" y finalmente organizamos el dataframe de menor a mayor
#fecha de inicio, así ya quedo nuestra base filtrada según nuestros críterios de trabajo.

base_final["fecha_inicio"]=pd.to_datetime(base_final["fecha_inicio"])
base_final.sort_values('fecha_inicio')

Unnamed: 0,_id_,fecha_inicio,comp_interno1,comp_interno2,comp_interno3,comp_interno4,categoria1,categoria2,categoria3,_id2_,comp_mixto1,comp_externo1,comp_externo2,comp_externo3,comp_externo4
5399,2383,2016-01-04,2026.342452,b'1',15.0,59.0,1.0,9.0,160.0,54809,0.37110,1449.275362,143.636886,129.0,-230.0
49384,1220,2016-01-04,2482.269504,b'0',9.0,70.0,3.0,9.0,154.0,28060,0.28422,727.536232,72.105717,75.0,-230.0
28005,277,2016-01-04,658.561297,b'1',19.0,57.0,2.0,9.0,164.0,6371,0.35336,144.927536,14.363689,121.0,-230.0
17236,2333,2016-01-04,6079.027356,b'1',30.0,50.0,2.0,9.0,175.0,53659,0.32856,324.637681,32.174662,91.0,-230.0
47380,2324,2016-01-05,861.195542,b'1',25.0,65.0,2.0,9.0,170.0,53452,0.37000,260.869565,25.854639,124.0,-230.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3824,98811,2021-04-28,2026.342452,b'1',21.0,72.0,1.0,9.0,166.0,2272653,0.36000,33.623188,3.332376,90.0,-230.0
7333,98936,2021-04-29,5065.856130,b'1',14.0,50.0,2.0,9.0,159.0,2275528,0.30168,318.840580,31.600115,50.0,-230.0
5952,98830,2021-04-30,709.219858,b'1',3.0,53.0,3.0,9.0,148.0,2273090,0.33334,275.362319,4.309107,111.0,-230.0
5227,98669,2021-04-30,607.902736,b'1',22.0,60.0,2.0,8.0,167.0,2269387,0.36922,782.028986,77.506464,89.0,-230.0


In [36]:
#Guardamos la base de datos en un archivo csv para posible análisis en el futuro 

base_final.to_csv('base_final.csv', index=False)

In [7]:
#Las bases de comportamiento son compatibles entre sí, por lo que podemos cruzarlas y tenerlas juntas, nótese que para
#no tener columnas duplicadas, se eliminó un par

base_comportamiento_2=pd.read_csv('base_comportamiento_2.txt', sep=' ')
base_comportamiento_3=pd.read_csv('base_comportamiento_3.csv')
base_comportamiento_3=base_comportamiento_3.drop(['num_caso'],axis=1)
base_comportamiento_3=base_comportamiento_3.drop(['mes_informacion'],axis=1)

In [8]:
#Se cruzan, la columna "mes_información", por si acaso se pone en formato datatime y se ordena en función de esta 

base_comportamiento_final=pd.merge(base_comportamiento_2,base_comportamiento_3,left_index=True, right_index=True)
base_comportamiento_final["mes_informacion"]=pd.to_datetime(base_comportamiento_final["mes_informacion"])
base_comportamiento_final.sort_values('mes_informacion')
base_comportamiento_final

Unnamed: 0,num_caso,mes_informacion,Tiempo_aparicion,comportamiento_j
0,1,2016-04-01,0.0,0.0
1,1,2016-05-01,1.0,0.0
2,1,2016-06-01,2.0,0.0
3,1,2016-07-01,3.0,0.0
4,1,2016-08-01,4.0,0.0
...,...,...,...,...
1455531,98990,2021-05-01,1.0,0.0
1455532,98992,2021-04-01,0.0,0.0
1455533,98992,2021-05-01,1.0,0.0
1455534,98997,2021-04-01,0.0,0.0


In [20]:
base_comportamiento_final.to_csv('base_comportamiento_final.csv',index=False)

In [9]:
#En esta base, al no coincidir _id2_ con los de la otra tabla principal o de comportamiento, tendríamos que 
#trabajarla por separado (de ser el caso que la quisieramos tomar en cuenta)

base_inversion=pd.read_csv('base_inversion.txt', sep=' ')
base_inversion

Unnamed: 0,_id2_,inversion
0,1758511,0.041039
1,1572947,77.422135
2,1051836,90.539953
3,1223255,90.205018
4,1894602,1.071354
...,...,...
17531,907442,2.660128
17532,231978,65.614854
17533,794742,25.169510
17534,209898,730.952882


Críterio de clasificación:


Ahora que ya tenemos nuestras bases de datos limpiadas, ordenadas según nuestros críterios, es momento de pensar como se va clasificar los nuevos clientes (pasa o no su crédito). Conforme pasan los años es más sencillo de obtener créditos, un ejemplo de esto es más común en años recientes obtener tarjetas de crédito en tiendas de tipo Coppel, Elektra, Liverpool, así como los financiamientos más accesibles para automoviles, fechas de inyección monetaría (Buen fin por ejemplo) entre muchos otros ejemplos. 

Se propone un análisis únicamente de datos del 2018 al 2021, esto pues son los años más cercanos al actual, como los salarios cambian por año, la inflación, cuestiones socio-políticas que podrían influir en otras variables más que no estamos considerando, tomar en cuenta datos viejos podrían no ser lo más óptimo. 

In [19]:
#Filtración de la base de datos por años, así como un análisis descrpitivo de cada variable numérica, se debe hacer
#una aclaración que no debemos analizar _id_ e _id2_, pues son los identificadores

base_final=base_final[(base_final['fecha_inicio']>='2018-01-01')&(base_final['fecha_inicio']<='2021-12-31')]
base_final

Unnamed: 0,_id_,fecha_inicio,comp_interno1,comp_interno2,comp_interno3,comp_interno4,categoria1,categoria2,categoria3,_id2_,comp_mixto1,comp_externo1,comp_externo2,comp_externo3,comp_externo4
4,68389,2019-07-30,2026.342452,b'1',1.0,67.0,2.0,9.0,146.0,1572947,0.27318,276.811594,27.434645,125.0,-230.0
5,45732,2018-07-27,3546.099291,b'1',15.0,70.0,1.0,9.0,160.0,1051836,0.32988,640.579710,63.487504,81.0,-230.0
9,53185,2018-09-07,759.878419,b'1',23.0,58.0,1.0,9.0,168.0,1223255,0.37000,200.000000,19.821890,109.0,-230.0
12,86932,2020-09-21,2532.928065,b'1',26.0,59.0,3.0,9.0,171.0,1999436,0.33008,420.289855,41.654697,118.0,-230.0
18,59588,2019-01-29,709.219858,b'0',22.0,45.0,1.0,9.0,167.0,1370524,0.31112,507.246377,50.272910,117.0,-230.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49960,70124,2020-02-04,2532.928065,b'1',28.0,44.0,1.0,6.0,173.0,1612852,0.38000,118.840580,11.778225,74.0,-230.0
49965,70838,2019-12-06,8105.369807,b'0',15.0,58.0,3.0,9.0,160.0,1629274,0.24440,501.449275,49.698363,120.0,-230.0
49966,81469,2020-06-23,5761.904762,b'1',19.0,53.0,3.0,3.0,164.0,1873787,0.26000,2857.553623,161.447860,47.0,-230.0
49980,73174,2020-02-19,3546.099291,b'1',19.0,75.0,3.0,9.0,164.0,1683002,0.35932,1666.086957,165.124964,108.0,-230.0


In [20]:
base_final.describe()

Unnamed: 0,_id_,comp_interno1,comp_interno3,comp_interno4,categoria1,categoria2,categoria3,_id2_,comp_mixto1,comp_externo1,comp_externo2,comp_externo3,comp_externo4
count,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0,9959.0
mean,67706.100311,3284.101031,15.599056,59.081032,1.892559,7.807109,160.599056,1557240.0,0.337489,563.354546,43.777475,93.056532,-229.935234
std,17778.389174,8692.685673,8.881062,10.016444,0.936047,2.202822,8.881062,408903.0,0.038716,4482.979137,47.264385,45.538371,0.247345
min,1435.0,9.1e-05,1.0,27.0,1.0,1.0,146.0,33005.0,0.20916,0.002899,0.000287,-608.0,-230.0
25%,52518.0,1013.171226,9.0,51.0,1.0,6.0,154.0,1207914.0,0.31337,172.608696,14.176961,76.0,-230.0
50%,67571.0,1519.756839,16.0,59.0,2.0,9.0,161.0,1554133.0,0.34878,353.623188,28.727377,103.0,-230.0
75%,82934.5,3039.513678,22.0,68.0,3.0,9.0,167.0,1907494.0,0.36992,668.695652,57.454754,121.0,-230.0
max,98988.0,329483.282675,32.0,76.0,6.0,13.0,177.0,2276724.0,0.39,443180.730435,861.821316,159.0,-228.0


In [23]:
base_inversion.describe()

Unnamed: 0,_id2_,inversion
count,17536.0,17536.0
mean,1068435.0,185.947907
std,667196.4,959.300995
min,23.0,1.2e-05
25%,483264.5,6.089411
50%,1024800.0,28.605572
75%,1611162.0,133.862728
max,2276816.0,95052.396733


In [25]:
base_comportamiento_final=base_comportamiento_final[(base_comportamiento_final['mes_informacion']>='2018-01-01') & 
                                                    (base_comportamiento_final['mes_informacion']<='2021-12-31')]
base_comportamiento_final

Unnamed: 0,num_caso,mes_informacion,Tiempo_aparicion,comportamiento_j
21,1,2018-01-01,21.0,0.0
22,1,2018-02-01,22.0,0.0
23,1,2018-03-01,23.0,0.0
24,1,2018-04-01,24.0,0.0
25,1,2018-05-01,25.0,0.0
...,...,...,...,...
1455531,98990,2021-05-01,1.0,0.0
1455532,98992,2021-04-01,0.0,0.0
1455533,98992,2021-05-01,1.0,0.0
1455534,98997,2021-04-01,0.0,0.0


Entonces si un cliente viene por un crédito, una forma rápida de dar una conclusión podría ser que cuando proporcione sus respectivos datos (comp_interno1-2-3-4, categorias1-2-3, etc, etc), permanezca dentro del promedio de cada uno de estos (por eso usamos la función describe, para obtener información rápida de la base de datos). De igual forma con la base de inversión "base_inversion", si está dentro del promedio, podría ser un buen prospecto para crédito. Para la base "base_comportamiento_final", como está trabajando más bien con datos sobre si ya pagó cuantos meses ha pagado y demás, sería útil solo en caso de que ya hubiera pedido un crédito antes en dicho banco, por lo que no necesariamente la podremos utilizar.