#### Prueba Técnica Científico/a de Datos
##### PLAN PARA EL DESARROLLO DE MODELO

1. Explorar y Analizar los Datos
2. Preprocesamiento de Datos
3. Dividir en Conjuntos de Entrenamiento y Prueba
4. Entrenar y evaluar el Modelos

Desarrollado por: Juan Manuel Peñaloza / Fecha: Abril 27 de 2025

#### 1. Explorar y Analizar los Datos

In [25]:
#importar las libnerias que se van a uitilizar para explorar y analizar los datos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
from unidecode import unidecode
from typing import Union

import scipy.stats as stats
from scipy.stats import chi2_contingency

#### Base de datos del test

In [2]:
# Lectura de la base de datos
test = pd.read_csv("test.csv",encoding="latin1",sep=';')
train = pd.read_csv("train.csv",encoding="latin1",sep=';')


In [3]:
# descripción de la base de datos
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5001 entries, 0 to 5000
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  5001 non-null   int64  
 1   Fecha.Expedicion    5001 non-null   object 
 2   Cancelacion         137 non-null    object 
 3   Gestionable         137 non-null    object 
 4   TIPO                137 non-null    object 
 5   ANO_MES             137 non-null    float64
 6   Fecha.Proceso       5001 non-null   object 
 7   Disponible.Avances  5001 non-null   object 
 8   Limite.Avances      5001 non-null   object 
 9   Total.Intereses     5001 non-null   object 
 10  Saldos.Mes.Ant      5001 non-null   object 
 11  Pagos.Mes.Ant       5001 non-null   object 
 12  Vtas.Mes.Ant        5001 non-null   object 
 13  Edad.Mora           5001 non-null   int64  
 14  Limite.Cupo         5001 non-null   object 
 15  Pago.del.Mes        5001 non-null   object 
 16  Pago.M

In [4]:
test.head()

Unnamed: 0,id,Fecha.Expedicion,Cancelacion,Gestionable,TIPO,ANO_MES,Fecha.Proceso,Disponible.Avances,Limite.Avances,Total.Intereses,Saldos.Mes.Ant,Pagos.Mes.Ant,Vtas.Mes.Ant,Edad.Mora,Limite.Cupo,Pago.del.Mes,Pago.Minimo,Vr.Mora,Vr.Cuota.Manejo,Saldo
0,50002,14/06/2007,,,,,1/04/2018,150 000.00,150 000.00,0,0,0,0,0,500 000.00,0,0,0,0,0
1,50003,18/09/2007,,,,,1/04/2018,150 000.00,150 000.00,0,0,0,0,0,500 000.00,0,0,0,0,0
2,50004,12/04/2007,,,,,1/04/2018,540 000.00,540 000.00,0,0,0,0,0,1 350 000.00,0,0,0,0,0
3,50005,17/11/2006,,,,,1/04/2018,252 000.00,252 000.00,0,0,0,0,0,840 000.00,0,0,0,0,0
4,50006,31/01/2007,,,,,1/04/2018,760 000.00,760 000.00,0,0,0,0,0,1 900 000.00,0,0,0,0,0


### Base de datos del entrenamiento

In [5]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50001 entries, 0 to 50000
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  50001 non-null  int64  
 1   Fecha.Expedicion    50001 non-null  object 
 2   Cancelacion         1412 non-null   object 
 3   Gestionable         1412 non-null   object 
 4   Retencion           1412 non-null   object 
 5   TIPO                1412 non-null   object 
 6   ANO_MES             1412 non-null   float64
 7   Target              50001 non-null  int64  
 8   Fecha.Proceso       50001 non-null  object 
 9   Disponible.Avances  50001 non-null  object 
 10  Limite.Avances      50001 non-null  object 
 11  Total.Intereses     50001 non-null  object 
 12  Saldos.Mes.Ant      50001 non-null  object 
 13  Pagos.Mes.Ant       50001 non-null  object 
 14  Vtas.Mes.Ant        50001 non-null  object 
 15  Edad.Mora           50001 non-null  int64  
 16  Limi

In [6]:
train.head()

Unnamed: 0,id,Fecha.Expedicion,Cancelacion,Gestionable,Retencion,TIPO,ANO_MES,Target,Fecha.Proceso,Disponible.Avances,...,Saldos.Mes.Ant,Pagos.Mes.Ant,Vtas.Mes.Ant,Edad.Mora,Limite.Cupo,Pago.del.Mes,Pago.Minimo,Vr.Mora,Vr.Cuota.Manejo,Saldo
0,1,4/11/2006,,,,,,0,1/04/2018,1 050 000.00,...,0,0,0,0,2 625 000.00,0,0,0,0,0
1,2,17/08/2007,,,,,,0,1/04/2018,1 180 000.00,...,0,0,0,0,2 950 000.00,0,0,0,0,0
2,3,8/05/2008,,,,,,0,1/04/2018,150 000.00,...,0,0,0,0,500 000.00,0,0,0,0,0
3,4,21/12/2006,,,,,,0,1/04/2018,680 000.00,...,0,0,0,0,1 700 000.00,0,0,0,0,0
4,5,13/09/2007,,,,,,0,1/04/2018,3 307 500.00,...,0,0,0,0,6 615 000.00,0,0,0,0,0


In [7]:
def limpiar_texto(texto):
    if pd.isna(texto):
        return texto
    # Pasar a minúsculas
    texto = texto.lower()
    # Quitar tildes
    texto = unidecode(texto)
    # Quitar caracteres especiales (dejar solo letras y espacios)
    texto = re.sub(r'[^a-z\s]', '', texto)
    # Quitar espacios extra
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

In [8]:
train['Cancelacion1'] =train['Cancelacion'].apply(limpiar_texto)
train['Cancelacion1'].value_counts(dropna=False)

Cancelacion1
NaN                                                                       48589
capacidad de endeudamiento para pago a otro credito hipotecario             303
cuota de manejo                                                             271
amparadano desea recibir el cupo                                            152
inconformidad del producto                                                  140
no lo utiliza                                                               110
retiro de la caja empresa                                                    75
no desea tener mas creditos                                                  68
se va del paisciudad donde no tenemos presencia colsubsidio                  48
no necesita el producto                                                      45
capacidad de pago                                                            31
capacidad de endeudamiento para pago a otro credito libre inversion          24
se va del pais             

In [9]:
train['Gestionable1'] =train['Gestionable'].apply(limpiar_texto)
train['Gestionable1'].value_counts(dropna=False)

Gestionable1
NaN               48589
gestionable         752
no gestionable      660
Name: count, dtype: int64

In [15]:
train['Retencion1'] =train['Retencion'].apply(limpiar_texto)
train['Retencion1'].value_counts(dropna=False)

Retencion1
NaN            48589
no efectiva     1239
efectiva         173
Name: count, dtype: int64

In [18]:
# Variable TIPO 
train['TIPO1'] =train['TIPO'].apply(limpiar_texto)
train['TIPO1'].value_counts(dropna=False)

TIPO1
NaN       48589
cupo       1106
amparo      306
Name: count, dtype: int64

In [20]:
train['ANO_MES'].value_counts(dropna=False)        

ANO_MES
NaN         48589
201712.0      181
201701.0      157
201707.0      116
201708.0      102
201702.0       98
201705.0       95
201711.0       92
201703.0       89
201706.0       86
201710.0       84
201709.0       83
201704.0       81
201803.0       77
201802.0       71
Name: count, dtype: int64

In [22]:
train['Target'].value_counts(dropna=False)                 

Target
0    48589
1     1412
Name: count, dtype: int64

In [23]:
train['Fecha.Proceso'].value_counts(dropna=False)         

Fecha.Proceso
1/04/2018     48589
1/01/2017       157
1/07/2017       116
1/08/2017       102
1/02/2017        98
1/05/2017        95
1/11/2017        92
1/12/2017        92
1/03/2017        89
31/12/2017       89
1/06/2017        86
1/10/2017        84
1/09/2017        83
1/04/2017        81
1/03/2018        77
1/02/2018        71
Name: count, dtype: int64

In [28]:
#se define una función para ajustar las variables en la base se datos.

def limpiar_a_float(serie: pd.Series) -> pd.Series:
    """
    Limpia una serie de texto y la convierte a float.
    - Quita espacios iniciales/finales e internos
    - Cambia comas por puntos decimales
    - Elimina caracteres que no sean números, punto o signo
    - Maneja valores nulos correctamente
    """
    return (
        serie
        .astype(str)  # Convertir todo a string temporalmente
        .str.strip()  # Quitar espacios iniciales y finales
        .str.replace(" ", "", regex=False)  # Quitar espacios internos
        .str.replace(",", ".", regex=False)  # Coma -> punto decimal
        .apply(lambda x: re.sub(r"[^0-9\.\-]", "", x))  # Solo números, punto y signo
        .replace({"": None, "nan": None})  # Vacíos o "nan" -> NaN real
        .astype(float)  # Convertir a float
    )

In [31]:
#Se aplica limpieza a la variable Avances y se mira 
train['Disponible.Avances1']= limpiar_a_float(train['Disponible.Avances'])  
train[['Disponible.Avances1','Disponible.Avances']].sample(n=15, random_state=42)

Unnamed: 0,Disponible.Avances1,Disponible.Avances
33553,285000.0,285 000.00
9427,0.0,0
199,0.0,0
12447,150000.0,150 000.00
39489,1620000.0,1 620 000.00
42725,0.0,0
10822,120000.0,120 000.00
49499,45000.0,45 000.00
4144,90000.0,90 000.00
36958,0.0,0


In [37]:
pd.set_option('display.float_format', '{:,.0f}'.format)
train['Disponible.Avances1'].describe()

count       50,001
mean       380,980
std        707,450
min              0
25%         67,929
50%        165,000
75%        389,392
max     16,500,000
Name: Disponible.Avances1, dtype: float64

In [38]:
#Se aplica limpieza a la variable Limite avances 
train['Limite.Avances1']= limpiar_a_float(train['Limite.Avances'])  
train[['Limite.Avances1','Limite.Avances']].sample(n=15, random_state=42)

Unnamed: 0,Limite.Avances1,Limite.Avances
33553,285000,285 000.00
9427,255000,255 000.00
199,600000,600 000.00
12447,150000,150 000.00
39489,1620000,1 620 000.00
42725,225000,225 000.00
10822,120000,120 000.00
49499,45000,45 000.00
4144,90000,90 000.00
36958,150000,150 000.00


In [39]:
train['Limite.Avances1'].describe()

count       50,001
mean       476,358
std        732,455
min         45,000
25%        150,000
50%        225,000
75%        512,000
max     16,500,000
Name: Limite.Avances1, dtype: float64

In [42]:
#Se aplica limpieza a la variable Limite avances 
train['Total.Intereses1']= limpiar_a_float(train['Total.Intereses'])  
train[['Total.Intereses1','Total.Intereses']].sample(n=15, random_state=42)

Unnamed: 0,Total.Intereses1,Total.Intereses
33553,0,0
9427,664356,664 355.67
199,15814,15 814.47
12447,0,0
39489,0,0
42725,70921,70 921.15
10822,0,0
49499,0,0
4144,0,0
36958,29629,29 629.33


In [43]:
train['Total.Intereses1'].describe()

count      50,001
mean       26,637
std       114,060
min             0
25%             0
50%             0
75%         8,053
max     4,529,165
Name: Total.Intereses1, dtype: float64

In [44]:
#Se aplica limpieza a la variable Limite avances 
train['Saldos.Mes.Ant1']= limpiar_a_float(train['Saldos.Mes.Ant'])  
train[['Saldos.Mes.Ant1','Saldos.Mes.Ant']].sample(n=15, random_state=42)

Unnamed: 0,Saldos.Mes.Ant1,Saldos.Mes.Ant
33553,0,0
9427,1964245,1 964 244.51
199,2253989,2 253 988.60
12447,0,0
39489,0,0
42725,1868876,1 868 876.36
10822,0,0
49499,0,0
4144,0,0
36958,506833,506 833.38


In [45]:
train['Saldos.Mes.Ant1'].describe()

count       50,001
mean       341,608
std        716,944
min              0
25%              0
50%              1
75%        501,724
max     18,927,684
Name: Saldos.Mes.Ant1, dtype: float64

In [48]:
 #Se aplica limpieza a la variable Limite avances 
train['Pagos.Mes.Ant1']= limpiar_a_float(train['Pagos.Mes.Ant'])  
train[['Pagos.Mes.Ant1','Pagos.Mes.Ant']].sample(n=15, random_state=42)


Unnamed: 0,Pagos.Mes.Ant1,Pagos.Mes.Ant
33553,0,0
9427,0,0
199,0,0
12447,0,0
39489,0,0
42725,0,0
10822,0,0
49499,0,0
4144,0,0
36958,0,0


In [49]:
train['Pagos.Mes.Ant1'].describe()

count       50,001
mean        39,982
std        196,189
min              0
25%              0
50%              0
75%          4,948
max     13,875,000
Name: Pagos.Mes.Ant1, dtype: float64

In [8]:
train_test_demograficas = pd.read_excel("train_test_demograficas.xlsx")
train_test_subsidios = pd.read_excel("train_test_subsidios.xlsx")

In [9]:
train_test_demograficas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55002 entries, 0 to 55001
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               55002 non-null  int64  
 1   categoria        55002 non-null  object 
 2   segmento         55002 non-null  object 
 3   edad             55002 non-null  int64  
 4   nivel_educativo  55002 non-null  object 
 5   estado_civil     55002 non-null  object 
 6   Genero           55002 non-null  object 
 7   PAC              55002 non-null  int64  
 8   contrato         55002 non-null  int64  
 9   estrato          4418 non-null   float64
dtypes: float64(1), int64(4), object(5)
memory usage: 4.2+ MB


In [12]:
train_test_demograficas.head()

Unnamed: 0,id,categoria,segmento,edad,nivel_educativo,estado_civil,Genero,PAC,contrato,estrato
0,1,B,Segmento_Medio,31,tecnico_tecnologico,soltero,F,1,4,
1,2,C,Segmento_Medio,38,tecnico_tecnologico,soltero,M,1,1,
2,3,A,Segemnto_Basico,42,primaria,soltero,M,3,3,
3,4,B,Segmento_Medio,60,tecnico_tecnologico,soltero,M,1,4,
4,5,C,Segmento_Alto,27,tecnico_tecnologico,separado,M,1,1,


In [10]:
train_test_subsidios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55002 entries, 0 to 55001
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   id               55002 non-null  int64
 1   cuota_monetaria  55002 non-null  int64
 2   sub_vivenda      55002 non-null  int64
 3   bono_lonchera    55002 non-null  int64
dtypes: int64(4)
memory usage: 1.7 MB


In [13]:
train_test_subsidios.head()

Unnamed: 0,id,cuota_monetaria,sub_vivenda,bono_lonchera
0,1,0,0,0
1,2,0,0,0
2,3,1,0,1
3,4,0,0,0
4,5,0,0,0
