In [2]:
import os
import pandas as pd
from dotenv import load_dotenv
import kagglehub


  from .autonotebook import tqdm as notebook_tqdm


In [3]:
load_dotenv()

dataset_path = kagglehub.dataset_download("luishcaldernb/morosidad")
csv_path = os.path.join(dataset_path, "data.csv")
df = pd.read_csv(csv_path)

| N°  | Variable     | Descripción                                                                                                                                  |
|-----:|--------------|----------------------------------------------------------------------------------------------------------------------------------------------|
| 1   | Mora         | Morosidad del cliente: {0: paga al día, 1: cliente moroso}                                                                                    |
| 2   | Atraso       | Atraso histórico del cliente en días.                                                                                                         |
| 3   | Vivienda     | Tipo de vivienda del cliente. Es categórica                                                                                                   |
| 4   | Edad         | Edad del cliente.                                                                                                                             |
| 5   | Días_lab     | Días laborados en su actual empleo.                                                                                                           |
| 6   | Exp_sf       | Meses con experiencia en el sistema financiero, es decir el número de meses que tiene el cliente desde que adquirió algún producto financiero. |
| 7   | Nivel_ahorro | Índice del nivel de ahorro del cliente: {0: no tiene ahorros, 12: alto nivel de ahorros}                                                      |
| 8   | Ingreso      | Ingresos del cliente.                                                                                                                         |
| 9   | Línea_sf     | Línea de crédito en el sistema financiero que el cliente tiene disponible.                                                                    |
| 10  | Deuda_sf     | Deuda del cliente en el sistema financiero.                                                                                                   |
| 11  | Score        | Calificación crediticia del cliente. Mientras mayor es el score, mejor perfil crediticio tiene el cliente.                                    |
| 12  | Zona         | Departamento de residencia del cliente.                                                                                                       |
| 13  | Clasif_sbs   | Clasificación SBS. Mientras mayor es el número, peor clasificación tiene el cliente: {0: normal, 1: con problemas potenciales, 2: deficiente, 3: dudoso, 4: pérdida} |
| 14  | Nivel_educ   | Nivel educativo máximo alcanzado.                                                                                                             |


In [4]:
df.isnull().sum()  # Verifica se há valores ausentes


mora               0
atraso             0
vivienda           0
edad               0
dias_lab           0
exp_sf          1830
nivel_ahorro       0
ingreso            0
linea_sf        1127
deuda_sf         461
score              0
zona               0
clasif_sbs         0
nivel_educ         0
dtype: int64

In [5]:
df.exp_sf

0        93.0
1         9.0
2         8.0
3        20.0
4         NaN
        ...  
8394    106.0
8395     25.0
8396     19.0
8397      7.0
8398     51.0
Name: exp_sf, Length: 8399, dtype: float64

In [6]:
#Imputamos los valores de la columna exp_sf con la media de la columna
df['exp_sf'].fillna(df['exp_sf'].mean(), inplace=True) #Reeplaza poniendo inplace=True
#Count of null values of all the database
df.isnull().sum()

mora               0
atraso             0
vivienda           0
edad               0
dias_lab           0
exp_sf             0
nivel_ahorro       0
ingreso            0
linea_sf        1127
deuda_sf         461
score              0
zona               0
clasif_sbs         0
nivel_educ         0
dtype: int64

In [7]:
# We drop the rows of the column linea_sf that have null values
#Hacemos un drop de las filas de la columna linea_sf que tengan valores nulos
#df.dropna(subset=['linea_sf'], inplace=True) #Reeplaza poniendo inplace=True
df.dropna(subset=['linea_sf'], inplace=True)
df.shape

(7272, 14)

In [8]:
df.isnull().sum()

mora              0
atraso            0
vivienda          0
edad              0
dias_lab          0
exp_sf            0
nivel_ahorro      0
ingreso           0
linea_sf          0
deuda_sf        330
score             0
zona              0
clasif_sbs        0
nivel_educ        0
dtype: int64

In [9]:
# We drop the rows of the column deuda_sf that have null values as the min is 0 and max is 57094.380000
df.dropna(subset=['deuda_sf'], inplace=True)
df.isnull().sum()
df.shape

(6942, 14)

In [10]:
# We show the categories of the column vivienda and nivel_educ
print(df['vivienda'].unique())  # Mostramos los valores únicos de la columna deuda_sf
print(df['nivel_educ'].unique())  # Mostramos los valores únicos de la columna deuda_sf

['FAMILIAR' 'PROPIA' 'ALQUILADA']
['TECNICA' 'UNIVERSITARIA' 'SECUNDARIA' 'SIN EDUCACION']


In [11]:
df.columns

Index(['mora', 'atraso', 'vivienda', 'edad', 'dias_lab', 'exp_sf',
       'nivel_ahorro', 'ingreso', 'linea_sf', 'deuda_sf', 'score', 'zona',
       'clasif_sbs', 'nivel_educ'],
      dtype='object')

In [12]:
## Tus datos de ejemplo
#df = pd.DataFrame({'nivel_educativo': ['TECNICA', 'UNIVERSITARIA', 'SECUNDARIA', 'SIN EDUCACION', 'TECNICA']})
# Aplicar One-Hot Encoding
#df_encoded = pd.get_dummies(df, columns=['nivel_educativo']) print(df_encoded)


# We do One-Hot Encoding of the columns vivienda and nivel_educ
#df = pd.get_dummies(df, columns=['vivienda', 'nivel_educ'], drop_first=True)
final_df = pd.get_dummies(df, columns=['vivienda','nivel_educ'], drop_first=False)


In [13]:
print(final_df['zona'].value_counts())

zona
Lima             4256
Callao            415
La Libertad       364
Arequipa          293
Lambayeque        253
Ica               226
Piura             217
Junin             183
Ancash            168
Cajamarca         138
Loreto             90
Cuzco              72
Ucayali            64
Moquegua           38
San Martin         33
Huanuco            27
Pasco              25
Tacna              24
Puno               18
Ayacucho           15
Tumbes             13
Apurimac            5
Madre de Dios       4
Amazonas            1
Name: count, dtype: int64


y = final_df['mora]

In [14]:
# melhor dropar zona
final_df = final_df.drop('zona', axis=1)

In [15]:
final_df.columns

Index(['mora', 'atraso', 'edad', 'dias_lab', 'exp_sf', 'nivel_ahorro',
       'ingreso', 'linea_sf', 'deuda_sf', 'score', 'clasif_sbs',
       'vivienda_ALQUILADA', 'vivienda_FAMILIAR', 'vivienda_PROPIA',
       'nivel_educ_SECUNDARIA', 'nivel_educ_SIN EDUCACION',
       'nivel_educ_TECNICA', 'nivel_educ_UNIVERSITARIA'],
      dtype='object')

In [16]:
# Change the name of the columns vivienda ... and nivel_educ ...
#df2.rename(columns={'vivienda_1': 'vivienda_propietario', 'vivienda_2': 'vivienda_alquilado', 'nivel_educ_1': 'nivel_educ_secundaria', 'nivel_educ_2': 'nivel_educ_tecnica', 'nivel_educ_3': 'nivel_educ_universitaria', 'nivel_educ_4': 'nivel_educ_sin_educacion'}, inplace=True)


final_df = final_df.rename(columns={'vivienda_ALQUILADA': 'v_alquilado', 'vivienda_FAMILIAR': 'v_familiar', 'vivienda_PROPIA': 'v_propietario', 'nivel_educ_SECUNDARIA': 'neduc_secundaria', 'nivel_educ_SIN EDUCACION': 'neduc_sin_educacion', 'nivel_educ_TECNICA': 'neduc_tecnica', 'nivel_educ_UNIVERSITARIA': 'neduc_universitaria'})
final_df.columns

Index(['mora', 'atraso', 'edad', 'dias_lab', 'exp_sf', 'nivel_ahorro',
       'ingreso', 'linea_sf', 'deuda_sf', 'score', 'clasif_sbs', 'v_alquilado',
       'v_familiar', 'v_propietario', 'neduc_secundaria',
       'neduc_sin_educacion', 'neduc_tecnica', 'neduc_universitaria'],
      dtype='object')

In [17]:
final_df.head()

Unnamed: 0,mora,atraso,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,clasif_sbs,v_alquilado,v_familiar,v_propietario,neduc_secundaria,neduc_sin_educacion,neduc_tecnica,neduc_universitaria
1,0,18,32,4598,9.0,12,900.0,1824.67,1933.75,175,1,False,True,False,False,False,True,False
2,0,0,26,5148,8.0,2,2400.0,2797.38,188.29,187,0,False,True,False,False,False,False,True
4,0,0,46,3960,32.401583,1,3100.0,2000.0,11010.65,189,0,False,True,False,False,False,True,False
5,0,22,25,4874,9.0,12,2200.0,449.92,496.58,220,0,False,True,False,False,False,False,True
6,0,9,30,3930,12.0,8,2100.0,4827.64,850.21,193,0,False,True,False,False,False,False,True


In [18]:
final_df.to_csv('../assets/processed_data.csv', index=False)