In [1]:
import os
import pandas as pd
from dotenv import load_dotenv
import kagglehub


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
load_dotenv()

dataset_path = kagglehub.dataset_download("luishcaldernb/morosidad")
csv_path = os.path.join(dataset_path, "data.csv")
df = pd.read_csv(csv_path)

In [3]:
print(os.listdir(dataset_path))  # Mostra os arquivos baixados

['data.csv']


| N°  | Variable     | Descripción                                                                                                                                  |
|-----:|--------------|----------------------------------------------------------------------------------------------------------------------------------------------|
| 1   | Mora         | Morosidad del cliente: {0: paga al día, 1: cliente moroso}                                                                                    |
| 2   | Atraso       | Atraso histórico del cliente en días.                                                                                                         |
| 3   | Vivienda     | Tipo de vivienda del cliente. Es categórica                                                                                                   |
| 4   | Edad         | Edad del cliente.                                                                                                                             |
| 5   | Días_lab     | Días laborados en su actual empleo.                                                                                                           |
| 6   | Exp_sf       | Meses con experiencia en el sistema financiero, es decir el número de meses que tiene el cliente desde que adquirió algún producto financiero. |
| 7   | Nivel_ahorro | Índice del nivel de ahorro del cliente: {0: no tiene ahorros, 12: alto nivel de ahorros}                                                      |
| 8   | Ingreso      | Ingresos del cliente.                                                                                                                         |
| 9   | Línea_sf     | Línea de crédito en el sistema financiero que el cliente tiene disponible.                                                                    |
| 10  | Deuda_sf     | Deuda del cliente en el sistema financiero.                                                                                                   |
| 11  | Score        | Calificación crediticia del cliente. Mientras mayor es el score, mejor perfil crediticio tiene el cliente.                                    |
| 12  | Zona         | Departamento de residencia del cliente.                                                                                                       |
| 13  | Clasif_sbs   | Clasificación SBS. Mientras mayor es el número, peor clasificación tiene el cliente: {0: normal, 1: con problemas potenciales, 2: deficiente, 3: dudoso, 4: pérdida} |
| 14  | Nivel_educ   | Nivel educativo máximo alcanzado.                                                                                                             |


In [4]:
df


Unnamed: 0,mora,atraso,vivienda,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,zona,clasif_sbs,nivel_educ
0,0,235,FAMILIAR,30,3748,93.0,5,3500.00,,0.00,214,Lima,4,UNIVERSITARIA
1,0,18,FAMILIAR,32,4598,9.0,12,900.00,1824.67,1933.75,175,La Libertad,1,TECNICA
2,0,0,FAMILIAR,26,5148,8.0,2,2400.00,2797.38,188.29,187,Lima,0,UNIVERSITARIA
3,0,0,FAMILIAR,36,5179,20.0,12,2700.00,,0.00,187,Ancash,0,TECNICA
4,0,0,FAMILIAR,46,3960,,1,3100.00,2000.00,11010.65,189,Lima,0,TECNICA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8394,0,0,PROPIA,43,7917,106.0,12,13660.00,121543.40,8338.46,224,Lima,1,UNIVERSITARIA
8395,1,0,FAMILIAR,29,3352,25.0,0,813.00,2200.00,0.00,197,Lima,1,UNIVERSITARIA
8396,0,0,FAMILIAR,32,6821,19.0,12,3000.00,10087.00,933.68,200,Lima,1,UNIVERSITARIA
8397,1,0,PROPIA,38,3882,7.0,12,3069.23,23994.00,13954.65,221,Lambayeque,1,UNIVERSITARIA


In [5]:
df.describe()  # Mostra as estatísticas descritivas do DataFrame


Unnamed: 0,mora,atraso,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,clasif_sbs
count,8399.0,8399.0,8399.0,8399.0,6569.0,8399.0,8399.0,7272.0,7938.0,8399.0,8399.0
mean,0.704251,4.46315,36.399095,5555.888796,32.401583,10.593166,4350.406997,11987.241038,6110.724308,196.619955,0.563519
std,0.456406,14.27084,9.825764,2153.24414,32.866232,3.374619,5367.058953,21322.801655,11177.989799,19.544348,0.905637
min,0.0,0.0,20.0,2956.0,0.0,0.0,123.7,0.0,0.0,134.0,0.0
25%,0.0,0.0,29.0,4174.0,7.0,12.0,1366.67,1169.3725,478.32,182.0,0.0
50%,1.0,0.0,34.0,4904.0,20.0,12.0,2400.0,4030.12,2258.755,197.0,0.0
75%,1.0,2.0,42.0,6182.0,51.0,12.0,4900.0,12086.6275,5755.15,212.0,1.0
max,1.0,245.0,85.0,20700.0,130.0,12.0,30000.0,121543.4,57094.38,266.0,4.0


In [6]:
df.isnull().sum()  # Verifica se há valores ausentes


mora               0
atraso             0
vivienda           0
edad               0
dias_lab           0
exp_sf          1830
nivel_ahorro       0
ingreso            0
linea_sf        1127
deuda_sf         461
score              0
zona               0
clasif_sbs         0
nivel_educ         0
dtype: int64

In [7]:
df.exp_sf

0        93.0
1         9.0
2         8.0
3        20.0
4         NaN
        ...  
8394    106.0
8395     25.0
8396     19.0
8397      7.0
8398     51.0
Name: exp_sf, Length: 8399, dtype: float64

In [8]:
#Imputamos los valores de la columna exp_sf con la media de la columna
df['exp_sf'].fillna(df['exp_sf'].mean(), inplace=True) #Reeplaza poniendo inplace=True
#Count of null values of all the database
df.isnull().sum()

mora               0
atraso             0
vivienda           0
edad               0
dias_lab           0
exp_sf             0
nivel_ahorro       0
ingreso            0
linea_sf        1127
deuda_sf         461
score              0
zona               0
clasif_sbs         0
nivel_educ         0
dtype: int64

In [9]:
# We drop the rows of the column linea_sf that have null values
#Hacemos un drop de las filas de la columna linea_sf que tengan valores nulos
#df.dropna(subset=['linea_sf'], inplace=True) #Reeplaza poniendo inplace=True
df.dropna(subset=['linea_sf'], inplace=True)
df.shape

(7272, 14)

In [10]:
df.isnull().sum()

mora              0
atraso            0
vivienda          0
edad              0
dias_lab          0
exp_sf            0
nivel_ahorro      0
ingreso           0
linea_sf          0
deuda_sf        330
score             0
zona              0
clasif_sbs        0
nivel_educ        0
dtype: int64

In [11]:
# We drop the rows of the column deuda_sf that have null values as the min is 0 and max is 57094.380000
df.dropna(subset=['deuda_sf'], inplace=True)
df.isnull().sum()
df.shape

(6942, 14)

In [12]:
# We show the categories of the column vivienda and nivel_educ
print(df['vivienda'].unique())  # Mostramos los valores únicos de la columna deuda_sf
print(df['nivel_educ'].unique())  # Mostramos los valores únicos de la columna deuda_sf

['FAMILIAR' 'PROPIA' 'ALQUILADA']
['TECNICA' 'UNIVERSITARIA' 'SECUNDARIA' 'SIN EDUCACION']


In [13]:
df.columns

Index(['mora', 'atraso', 'vivienda', 'edad', 'dias_lab', 'exp_sf',
       'nivel_ahorro', 'ingreso', 'linea_sf', 'deuda_sf', 'score', 'zona',
       'clasif_sbs', 'nivel_educ'],
      dtype='object')

In [14]:
## Tus datos de ejemplo
#df = pd.DataFrame({'nivel_educativo': ['TECNICA', 'UNIVERSITARIA', 'SECUNDARIA', 'SIN EDUCACION', 'TECNICA']})
# Aplicar One-Hot Encoding
#df_encoded = pd.get_dummies(df, columns=['nivel_educativo']) print(df_encoded)


# We do One-Hot Encoding of the columns vivienda and nivel_educ
#df = pd.get_dummies(df, columns=['vivienda', 'nivel_educ'], drop_first=True)
df2 = pd.get_dummies(df, columns=['vivienda','nivel_educ'], drop_first=False)

In [15]:
df2.head(10)

Unnamed: 0,mora,atraso,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,zona,clasif_sbs,vivienda_ALQUILADA,vivienda_FAMILIAR,vivienda_PROPIA,nivel_educ_SECUNDARIA,nivel_educ_SIN EDUCACION,nivel_educ_TECNICA,nivel_educ_UNIVERSITARIA
1,0,18,32,4598,9.0,12,900.0,1824.67,1933.75,175,La Libertad,1,False,True,False,False,False,True,False
2,0,0,26,5148,8.0,2,2400.0,2797.38,188.29,187,Lima,0,False,True,False,False,False,False,True
4,0,0,46,3960,32.401583,1,3100.0,2000.0,11010.65,189,Lima,0,False,True,False,False,False,True,False
5,0,22,25,4874,9.0,12,2200.0,449.92,496.58,220,Lima,0,False,True,False,False,False,False,True
6,0,9,30,3930,12.0,8,2100.0,4827.64,850.21,193,Lima,0,False,True,False,False,False,False,True
7,0,8,55,4995,23.0,12,5593.21,10467.0,18620.8,199,Piura,0,False,False,True,False,False,True,False
8,0,2,30,5026,32.401583,0,2000.0,7315.41,0.0,156,Piura,0,False,True,False,False,False,False,True
10,0,0,26,4200,8.0,12,3929.72,6000.0,502.13,186,Loreto,0,False,True,False,False,False,True,False
11,0,0,50,4995,32.401583,2,6000.0,2802.74,19020.95,177,Junin,0,False,True,False,False,False,True,False
12,0,1,21,4315,12.0,12,1076.94,3900.0,3796.18,175,Lima,0,False,True,False,False,False,True,False


In [17]:
# Change the name of the columns vivienda ... and nivel_educ ...
#df2.rename(columns={'vivienda_1': 'vivienda_propietario', 'vivienda_2': 'vivienda_alquilado', 'nivel_educ_1': 'nivel_educ_secundaria', 'nivel_educ_2': 'nivel_educ_tecnica', 'nivel_educ_3': 'nivel_educ_universitaria', 'nivel_educ_4': 'nivel_educ_sin_educacion'}, inplace=True)
df2.rename(columns={'propio': 'vivienda_propietario', 'alquilado': 'vivienda_alquilado', 'secundaria': 'nivel_educ_secundaria', 'tecnica': 'nivel_educ_tecnica', 'universitaria': 'nivel_educ_universitaria', 'sin educacion': 'nivel_educ_sin_educacion'}, inplace=True)
df2.head(10)

Unnamed: 0,mora,atraso,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,zona,clasif_sbs,vivienda_ALQUILADA,vivienda_FAMILIAR,vivienda_PROPIA,nivel_educ_SECUNDARIA,nivel_educ_SIN EDUCACION,nivel_educ_TECNICA,nivel_educ_UNIVERSITARIA
1,0,18,32,4598,9.0,12,900.0,1824.67,1933.75,175,La Libertad,1,False,True,False,False,False,True,False
2,0,0,26,5148,8.0,2,2400.0,2797.38,188.29,187,Lima,0,False,True,False,False,False,False,True
4,0,0,46,3960,32.401583,1,3100.0,2000.0,11010.65,189,Lima,0,False,True,False,False,False,True,False
5,0,22,25,4874,9.0,12,2200.0,449.92,496.58,220,Lima,0,False,True,False,False,False,False,True
6,0,9,30,3930,12.0,8,2100.0,4827.64,850.21,193,Lima,0,False,True,False,False,False,False,True
7,0,8,55,4995,23.0,12,5593.21,10467.0,18620.8,199,Piura,0,False,False,True,False,False,True,False
8,0,2,30,5026,32.401583,0,2000.0,7315.41,0.0,156,Piura,0,False,True,False,False,False,False,True
10,0,0,26,4200,8.0,12,3929.72,6000.0,502.13,186,Loreto,0,False,True,False,False,False,True,False
11,0,0,50,4995,32.401583,2,6000.0,2802.74,19020.95,177,Junin,0,False,True,False,False,False,True,False
12,0,1,21,4315,12.0,12,1076.94,3900.0,3796.18,175,Lima,0,False,True,False,False,False,True,False
