# **1) Descripción del Problema**

Las amenazas financieras están mostrando una tendencia sobre el riesgo crediticio de los bancos comerciales a medida que ha surgido la increíble mejora en la industria financiera. De esta forma, una de las mayores amenazas a las que se enfrentan los bancos comerciales es la predicción del riesgo de los clientes de crédito.

Los estudios recientes se centran principalmente en mejorar el rendimiento del clasificador para la predicción de incumplimiento de tarjetas de crédito en lugar de un modelo interpretable

En los problemas de clasificación, un conjunto de datos desequilibrado también es crucial para mejorar el rendimiento del modelo porque la mayoría de los casos se encuentran en una clase y solo unos pocos ejemplos están en otras categorías

Objetivo General : Encontrar un modelo de clasificación y predicción para predecir el Default de Crédito para Bank of America

# **2) Depuración Datos**

## **2.1) Librerias**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option("display.max_columns",1000) ## Mil columnas
import os

In [2]:
os.getcwd()

'/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora'

In [3]:
os.chdir("/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora")

In [4]:
os.getcwd()
import utils

## **2.2) Importar Datos**

In [4]:
ruta="/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora/UCI_Credit_Card.csv"
ruta_github="https://raw.githubusercontent.com/Oscar19922017/ProyectoBancoAmerica/main/UCI_Credit_Card.csv"

In [5]:
df=pd.read_csv(ruta_github)

In [6]:
print(f'La base tiene {df.shape} filas y columnas')

La base tiene (30000, 25) filas y columnas


In [7]:
df.head(1)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1


## **2.3) Diccionario de Variables**

* ID : ID de cada cliente
* Monto_Credito : cantidad del crédito otorgado en dólares NT (incluye crédito individual y familiar / suplementario
* SEXO : Género (1 = masculino, 2 = femenino)
* EDUCACIÓN : (1 = posgrado, 2 = universidad, 3 = bachillerato, 4 = otros, 5 = desconocido, 6 = desconocido)
* MATRIMONIO : Estado civil (1 = casado, 2 = soltero, 3 = otros)
* EDAD : Edad en años
* PAY_0 : Estado de reembolso en septiembre de 2005 (-1 = pago debidamente, 1 = retraso en el pago durante un mes, 2 = retraso en el pago durante dos meses,… 8 = retraso en el pago durante ocho meses, 9 = retraso en el pago durante nueve meses o más)
* PAY_2 : Estado de reembolso en agosto de 2005 (escala igual a la anterior)
* PAY_3 : Estado de reembolso en julio de 2005 (escala igual a la anterior)
* PAY_4 : Estado de reembolso en junio de 2005 (escala igual a la anterior)
* PAY_5 : Estado de reembolso en mayo de 2005 (escala igual a la anterior)
* PAY_6 : Estado de reembolso en abril de 2005 (escala igual a la anterior)
* BILL_AMT1 : Monto del extracto de la factura en septiembre de 2005 (dólar NT)
* BILL_AMT2 : Monto del extracto de la factura en agosto de 2005 (dólar NT)
* BILL_AMT3 : Monto del extracto de la factura en julio de 2005 (dólar NT)
* BILL_AMT4 : Monto del extracto de la factura en junio de 2005 (dólar NT)
* BILL_AMT5 : Monto del extracto de la factura en mayo de 2005 (dólar NT)
* BILL_AMT6 : Monto del extracto de la factura en abril de 2005 (dólar NT)
* PAY_AMT1 : Monto del pago anterior en septiembre de 2005 (dólar NT)
* PAY_AMT2 : Monto del pago anterior en agosto de 2005 (dólar NT)
* PAY_AMT3 : Monto del pago anterior en julio de 2005 (dólar NT)
* PAY_AMT4 : Monto del pago anterior en junio de 2005 (dólar NT)
* PAY_AMT5 : Monto del pago anterior en mayo de 2005 (dólar NT)
* PAY_AMT6 : Monto del pago anterior en abril de 2005 (dólar NT)
* default.payment.next.month : pago predeterminado (1 = sí, 0 = no)


## **2.4) Renombrar Variables**

In [9]:
print(df.columns.tolist())

['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6', 'default.payment.next.month']


In [10]:
df.rename(columns={'LIMIT_BAL':"MontoCredito",'SEX':"Genero",'EDUCATION':"Educacion",
                   'MARRIAGE':"EstadoCivil", 'AGE':"Edad",'default.payment.next.month':"Mora"},inplace=True)

In [11]:
df.tail(2)

Unnamed: 0,ID,MontoCredito,Genero,Educacion,EstadoCivil,Edad,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,Mora
29998,29999,80000.0,1,3,1,41,1,-1,0,0,0,-1,-1645.0,78379.0,76304.0,52774.0,11855.0,48944.0,85900.0,3409.0,1178.0,1926.0,52964.0,1804.0,1
29999,30000,50000.0,1,2,1,46,0,0,0,0,0,0,47929.0,48905.0,49764.0,36535.0,32428.0,15313.0,2078.0,1800.0,1430.0,1000.0,1000.0,1000.0,1


In [12]:
print(df.columns.tolist())

['ID', 'MontoCredito', 'Genero', 'Educacion', 'EstadoCivil', 'Edad', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6', 'Mora']


## **2.5) Mapeo de Variables**
* Tipo de Datos
* Valores Nulos
* Conteo Valores únicos
* Valores únicos

In [13]:
Variables=df.columns.tolist()
print(len(Variables))

25


In [14]:
i=4

In [15]:
Variables[i]

'EstadoCivil'

In [16]:
df[Variables[i]].nunique()

4

In [17]:
df[Variables[i]].unique().tolist()

[1, 2, 3, 0]

In [18]:
df[Variables[i]].dtype

dtype('int64')

In [19]:
df[Variables[i]].isnull().sum()

0

**Bucle for**

El bucle for se utiliza para iterar sobre una secuencia (como una lista, tupla, rango, etc.) y ejecutar un bloque de código para cada elemento en esa secuencia.

In [20]:
for contador in range(5):
  print(contador)

0
1
2
3
4


In [21]:
## Iterar una lista
for elemento in Variables:
  print(elemento)

ID
MontoCredito
Genero
Educacion
EstadoCivil
Edad
PAY_0
PAY_2
PAY_3
PAY_4
PAY_5
PAY_6
BILL_AMT1
BILL_AMT2
BILL_AMT3
BILL_AMT4
BILL_AMT5
BILL_AMT6
PAY_AMT1
PAY_AMT2
PAY_AMT3
PAY_AMT4
PAY_AMT5
PAY_AMT6
Mora


In [22]:
## Iterar una lista por index


for posicion in range(len(Variables)):
  print(posicion)
  print(Variables[posicion])

0
ID
1
MontoCredito
2
Genero
3
Educacion
4
EstadoCivil
5
Edad
6
PAY_0
7
PAY_2
8
PAY_3
9
PAY_4
10
PAY_5
11
PAY_6
12
BILL_AMT1
13
BILL_AMT2
14
BILL_AMT3
15
BILL_AMT4
16
BILL_AMT5
17
BILL_AMT6
18
PAY_AMT1
19
PAY_AMT2
20
PAY_AMT3
21
PAY_AMT4
22
PAY_AMT5
23
PAY_AMT6
24
Mora


In [23]:
Mapo1=utils.MapearVariables(df)

**Funciones**

En Python, una función es un bloque de código reutilizable que realiza una tarea específica. Las funciones son una parte fundamental de la programación porque te permiten organizar tu código en bloques más pequeños y manejables, lo que hace que el código sea más legible, modular y fácil de mantener. En lugar de repetir el mismo conjunto de instrucciones cada vez que necesitas realizar una tarea, puedes definir una función una vez y luego llamarla cada vez que la necesites.




In [24]:
def sumar_2_numeros(x,y):
  resultado=x+y
  return resultado

In [25]:
sumar_2_numeros(1,9)

10

In [26]:
sumar_2_numeros(1,19)

20

In [27]:
Mapo1

Unnamed: 0,Variable,TipoDato,CatUnicos,VectorUnicos,Nulos,PorcentajeNulos
0,ID,int64,30000,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...",0,0.0
1,MontoCredito,float64,81,"[20000.0, 120000.0, 90000.0, 50000.0, 500000.0...",0,0.0
2,Genero,int64,2,"[2, 1]",0,0.0
3,Educacion,int64,7,"[2, 1, 3, 5, 4, 6, 0]",0,0.0
4,EstadoCivil,int64,4,"[1, 2, 3, 0]",0,0.0
5,Edad,int64,56,"[24, 26, 34, 37, 57, 29, 23, 28, 35, 51, 41, 3...",0,0.0
6,PAY_0,int64,11,"[2, -1, 0, -2, 1, 3, 4, 8, 7, 5, 6]",0,0.0
7,PAY_2,int64,11,"[2, 0, -1, -2, 3, 5, 7, 4, 1, 6, 8]",0,0.0
8,PAY_3,int64,11,"[-1, 0, 2, -2, 3, 4, 6, 7, 1, 5, 8]",0,0.0
9,PAY_4,int64,11,"[-1, 0, -2, 2, 3, 4, 5, 7, 6, 1, 8]",0,0.0


## **2.6) Recodificación Variables**

**Variables Categóricas**


Las variables categóricas son un tipo de variable en estadísticas y análisis de datos que representan categorías o grupos distintos en lugar de valores numéricos continuos. Estas variables se utilizan para representar características que pueden ser divididas en distintas categorías o clases, pero que no tienen un orden numérico inherente entre ellas.

* Variables categóricas nominales: Estas son categorías que no tienen un orden específico. Por ejemplo, el género (masculino, femenino, otro), la nacionalidad (estadounidense, británico, francés, etc.) o el color de ojos (azul, verde, marrón) son ejemplos de variables categóricas nominales. No hay un sentido intrínseco de jerarquía entre estas categorías.

* Variables categóricas ordinales: Estas categorías tienen un orden específico. Por ejemplo, la clasificación educativa (primaria, secundaria, terciaria), la calificación de satisfacción (muy insatisfecho, insatisfecho, neutral, satisfecho, muy satisfecho) o la posición en una competencia (primero, segundo, tercero) son ejemplos de variables categóricas ordinales. Aquí, el orden entre las categorías es importante, pero las diferencias entre los valores individuales pueden no ser uniformes o cuantificables

* SEXO : Género (1 = masculino, 2 = femenino)

In [28]:
# Revisamos Genero
df["Genero"].value_counts()

Genero
2    18112
1    11888
Name: count, dtype: int64

In [29]:
df["Genero"].value_counts(normalize=True)

Genero
2    0.603733
1    0.396267
Name: proportion, dtype: float64

In [30]:
## Homologar Genero
diccionario_genero={1:"Femenino",2:"Masculino"}

In [31]:
df["Genero_Homologado"]=df["Genero"].map(diccionario_genero)

In [32]:
df.head()

Unnamed: 0,ID,MontoCredito,Genero,Educacion,EstadoCivil,Edad,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,Mora,Genero_Homologado
0,1,20000.0,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1,Masculino
1,2,120000.0,2,2,2,26,-1,2,0,0,0,2,2682.0,1725.0,2682.0,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1,Masculino
2,3,90000.0,2,2,2,34,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0,Masculino
3,4,50000.0,2,2,1,37,0,0,0,0,0,0,46990.0,48233.0,49291.0,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0,Masculino
4,5,50000.0,1,2,1,57,-1,0,-1,0,0,0,8617.0,5670.0,35835.0,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0,Femenino


**Educación**

EDUCACIÓN : (1 = posgrado, 2 = universidad, 3 = bachillerato, 4 = otros, 5 = desconocido, 6 = desconocido)

In [33]:
df["Educacion"].value_counts()

Educacion
2    14030
1    10585
3     4917
5      280
4      123
6       51
0       14
Name: count, dtype: int64

**Aplicar: left Join**

In [34]:
Tabla_Educacion=pd.read_excel("/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora/TablaMeaestra.xlsx",
                              sheet_name="MaestroEducacion")



In [35]:
Tabla_Educacion

Unnamed: 0,Nivel Estudios,EducacionHomologada
0,0,
1,1,Posgrado
2,2,Pregrado
3,3,Bachillerato
4,4,
5,5,
6,6,


In [36]:
#df=pd.merge(df,Tabla_Educacion,on="Educacion",how="left")

In [37]:
df=pd.merge(df,Tabla_Educacion,left_on="Educacion",right_on="Nivel Estudios",how="left").drop(columns="Nivel Estudios")

In [38]:
df.head(3)

Unnamed: 0,ID,MontoCredito,Genero,Educacion,EstadoCivil,Edad,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,Mora,Genero_Homologado,EducacionHomologada
0,1,20000.0,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1,Masculino,Pregrado
1,2,120000.0,2,2,2,26,-1,2,0,0,0,2,2682.0,1725.0,2682.0,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1,Masculino,Pregrado
2,3,90000.0,2,2,2,34,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0,Masculino,Pregrado


* MATRIMONIO : Estado civil (1 = casado, 2 = soltero, 3 = otros)

In [39]:
df["EstadoCivil"].value_counts()

EstadoCivil
2    15964
1    13659
3      323
0       54
Name: count, dtype: int64

In [40]:
Tabla_EstadoCivil=pd.read_excel("/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora/TablaMeaestra.xlsx",
                              sheet_name="MaestroEstadoCivil")

In [41]:
df=pd.merge(df,Tabla_EstadoCivil,on="EstadoCivil",how="left")

In [42]:
df.head()

Unnamed: 0,ID,MontoCredito,Genero,Educacion,EstadoCivil,Edad,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,Mora,Genero_Homologado,EducacionHomologada,EstadoCivilHomologado
0,1,20000.0,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1,Masculino,Pregrado,Casado
1,2,120000.0,2,2,2,26,-1,2,0,0,0,2,2682.0,1725.0,2682.0,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1,Masculino,Pregrado,Soltero
2,3,90000.0,2,2,2,34,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0,Masculino,Pregrado,Soltero
3,4,50000.0,2,2,1,37,0,0,0,0,0,0,46990.0,48233.0,49291.0,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0,Masculino,Pregrado,Casado
4,5,50000.0,1,2,1,57,-1,0,-1,0,0,0,8617.0,5670.0,35835.0,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0,Femenino,Pregrado,Casado


In [43]:
## ELiminamos las Variables que fueron homologadas
df.drop(columns=["Genero"	,"Educacion"	,"EstadoCivil"],inplace=True)

In [44]:
df["ID"]=df["ID"].astype(str) # Id se convierte en string

In [45]:
Mapeo2=utils.MapearVariables(df)
Mapeo2

Unnamed: 0,Variable,TipoDato,CatUnicos,VectorUnicos,Nulos,PorcentajeNulos
0,ID,object,30000,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...",0,0.0
1,MontoCredito,float64,81,"[20000.0, 120000.0, 90000.0, 50000.0, 500000.0...",0,0.0
2,Edad,int64,56,"[24, 26, 34, 37, 57, 29, 23, 28, 35, 51, 41, 3...",0,0.0
3,PAY_0,int64,11,"[2, -1, 0, -2, 1, 3, 4, 8, 7, 5, 6]",0,0.0
4,PAY_2,int64,11,"[2, 0, -1, -2, 3, 5, 7, 4, 1, 6, 8]",0,0.0
5,PAY_3,int64,11,"[-1, 0, 2, -2, 3, 4, 6, 7, 1, 5, 8]",0,0.0
6,PAY_4,int64,11,"[-1, 0, -2, 2, 3, 4, 5, 7, 6, 1, 8]",0,0.0
7,PAY_5,int64,10,"[-2, 0, -1, 2, 3, 5, 4, 7, 8, 6]",0,0.0
8,PAY_6,int64,10,"[-2, 2, 0, -1, 3, 6, 4, 7, 8, 5]",0,0.0
9,BILL_AMT1,float64,22723,"[3913.0, 2682.0, 29239.0, 46990.0, 8617.0, 644...",0,0.0


**Identificar las Variables Categórcias y Numéricas**

In [46]:
cat_columns=Mapeo2["Variable"][Mapeo2["CatUnicos"]<=11].tolist()

In [47]:
cat_columns

['PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6',
 'Mora',
 'Genero_Homologado',
 'EducacionHomologada',
 'EstadoCivilHomologado']

In [48]:
num_columns=Mapeo2["Variable"][(Mapeo2["CatUnicos"]>11) & (Mapeo2["TipoDato"]!="object")].tolist()

In [49]:
num_columns

['MontoCredito',
 'Edad',
 'BILL_AMT1',
 'BILL_AMT2',
 'BILL_AMT3',
 'BILL_AMT4',
 'BILL_AMT5',
 'BILL_AMT6',
 'PAY_AMT1',
 'PAY_AMT2',
 'PAY_AMT3',
 'PAY_AMT4',
 'PAY_AMT5',
 'PAY_AMT6']

**Las variables numéricas**

Las variables numéricas, también conocidas como variables cuantitativas, son tipos de datos que representan cantidades numéricas y permiten realizar operaciones matemáticas sobre ellas. Estas variables se refieren a medidas o valores numéricos que se pueden medir, contar o calcular.

Las variables numéricas se pueden dividir en dos categorías principales:

* Variables Numéricas Continuas: Estas son variables que pueden tomar cualquier valor dentro de un rango determinado. No existen saltos ni interrupciones en los valores posibles. Por ejemplo, la altura de una persona, el peso de un objeto o la temperatura son ejemplos de variables numéricas continuas.

* Variables Numéricas Discretas: Estas son variables que solo pueden tomar valores específicos y a menudo son el resultado de un conteo. No hay valores intermedios posibles entre estos puntos. Ejemplos de variables numéricas discretas incluyen la cantidad de hijos en una familia, el número de automóviles en un estacionamiento o la cantidad de libros en una estantería.

In [50]:
Mapeo2

Unnamed: 0,Variable,TipoDato,CatUnicos,VectorUnicos,Nulos,PorcentajeNulos
0,ID,object,30000,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...",0,0.0
1,MontoCredito,float64,81,"[20000.0, 120000.0, 90000.0, 50000.0, 500000.0...",0,0.0
2,Edad,int64,56,"[24, 26, 34, 37, 57, 29, 23, 28, 35, 51, 41, 3...",0,0.0
3,PAY_0,int64,11,"[2, -1, 0, -2, 1, 3, 4, 8, 7, 5, 6]",0,0.0
4,PAY_2,int64,11,"[2, 0, -1, -2, 3, 5, 7, 4, 1, 6, 8]",0,0.0
5,PAY_3,int64,11,"[-1, 0, 2, -2, 3, 4, 6, 7, 1, 5, 8]",0,0.0
6,PAY_4,int64,11,"[-1, 0, -2, 2, 3, 4, 5, 7, 6, 1, 8]",0,0.0
7,PAY_5,int64,10,"[-2, 0, -1, 2, 3, 5, 4, 7, 8, 6]",0,0.0
8,PAY_6,int64,10,"[-2, 2, 0, -1, 3, 6, 4, 7, 8, 5]",0,0.0
9,BILL_AMT1,float64,22723,"[3913.0, 2682.0, 29239.0, 46990.0, 8617.0, 644...",0,0.0


## **2.7 Tratamiento de Valores Nulos**

In [51]:
df["EstadoCivilHomologado"].value_counts(normalize=True)

EstadoCivilHomologado
Soltero    0.533093
Casado     0.456121
Otros      0.010786
Name: proportion, dtype: float64

### **2.7.1 Imputación para variables categóricas por la Moda**

In [52]:
ModaEstadoCivil=df["EstadoCivilHomologado"].mode()[0]
ModaEducacion=df["EducacionHomologada"].mode()[0]


In [53]:
ModaEstadoCivil

'Soltero'

In [54]:
ModaEducacion

'Pregrado'

In [55]:
df["EstadoCivilHomologado"]=df["EstadoCivilHomologado"].fillna(ModaEstadoCivil)
df["EducacionHomologada"]=df["EducacionHomologada"].fillna(ModaEstadoCivil)

In [56]:
utils.MapearVariables(df)

Unnamed: 0,Variable,TipoDato,CatUnicos,VectorUnicos,Nulos,PorcentajeNulos
0,ID,object,30000,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14...",0,0.0
1,MontoCredito,float64,81,"[20000.0, 120000.0, 90000.0, 50000.0, 500000.0...",0,0.0
2,Edad,int64,56,"[24, 26, 34, 37, 57, 29, 23, 28, 35, 51, 41, 3...",0,0.0
3,PAY_0,int64,11,"[2, -1, 0, -2, 1, 3, 4, 8, 7, 5, 6]",0,0.0
4,PAY_2,int64,11,"[2, 0, -1, -2, 3, 5, 7, 4, 1, 6, 8]",0,0.0
5,PAY_3,int64,11,"[-1, 0, 2, -2, 3, 4, 6, 7, 1, 5, 8]",0,0.0
6,PAY_4,int64,11,"[-1, 0, -2, 2, 3, 4, 5, 7, 6, 1, 8]",0,0.0
7,PAY_5,int64,10,"[-2, 0, -1, 2, 3, 5, 4, 7, 8, 6]",0,0.0
8,PAY_6,int64,10,"[-2, 2, 0, -1, 3, 6, 4, 7, 8, 5]",0,0.0
9,BILL_AMT1,float64,22723,"[3913.0, 2682.0, 29239.0, 46990.0, 8617.0, 644...",0,0.0


# **3)Exportar Base de Datos**

In [57]:
os.getcwd()

'/Users/osgaspar/Documents/PERSONAL/Cedesistemas/2023/Diplomado2023_02/ModelosSupervisados/Clasificacion/ProyectoMora'

In [58]:
df.to_csv("BaseDepurada.csv",index=False)

In [59]:
pd.DataFrame({"variable":cat_columns}).to_csv("cat_columns.csv",index=False)
pd.DataFrame({"variable":num_columns}).to_csv("num_columns.csv",index=False)

# Nueva sección

In [None]:
6+5