# Credict Approval Model Dataset

El objetivo de este notebook es obtener los datos para modelar el riesgo crediticion respecto a diferentes variables de un individuo, se verá el proceso de obtención y exploración del dataset enseguida.

Dataset recuperado de kaggle en : https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction/data

In [1]:
## Import 
import pandas as pd

In [2]:
### Importación de datos

df_app=pd.read_csv('application_record.csv')
df_record=pd.read_csv('credit_record.csv')

## Importación Dataset
### Dataset de aplicación
En este caso el dataset está divido en dos archivos, el ṕrimer archivo correspondiente a datos socioeconomicos de cada cliente que solicita el crédito. Como se ve se encuentran en inglés los datos con un total de 18 columnas, con datos como el genero, la cantidad de hijos, si posee automovil o de donde vienen sus ingresos, nivel educativo o días que ha estado empleado.

In [3]:
df_app.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


### Dataset de registro de creditos
En este caso es un dataset asociado al primero por medio del atributo "ID" que muestra 3 columnas, el ID, el mes en el que fue registrada la información, siendo 0 el mes actual, -1 el mes anterior, etc. 

Y finalmente el status, este status se refiere a si está o no en mora del pago de su tarjeta de crédito, de la siguiente forma: "0: 1-29 days past due 1: 30-59 days past due 2: 60-89 days overdue 3: 90-119 days overdue 4: 120-149 days overdue 5: Overdue or bad debts, write-offs for more than 150 days C: paid off that month X: No loan for the month"

In [4]:
df_record.head()

Unnamed: 0,ID,MONTHS_BALANCE,STATUS
0,5001711,0,X
1,5001711,-1,0
2,5001711,-2,0
3,5001711,-3,0
4,5001712,0,C


A continuación veremos la cantidad de datos nulos, repetidos, etc en cada dataset y haremos una exploración general de los datos para en una entrega futura hacer su limpieza y estandarización.

## Exploración Dataset

In [5]:
df_app.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 438557 entries, 0 to 438556
Data columns (total 18 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   ID                   438557 non-null  int64  
 1   CODE_GENDER          438557 non-null  object 
 2   FLAG_OWN_CAR         438557 non-null  object 
 3   FLAG_OWN_REALTY      438557 non-null  object 
 4   CNT_CHILDREN         438557 non-null  int64  
 5   AMT_INCOME_TOTAL     438557 non-null  float64
 6   NAME_INCOME_TYPE     438557 non-null  object 
 7   NAME_EDUCATION_TYPE  438557 non-null  object 
 8   NAME_FAMILY_STATUS   438557 non-null  object 
 9   NAME_HOUSING_TYPE    438557 non-null  object 
 10  DAYS_BIRTH           438557 non-null  int64  
 11  DAYS_EMPLOYED        438557 non-null  int64  
 12  FLAG_MOBIL           438557 non-null  int64  
 13  FLAG_WORK_PHONE      438557 non-null  int64  
 14  FLAG_PHONE           438557 non-null  int64  
 15  FLAG_EMAIL       

In [6]:
### Valores únicos por columna del dataset aplicación

for i in df_app.columns.values:
    if i != 'AMT_INCOME_TOTAL':
        print(str(i), df_app[i].unique())

ID [5008804 5008805 5008806 ... 6841878 6842765 6842885]
CODE_GENDER ['M' 'F']
FLAG_OWN_CAR ['Y' 'N']
FLAG_OWN_REALTY ['Y' 'N']
CNT_CHILDREN [ 0  1  3  2  4  5 14 19  7  9 12  6]
NAME_INCOME_TYPE ['Working' 'Commercial associate' 'Pensioner' 'State servant' 'Student']
NAME_EDUCATION_TYPE ['Higher education' 'Secondary / secondary special' 'Incomplete higher'
 'Lower secondary' 'Academic degree']
NAME_FAMILY_STATUS ['Civil marriage' 'Married' 'Single / not married' 'Separated' 'Widow']
NAME_HOUSING_TYPE ['Rented apartment' 'House / apartment' 'Municipal apartment'
 'With parents' 'Co-op apartment' 'Office apartment']
DAYS_BIRTH [-12005 -21474 -19110 ...  -8169  -9738 -22257]
DAYS_EMPLOYED [-4542 -1134 -3051 ... -8300 -9020 -4884]
FLAG_MOBIL [1]
FLAG_WORK_PHONE [1 0]
FLAG_PHONE [0 1]
FLAG_EMAIL [0 1]
OCCUPATION_TYPE [nan 'Security staff' 'Sales staff' 'Accountants' 'Laborers' 'Managers'
 'Drivers' 'Core staff' 'High skill tech staff' 'Cleaning staff'
 'Private service staff' 'Cooking sta

- Nos acabamos de dar cuenta que existen 438557 registros únicos con bastantes variables a consideras, se puede ver rapidamente que la etiqueta de tipo de ocupación tiene muchos valores nulos, esto es normal debido a que no toda la gente tiene un trabajo u ocupación como por ejemplo los estudiantes o pensionados. En este caso ese atributo sí representa información por tanto no se pueden droppear las NaN. 

In [7]:
df_record.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 3 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   ID              1048575 non-null  int64 
 1   MONTHS_BALANCE  1048575 non-null  int64 
 2   STATUS          1048575 non-null  object
dtypes: int64(2), object(1)
memory usage: 24.0+ MB


In [8]:
df_record.drop_duplicates(subset="ID",inplace=True)
df_record.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45985 entries, 0 to 1048545
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   ID              45985 non-null  int64 
 1   MONTHS_BALANCE  45985 non-null  int64 
 2   STATUS          45985 non-null  object
dtypes: int64(2), object(1)
memory usage: 1.4+ MB


In [9]:
## Valores únicos del dataset record

for i in df_record.columns.values:
    print(str(i), df_record[i].unique())

ID [5001711 5001712 5001713 ... 5150484 5150485 5150487]
MONTHS_BALANCE [  0  -1 -22  -4 -10  -8 -14  -3 -28  -2  -9 -11 -40 -24 -38  -7 -18 -32
  -6 -43 -19 -17 -15 -12 -33  -5 -51 -47 -21 -34 -29 -35 -49 -31 -42 -20
 -23 -44 -37 -13 -46 -25 -39 -56 -36 -16 -26 -27 -48 -41 -30 -45 -55 -52
 -50 -53 -54 -57 -59 -60 -58]
STATUS ['X' 'C' '1' '0' '5' '3' '2' '4']


Para el dataset de record vemos los valores correspondientes a STATUS y también se ve que hay muchos duplicados por tanto se deberá droppear el duplicado de la información, así no se perderá información que pueda llegar a ser útil y se tendrá una cantidad de datos parecida entre dataset.

El paso siguiente será unir estos dataset por ID y limpiar/transformar la información para usarla como información numérica.