# **SPRINT 2 CREDIT SCORING**

# Contents <a id='back'></a>

* 1.-[Introducción](#intro)

* 2.-[Objetivo](#obj)

* 3.-[Descripcion de Datos](#data_description)

* 4.-[Exploracion de Datos](#explo)
    * 4.1.-[Creacion DataFrame](#DataFrame_Creation)
    * 4.2.-[Pre-Procesamiento Datos](#Pre-Data_proceesing)

* 5.-[Analisis Comparativo](#Comparative_analysis)
    * 5.1.-[Hijos vs Reembolso de Prestamos a Tiempo](#children_vs_debt)
    * 5.2.-[Estado Civil vs Reembolso de Prestamos a Tiempo](#family_status_vs_debt)
    * 5.3.-[Nivel de Ingreso vs Reembolso de Prestamos a Tiempo](#income_vs_debt)
    * 5.4.-[Proposito vs Reembolso de Prestamos a Tiempo](#purpose_vs_debt)

* 6.-[Preguntas](#questions)
* 7.-[Resumen](#resumen)
* 8.-[Conclusion](#end)

# **1. INTRODUCCION** <a id='intro'></a>

Este proyecto consiste en preparar un informe para la división de préstamos de un banco. Es necesario averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

El informe analizará, al crear una **puntuación de crédito** para un cliente potencial. Esta puntuación de crédito para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

# **2. OBJETIVO** <a id='obj'></a>
- Determinar si existe conexión entre tener hijos y reembolsar un préstamo a tiempo
- Determinar si existe conexión entre el estado civil y el reembolso de un préstamo a tiempo
- Determinar si existe conexión entre el nivel de ingresos y el reembolso de un préstamo a tiempo
- Determinar cómo afectan los diferentes propósitos de un préstamo a su reembolso a tiempo

# **3. DESCRIPCION DE DATOS** <a id='data_description'></a>
A continuacion se procede a explicar que cotiene cada columna del DataFrame que vamos a analizar:

* ***children:*** el número de hijos en la familia
* ***days_employed:*** cuánto hace que trabaja el cliente
* ***dob_years:*** la edad del cliente
* ***education:*** el nivel educativo del cliente
* ***education_id:*** el identificador de la formación del cliente
* ***family_status:*** el estado civil del cliente
* ***family_status_id:*** el identificador del estado civil del cliente
* ***gender:*** el género del cliente
* ***income_type:*** el tipo de ingreso del cliente
* ***debt:*** si el cliente ha incumplido alguna vez un préstamo
* ***total_income:*** el ingreso mensual
* ***purpose:*** el motivo por el que se solicita un préstamo

# **4. EXPLORACION DE DATOS** <a id='explo'></a>

## **4.1 CREACION DE DATAFRAME** <a id='DataFrame_Creation'></a>

In [12]:
import pandas as pd #aqui se carga las librerias

A continuacion se procede a la creacion del DataFrame

In [13]:
try:
    df=pd.read_csv("credit_scoring_eng.csv") # Aqui se carga los datos localmente
except:
    df=pd.read_csv("https://practicum-content.s3.us-west-1.amazonaws.com/datasets/credit_scoring_eng.csv") # Aqui se carga los datos en linea

## **4.2 PRE-PROCESAMIENTO DE DATOS** <a id='Pre-Data_proceesing'></a>

In [14]:
df.info() # Con este comando voy a visualizar la informacion del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Del analisis que se muestra arriba los valores ausentes son **cuantitativos**, estos es en las columnas:
- days_employed
- total_income

Ademas la columna "days_employed" contiene valores negativos.

A continuacion se va a proceder a cuantificar estos valores duplicados.

In [15]:
print('Valores duplicados:',df.duplicated().sum()) #Con esto se determina la cantidad de valores duplicados

Valores duplicados: 54


In [16]:
print(f"La columna children tiene esta cantidad valores negativos:{df.loc[df['children']<0,'children'].count()}")

La columna children tiene esta cantidad valores negativos:47


In [17]:
print(df['purpose'].unique()) # Esto nos va a motrar los valores de la columna 'purpose'

['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'buy residential real estate'
 'construction of own property' 'property' 'building a property'
 'buying a second-hand car' 'buying my own car'
 'transactions with commercial real estate' 'building a real estate'
 'housing' 'transactions with my real estate' 'cars' 'to become educated'
 'second-hand car purchase' 'getting an education' 'car'
 'wedding ceremony' 'to get a supplementary education'
 'purchase of my own house' 'real estate transactions'
 'getting higher education' 'to own a car' 'purchase of a car'
 'profile education' 'university education'
 'buying property for renting out' 'to buy a car' 'housing renovation'
 'going to university']


In [18]:
print(df['education'].unique()) # Esto nos va a motrar los valores de la columna 'education'

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


Obviamente valores negativos en la columna 'children' es un error de digitacion, razon por la cual voy a proceder a dejar el valor absoluto de la celda

In [19]:
for i in range(len(df['children'])):
               if df.loc[i,'children']<0:
                   df.loc[i,'children']=-df.loc[i,'children']
print(f"La columna children tiene esta cantidad valores negativos:{df.loc[df['children']<0,'children'].count()}")

La columna children tiene esta cantidad valores negativos:0


In [20]:
df_duplicated=df[df.duplicated()]
df_duplicated.isna().sum()

children             0
days_employed       54
dob_years            0
education            0
education_id         0
family_status        0
family_status_id     0
gender               0
income_type          0
debt                 0
total_income        54
purpose              0
dtype: int64

Aqui se determino que todas los valores duplicados tienen valores ausentes 'days_employed' y 'total_income'. Al no haber identificador del prospecto solo puedo suponer que la misma persona intento aplicar al prestamo mas de una vez, omitiendo 'days_employed' y 'total_income' esperando aun asi lograr el prestamo. Por tanto procedere a borrar estas filas.

In [21]:
df1=df[df['days_employed'].isna()]
print('Cantidad Valores ausentes tanto en \'total_income\' como \'days_employed\':',df1['total_income'].isna().sum())
display(df1)

Cantidad Valores ausentes tanto en 'total_income' como 'days_employed': 2174


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Ademas se encontro que todas las filas que contienen valores ausentes en las columnas 'days_employed' tambien los tienen en 'total_income'. Por tanto se va a borrar todas estas filas, pero primero se va a proceder a crear una lista con valores ausentes en la columna 'total_income' rellenados

In [22]:
df_filled=df.drop_duplicates().reset_index(drop=True)
print(f"Cantidad de valores ausentes: {df_filled['total_income'].isna().sum()}")
u=df_filled['total_income'].quantile(0.75)
l=df_filled['total_income'].quantile(0.25)
r=1.5*(u-l)
vu=u+r
vl=l-r
df_atipic=df_filled[df_filled['total_income']>vu]
df_atipic=df_filled[df_filled['total_income']<vl]
print(f"La cantidad de valores atipicos inferiores a primer quartil son: {df_atipic['gender'].count()}")
df_atipic=df_filled[df_filled['total_income']>vu]
print(f"La cantidad de valores atipicos superiores a tercer quartil son: {df_atipic['gender'].count()}")
median=df_filled['total_income'].median()
df_filled['total_income']=df_filled['total_income'].fillna(median)
print(f"Cantidad de valores ausentes: {df_filled['total_income'].isna().sum()}")
df_filled.info()

Cantidad de valores ausentes: 2120
La cantidad de valores atipicos inferiores a primer quartil son: 0
La cantidad de valores atipicos superiores a tercer quartil son: 818
Cantidad de valores ausentes: 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
dtypes: float64(2), int64(5), 

In [23]:
df=df.dropna(subset=['total_income'])
df.info()
display(df)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [24]:
df=df.drop_duplicates().reset_index(drop=True) # Al poner drop=True aun cuando no tenga valores duplicados, reinicia el indice
print('Ahora los valores duplicados:',df.duplicated().sum()) #Con esto se confirma que valores duplicados se eliminaron
print()
display(df)

Ahora los valores duplicados: 0



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
19346,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
19347,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
19348,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
19349,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


Ya que uno de los propositos es entender como afecta el proposito del prestamo en el cumplimiento a su reembolso a tiempo. A continuacion se van a eliminar los duplicados implicitos en las columnas: purpose, income_type y education

In [25]:
for i in range(len(df['education'])):
    df.loc[i,'education']=df.loc[i,'education'].lower()

def replace_duplicate_implicit(word):
    for wrong_value in df['purpose']:
        if word in wrong_value:
            df['purpose']=df['purpose'].replace(wrong_value,word)

duplicates=['housing','house','housing transactions','construction of own property','property','building a property','to become educated','buying property for renting out','housing renovation']
replace_duplicate_implicit('car')
replace_duplicate_implicit('house')
replace_duplicate_implicit('education')
replace_duplicate_implicit('wedding')
replace_duplicate_implicit('real estate')
df['purpose']=df['purpose'].replace('going to university','education')
df['purpose']=df['purpose'].replace(duplicates,'real estate')
print(df['education'].unique()) # Se mostrara que se han eliminado los duplicados implicitos para columna 'education'
print()
print(df['purpose'].unique()) # Se mostrara que se han eliminado los duplicados implicitos para columna 'purpose'

["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']

['real estate' 'car' 'education' 'wedding']


In [26]:
print(df['income_type'].unique()) # Esto nos va a motrar los valores de la columna 'income_type'

['employee' 'retiree' 'business' 'civil servant' 'unemployed' 'student'
 'entrepreneur' 'paternity / maternity leave']


In [27]:
df['income_type']=df['income_type'].replace('civil servant','employee')
df['income_type']=df['income_type'].replace('entrepreneur','business')

In [28]:
print(df['income_type'].unique()) # Se mostrara que se han eliminado los duplicados implicitos para columna 'income_type'

['employee' 'retiree' 'business' 'unemployed' 'student'
 'paternity / maternity leave']


In [29]:
df[df['gender']=='XNA'] 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9662,0,-2358.600502,24,some college,2,civil partnership,1,XNA,business,0,32624.825,real estate


**Nota: A pesar de que no esta claro si es 'Male' o 'Female', como no indica analizar como afecta esto, no voy a modificar esta parte.**

In [30]:
negative=df.loc[df['days_employed']<0,'days_employed'].count()
total=df['days_employed'].count()
rate=negative/total
print(f'Porcentaje de Valores negativos en la columna \'days_employed\': {rate:.2%}')

Porcentaje de Valores negativos en la columna 'days_employed': 82.20%


Por lo que se ve los valores negativos representan un alto porcentaje. La explicacion para que se tenga valores negativos en esta celda puede ser debido a:
- Error humano: error de digitacion al ingresar la informacion
- Al ver un porcentaje tan alto puede ser que se uso una formula para obtener los dias trabajados como parte de estos

En todo caso a falta de mas informacion voy a proceder a convertir en valores positivos, aunque en realidad esto no tiene impacto alguno en el analisis, porque dentro de los requerimientos no pide realizar analisis con estas columnas.

In [31]:
for i in range(len(df['days_employed'])):
               if df.loc[i,'days_employed']<0:
                   df.loc[i,'days_employed']=-df.loc[i,'days_employed']
negative=df.loc[df['days_employed']<0,'days_employed'].count()
print('Cantidad de Valores negativos en \'days_employed\':',negative)

Cantidad de Valores negativos en 'days_employed': 0


El proyecto solicita: "Reemplaza el tipo de datos de número real con el tipo de número entero"

In [32]:
df['days_employed']=df['days_employed'].astype('int64') #aqui se convierte a enteros los valores flotantes
df['total_income']=df['total_income'].astype('int64') #aqui se convierte a enteros los valores flotantes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19351 entries, 0 to 19350
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          19351 non-null  int64 
 1   days_employed     19351 non-null  int64 
 2   dob_years         19351 non-null  int64 
 3   education         19351 non-null  object
 4   education_id      19351 non-null  int64 
 5   family_status     19351 non-null  object
 6   family_status_id  19351 non-null  int64 
 7   gender            19351 non-null  object
 8   income_type       19351 non-null  object
 9   debt              19351 non-null  int64 
 10  total_income      19351 non-null  int64 
 11  purpose           19351 non-null  object
dtypes: int64(7), object(5)
memory usage: 1.8+ MB


Al usar la funcion int() con lo cual se eliminaron los decimales, siguen apareciendo en la info() como un tipo de dato flotante. Por tanto decidi usar el metodo astype(), como se aprecia ahora todos los numeros son datos del tipo int64

Ya se tiene los datos con datos ausentes eliminados(df) y los datos con los valores ausentes rellenados con la mediana (df_filled). Ahora se va a proceder a comparar los datos de estas dos tablas en los objetivos que tenemos.

El paso inmediato es agrupar los valores en 'total_income' por rangos para asi realizar las comparaciones.

In [33]:
for i in range(len(df['total_income'])):
    if df.loc[i,'total_income']<=3000:
        df.loc[i,'total_income_range']='range 0-100000'
    elif 3000<df.loc[i,'total_income']<=100000:
        df.loc[i,'total_income_range']='range 3000-100000'
    elif 100000<df.loc[i,'total_income']<=200000:
        df.loc[i,'total_income_range']='range 100000-200000'
    elif 200000<df.loc[i,'total_income']<=300000:
        df.loc[i,'total_income_range']='range 200000-300000'
    else:
        df.loc[i,'total_income_range']='range +300000'

In [34]:
for i in range(len(df_filled['total_income'])):
    if df_filled.loc[i,'total_income']<=3000:
        df_filled.loc[i,'total_income_range']='range 0-100000'
    elif 3000<df_filled.loc[i,'total_income']<=100000:
        df_filled.loc[i,'total_income_range']='range 3000-100000'
    elif 100000<df_filled.loc[i,'total_income']<=200000:
        df_filled.loc[i,'total_income_range']='range 100000-200000'
    elif 200000<df_filled.loc[i,'total_income']<=300000:
        df_filled.loc[i,'total_income_range']='range 200000-300000'
    else:
        df_filled.loc[i,'total_income_range']='range +300000'

In [35]:
tir_debt=df.pivot_table(index='total_income_range',columns='debt',values='total_income',aggfunc='count',margins=True)
tir_debt_filled=df_filled.pivot_table(index='total_income_range',columns='debt',values='total_income',aggfunc='count',margins=True)

# **5. ANALISIS COMPARATIVO** <a id='Comparative_analysis'></a>

## **5.1 HIJOS VS REEMBOLSO DE PRESTAMOS A TIEMPO** <a id='children_vs_debt'></a>

In [36]:
df.pivot_table(index='children',columns='debt',values='total_income',aggfunc='count',margins=True)

debt,0,1,All
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,11758.0,952.0,12710
1,3978.0,409.0,4387
2,1674.0,177.0,1851
3,272.0,22.0,294
4,31.0,3.0,34
5,8.0,,8
20,59.0,8.0,67
All,17780.0,1571.0,19351


## **5.2 ESTADO CIVIL VS REEMBOLSO DE PRESTAMOS A TIEMPO** <a id='family_status_vs_debt'></a>

In [37]:
df.pivot_table(index='family_status',columns='debt',values='total_income',aggfunc='count',margins=True)

debt,0,1,All
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
civil partnership,3396,339,3735
divorced,1007,76,1083
married,10297,846,11143
unmarried,2271,254,2525
widow / widower,809,56,865
All,17780,1571,19351


## **5.3 NIVEL DE INGRESO VS REEMBOLSO DE PRESTAMOS A TIEMPO** <a id='income_vs_debt'></a> 

A continuacion se va a generar y presentar las tablas para comparar el nivel de ingreso y el reembolso de un prestamo a tiempo

In [38]:
print("Lista donde se eliminaron valores ausentes de 'total_income':")
display(tir_debt.sort_values(by='total_income_range',ascending=False))
print("Lista donde se rellenaron valores ausentes de 'total_income' con la mediana:")
display(tir_debt_filled.sort_values(by='total_income_range',ascending=False))

Lista donde se eliminaron valores ausentes de 'total_income':


debt,0,1,All
total_income_range,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
range 3000-100000,17687.0,1565.0,19252
range 200000-300000,9.0,,9
range 100000-200000,83.0,5.0,88
range +300000,1.0,1.0,2
All,17780.0,1571.0,19351


Lista donde se rellenaron valores ausentes de 'total_income' con la mediana:


debt,0,1,All
total_income_range,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
range 3000-100000,19637.0,1735.0,21372
range 200000-300000,9.0,,9
range 100000-200000,83.0,5.0,88
range +300000,1.0,1.0,2
All,19730.0,1741.0,21471


Comparando ambas tablas se evidencia que los valores ausentes estaban en el rango de +300000

## **5.4 PROPOSITO VS REEMBOLSO DE PRESTAMOS A TIEMPO** <a id='purpose_vs_debt'></a> 

In [39]:
df.pivot_table(index='purpose',columns='debt',values='total_income',aggfunc='count',margins=True)

debt,0,1,All
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,3530,367,3897
education,2943,297,3240
real estate,9366,749,10115
wedding,1941,158,2099
All,17780,1571,19351


In [40]:
df[(df['family_status']=='unmarried')&(df['purpose']=='car')&(df['total_income_range']=='range +300000')]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_range


In [41]:
df[(df['family_status']=='unmarried')&(df['purpose']=='education')&(df['total_income_range']=='range +300000')]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_range


# **6. PREGUNTAS** <a id='questions'></a>
- **Existe conexión entre tener hijos y reembolsar un préstamo a tiempo?** Definitivamente si tienden a realizar mas prestamos cuando tienen pocos hijos, pero no hay una relacion entre tener hijos y reembolso a tiempo
  
- **Existe conexión entre el estado civil y el reembolso de un préstamo a tiempo?** Los aspirantes 'unmarried' son los mas tienden cumplir con el reembolso a tiempo, luego los 'civil partnership' y despues los 'married'. Estos tres grupos son los mas atractivos, ademas los 'married' son los que mas prestamos suelen realizar.

- **Existe conexión entre el nivel de ingresos y el reembolso de un préstamo a tiempo?** Entre mas bajo sea el nivel de ingreso, mas tienden a hacer prestamos pero tambien mas tienden a incumplirlos

- **Cómo afectan los diferentes propósitos de un préstamo a su reembolso a tiempo?** 'real estate' es el proposito por el cual mas tiende a realizarse un prestamo y tambien quienes mas tienden a incumplir con el pago del prestamo. Los que mas tienden a cumplir son los prestamos para 'car' y 'education'. El grupo mas atractivo son los 'education' ya que tienen una alta tasa de cumplimiento y son el segundo grupo mas grande

# **7. RESUMEN**<a id='resumen'></a>

En el [Pre-Procesamiento Datos](#Pre-Data_proceesing) se encontro lo siguiente:

* Los datos tienen 54 filas duplicadas, pero todas estas filas tienen valores ausentes en 'days_employed' y 'total_income'.

* Con el metodo info() se observa en las columnas 'total_income' y 'days_employed' *valores ausentes*; ademas se encontro 'days_employed' tienen valores negativos
    
* La columna 'gender' tiene un valor 'XNA' 

# **8. CONCLUSION**<a id='end'></a>

* Los de 'days_employed' a falta de mayor informacion convertir los valores negativos, en positivos.

* Los *valores ausentes* en 'total_income' se analizo si debian eliminarlos o rellenarlos. Se encontro en [Nivel de Ingreso vs Reembolso de Prestamos a Tiempo](#income_vs_debt) que si se podian eliminar ya que no afectaba la tendencia de los resultados.
    * Las 54 filas duplicadas al estar dentro de las que tenian valores ausentes eliminadas, tambien fueron eliminadas.
    
* El valor 'XNA' en 'gender' como no piden analizar esta columna no se modifico esta parte.

En [Preguntas](#questions) se contestan las inquitudes planteadas en [Objetivo](#obj). En base a estas respuestas se concluye:

Al intentar crear el perfil del candidato ideal se encontro que estadisticamente no existe un candidato que cumpla con todos estas características, por este motivo los bancos dan puntuaciones de los candidatos que cumplan con caracteristicas deseable para aplicante al prestamo

[Volver a Contenidos](#back)