## **Descripción del proyecto**

El proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.
Su informe se tendrá en cuenta al crear una puntuación de crédito para un cliente potencial. Se utiliza una puntuación de crédito para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

## **Descripción de los datos**

* `children:` el número de hijos en la familia
* `days_employed:` por cuánto tiempo ha estado trabajando el cliente
* `dob_years:` la edad del cliente
* `education:` el nivel educativo del cliente
* `education_id:` identificador de la educación del cliente
* `family_status:` estado civil del cliente
* `family_status_id:` identificador del estado civil del cliente
* `gender:` el género del cliente
* `income_type:` el tipo de ingreso del cliente
* `debt:` si el cliente ha incumplido alguna vez un préstamo
* `total_income:` ingresos mensuales
* `purpose:` motivo por el que se solicita un préstamo

In [None]:
#cargamos las librerias
import pandas as pd
import numpy as np

In [None]:
try: #aplicamos manejo de excepciones para que no haya problemas cuando se quiera abrir el archivo desde otra dirección
    credit_clients = pd.read_csv('credit_scoring_eng.csv', sep=',')
except:
    credit_clients = pd.read_csv('/datasets/credit_scoring_eng.csv', sep=',')


In [None]:
credit_clients.info() #verificamos los datos y observamos que hay valores nulos en las columnas 'days_employed' y 'total_income'
print()
credit_clients.head(15) 
#mostramos las 15 primeras filas y obervamos que hay valores negativos en la columna de 'days_employed'	 así como también
#hay texto en mayúsculas y minpusculas en la columna de 'education'
#observamos también que hay valores nulos en las columnas 'days_employed' y 'total_income'

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [None]:
#aunque los nombres de las columnas parecen estar bine, corregimos para estar más seguros (todos a minúsculas y sin espacios)
credit_clients.columns = credit_clients.columns.str.lower().str.strip()
credit_clients.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [None]:
# Veamos la tabla filtrada con valores ausentes de la columna 'days_employed' donde faltan datos
credit_clients.loc[credit_clients['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [None]:
print(credit_clients['days_employed'].isna().sum()) #vemos que hay 2174 valores ausentes en la columna 'days_employed'
print(credit_clients['total_income'].isna().sum())#vemos que también hay 2174 valores ausentes en la columna 'total_income'

#Observamos que el número de filas en la tabla filtrada anterior coincide con el número de valores ausente de las columnas 
#'days_employed' y 'total_income'

2174
2174


In [None]:
#calculamos el porcentaje que representan los valotres ausentes respecto al conjunto de datos
print(round(100*(credit_clients['days_employed'].isna().sum()/len(credit_clients)),2))
print()
print(round(100*(credit_clients['total_income'].isna().sum()/len(credit_clients)),2))

#Vemos que los valores ausentes representan el 10% del total de datos, por lo que son un valor medianamente alto como para eliminarlos

10.1

10.1


In [None]:
credit_clients.describe()

#observamos que la desviación estándar es bastante alta por lo que la dispersión en los datos de la columna 'days_employed' es muy alta. 
#Lo mismo ocurre con 'total_income'.

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [None]:
#mostramos los primeros 15 registros nulos del campo days_employed
credit_clients[credit_clients['days_employed'].isna()].head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [None]:
#mostramos los últimos 15 registros nulos del campo days_employed
credit_clients[credit_clients['days_employed'].isna()].tail(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21369,2,,42,secondary education,1,divorced,3,M,business,0,,buy residential real estate
21390,20,,53,secondary education,1,married,0,M,business,0,,buy residential real estate
21391,0,,52,secondary education,1,married,0,F,business,0,,purchase of the house for my family
21407,1,,36,secondary education,1,married,0,F,business,0,,building a real estate
21414,0,,65,secondary education,1,married,0,F,retiree,0,,purchase of my own house
21415,0,,54,secondary education,1,married,0,F,retiree,0,,housing transactions
21423,0,,63,secondary education,1,married,0,M,retiree,0,,purchase of a car
21426,0,,49,secondary education,1,married,0,F,employee,1,,property
21432,1,,38,some college,2,unmarried,4,F,employee,0,,housing transactions
21463,1,,35,bachelor's degree,0,civil partnership,1,M,employee,0,,having a wedding


Con el método describe() hemos observado que la ``dispersión`` en los datos de las columnas 'days_employed' y 'total_income' son muy altas, además hemos mostrado los primeros y últimos 15 datos de la columna 'days_employed' en donde los valores son nulos y observamos que no hay una relación con las otras columnas a excepción de la columna 'total_income' en donde los valores nulos están relacionados, es decir cuando el dato es nulo en 'days_employed' también lo es en 'total_income', esto tiene sentido ya que si una persona no ha trabajado entonces no tiene ingresos.  Podríamos decir que los datos de la columna 'days_employed' son aleatorios respecto a todas las columnas a excepción de la columna 'total_income'.


In [None]:
# listamos los valores únicos de la columna 'education'
print(credit_clients['education'].unique()) #observamos que hay valores repetidos escritos de diferente manera

credit_clients['education'] = credit_clients['education'].str.lower() #convertimos todos los valores a minúsculas

credit_clients['education'].unique()

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [None]:
# listamos los valores únicos de la columna 'children'
print(credit_clients['children'].unique()) #observamos que hay valores negativos (-1) y muy altos como el 20


[ 1  0  3  2 -1  4 20  5]


In [None]:
#mostramos el campo con hijos igual a -1
credit_clients[credit_clients['children']==-1].head(10)
#Podría haber ocurrido una confusión en el ingreso de los datos y colocaron -1 por error y este debería ser 1

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,-4417.703588,46,secondary education,1,civil partnership,1,F,employee,0,16450.615,profile education
705,-1,-902.084528,50,secondary education,1,married,0,F,civil servant,0,22061.264,car purchase
742,-1,-3174.456205,57,secondary education,1,married,0,F,employee,0,10282.887,supplementary education
800,-1,349987.852217,54,secondary education,1,unmarried,4,F,retiree,0,13806.996,supplementary education
941,-1,,57,secondary education,1,married,0,F,retiree,0,,buying my own car
1363,-1,-1195.264956,55,secondary education,1,married,0,F,business,0,11128.112,profile education
1929,-1,-1461.303336,38,secondary education,1,unmarried,4,M,employee,0,17459.451,purchase of the house
2073,-1,-2539.761232,42,secondary education,1,divorced,3,F,business,0,26022.177,purchase of the house
3814,-1,-3045.290443,26,secondary education,1,civil partnership,1,F,civil servant,0,21102.846,having a wedding
4201,-1,-901.101738,41,secondary education,1,married,0,F,civil servant,0,36220.123,transactions with my real estate


In [None]:
#mostramos el campo con hijos igual a 20
credit_clients[credit_clients['children']==20].head(10)
#Podría también haber ocurrido una confusión en el ingreso de los datos y colocaron 20 por error agregando un cero adicional cuando este debería ser 2

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,secondary education,1,married,0,M,business,0,23253.578,purchase of the house
720,20,-855.595512,44,secondary education,1,married,0,F,business,0,18079.798,buy real estate
1074,20,-3310.411598,56,secondary education,1,married,0,F,employee,1,36722.966,getting an education
2510,20,-2714.161249,59,bachelor's degree,0,widow / widower,2,F,employee,0,42315.974,transactions with commercial real estate
2941,20,-2161.591519,0,secondary education,1,married,0,F,employee,0,31958.391,to buy a car
3302,20,,35,secondary education,1,unmarried,4,F,civil servant,0,,profile education
3396,20,,56,bachelor's degree,0,married,0,F,business,0,,university education
3671,20,-913.161503,23,secondary education,1,unmarried,4,F,employee,0,16200.879,buying a second-hand car
3697,20,-2907.910616,40,secondary education,1,civil partnership,1,M,employee,0,18460.911,buying a second-hand car
3735,20,-805.044438,26,bachelor's degree,0,unmarried,4,M,employee,0,21952.103,housing renovation


In [None]:
#calculamos el porcentaje que representan los valores atipico de la columna 'children' del total de datos
print(round(100*(credit_clients[credit_clients['children']==-1]['children'].count()/len(credit_clients)),2))
print()
print(round(100*(credit_clients[credit_clients['children']==20]['children'].count()/len(credit_clients)),2))

0.22

0.35


In [None]:
#Como se explicó en un par de códigos antes de este, si bien es cierto pudo haber confusión al ingresar -1 por 1 y 20 por 2 pero como 
#no es seguro que esto haya pasado y además como estos datos erróneos apenas representan el 0.22% y 0.35% para los 
#valores de -1 y 20 respectivamente respecto al total, entonces eliminamos los registros de esas filas

credit_clients = credit_clients.drop(credit_clients[(credit_clients['children']==-1 )| (credit_clients['children']==20)].index, axis=0)

credit_clients['children'].unique() #comprobamos que los números de hijos -1 y 20 ya no existen

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [None]:
#En la tabla original vemos que hay valores negativos en la columna 'days_employed' y valores nulos, calculamos cuantos hay de cada uno

print(credit_clients[credit_clients['days_employed'] < 0]['days_employed'].count())#calculamos los valores negativos
print() 
print(credit_clients[credit_clients['days_employed'] > 0]['days_employed'].count())#calculamos los valores positivos
print()
print(credit_clients['days_employed'].isna().sum())#calculamos los valores nulos


15809

3431

2162


In [None]:
#verificamos cuanto representa cada uno respecto al total de datos
print(round(100*credit_clients[credit_clients['days_employed'] < 0]['days_employed'].count()/len(credit_clients),2))
print()
print(round(100*credit_clients['days_employed'].isna().sum()/len(credit_clients),2))

#observamos que los valores negativos representan el 73.87% y los nulos el 10.1%, entonces no se puden eliminar los registros por la cantidad que representan

73.87

10.1


In [None]:
#no eliminamos los registros con valores nulos puesto que representan el 10.1%, así que convertimos los valotres nulos a ceros de manera
#temporal para que no haya problemas al trabajar con los valores negativos

credit_clients.loc[credit_clients['days_employed'].isna(),'days_employed'] = 0

credit_clients['days_employed'].isna().sum()#comprobamos que no hayan nulos

0

In [None]:
#Respecto a los valores negativos, probablemente hubo un error en el ingreso de los datos y estos se introdujeron con signo menos

credit_clients['days_employed'] = credit_clients['days_employed'].abs() #convertimos los valores a positivos

credit_clients.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [None]:
#Para tener un mejor panorama respecto a los días trabajados, pasaremos estos a años, para ello
# agregamos una columna donde están los días trabajados expresado en años. Tener en cuenta que un año laborable tiene 335 días.
credit_clients['year_employed'] = credit_clients['days_employed']/335 

credit_clients.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,25.187084
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,12.01434
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,16.786336
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,12.312678
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,1015.719618
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,2.764734
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,8.594633
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.456058
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,20.686165
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,6.533601


Observamos en la columna 'years_employed' que hay valores atípicos por encima de 1000 lo cual es un absurdo ya que los años trabajados nunca pueden ser mayor a la edad de la persona y nadie trabaja 1000 años, ni siquiera 100 años

En este caso, teniendo en cuenta la edad de jubilación de 65 años además de que el sistema registra el trabajo formal a partir de los 18 años; entonces, con algo de margen, una persona puede trabajar máximo 50 años.

In [None]:
credit_clients[credit_clients['year_employed']>50].tail(15) #mostramos los últimos 15 registros 

#observamos que hay valores que superan los años que una persona puede trabajar en su vida

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
21424,0,335228.897103,55,secondary education,1,divorced,3,F,retiree,1,38078.807,purchase of the house for my family,1000.683275
21433,0,390732.056745,57,secondary education,1,civil partnership,1,F,retiree,0,22358.737,having a wedding,1166.364348
21441,0,392681.055781,61,secondary education,1,divorced,3,F,retiree,0,14867.971,education,1172.182256
21444,0,353746.631038,57,secondary education,1,widow / widower,2,F,retiree,0,12550.617,cars,1055.960093
21450,0,353581.883314,67,secondary education,1,married,0,F,retiree,0,14660.826,property,1055.468308
21467,0,338060.788569,59,secondary education,1,married,0,F,retiree,0,7582.23,getting an education,1009.136682
21475,0,365213.306266,52,secondary education,1,married,0,F,retiree,1,7718.29,to own a car,1090.188974
21485,0,363996.449108,59,bachelor's degree,0,married,0,F,retiree,0,42720.117,buying a second-hand car,1086.556565
21501,0,334343.096304,57,secondary education,1,married,0,F,retiree,0,13797.14,housing,998.039093
21504,0,355235.728158,68,secondary education,1,married,0,F,retiree,0,12890.611,supplementary education,1060.405159


In [None]:
#calculamos la cantidad de registros que superan los 50 años de trabajo
credit_clients.loc[credit_clients['year_employed'] > 50, 'year_employed'].count() # observamos que hay 3433 registros que superan los 50 años de trabajo

3433

In [None]:
#calculamos el porcentaje que representa del total
round(100*(credit_clients.loc[credit_clients['year_employed'] > 50, 'year_employed'].count()/len(credit_clients)),2)

#observamos que es un porcentaje considerable por lo que no podemos eliminar los registros

16.04

In [None]:
#Es probable que haya habido un error al ingresar los datos de la columna 'days_employed', observamos que los valores de 4 dígitos
#no presentan anomalía respecto a los años trabajados.
#El problema es con los datos de 6 dígitos por lo que es probable que los dos primeros dígitos se hayan ingresado por equivocación
#Entonces tenemos que eliminar esos dos primeros dígitos y quedarnos con los 4 restantes.

#Para ello vamos a convertir los tipos de datos a enteros

credit_clients['days_employed'] = round(credit_clients['days_employed'])
credit_clients['days_employed'] = credit_clients['days_employed'].astype(int)
credit_clients['days_employed'].dtypes

dtype('int32')

In [None]:
#ahora convertimos la columna 'days_employed' a string

credit_clients['days_employed'] = credit_clients['days_employed'].astype(str)
credit_clients['days_employed'].dtype

dtype('O')

In [None]:
#eliminamos los dos primeros dígitos en vista de que se ingresaron por error

credit_clients.loc[credit_clients['year_employed']>50, 'days_employed'] = credit_clients.loc[credit_clients['year_employed']>50, 'days_employed'].apply(lambda x: x[-4:])

credit_clients[credit_clients['year_employed']>50].head(10) #se observa que solo hay valores de 4 dígitos en la columna 'days_employed'

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
4,0,266,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,1015.719618
18,0,281,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car,1194.869065
24,1,8552,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate,1010.602845
25,0,3548,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate,1085.219371
30,1,5582,62,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate,1001.736324
35,0,4021,68,secondary education,1,civil partnership,1,M,retiree,0,12448.908,having a wedding,1176.182305
50,0,3731,63,secondary education,1,married,0,F,retiree,0,14774.837,cars,1055.914723
56,0,145,64,secondary education,1,widow / widower,2,F,retiree,0,23862.567,education,1104.910708
71,0,8114,62,secondary education,1,married,0,F,retiree,0,7028.751,cars,1009.294119
78,0,9723,61,bachelor's degree,0,married,0,M,retiree,0,28020.423,purchase of a car,1073.799836


In [None]:
#ahora convertimos la columna 'days_employed' a int nuevamente
credit_clients['days_employed'] = credit_clients['days_employed'].astype(int)

credit_clients['days_employed'].dtype

dtype('int32')

In [None]:

credit_clients['year_employed'] = credit_clients['days_employed']/335

credit_clients[credit_clients['year_employed']>50] #comprobamos si es que hay años trabajados superior a 50

#se observa que ya no hay ninguno

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed


In [None]:
#Ahora revisamos los datos de la columna 'dob_years'
credit_clients['dob_years'].unique()

#observamos que hay edades de cero años, lo cual es imposible

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75], dtype=int64)

In [None]:
#calculamos la cantidad de de edades = 0
credit_clients[credit_clients['dob_years']==0]['dob_years'].count() #hay 100 edades con valores de 0

100

In [None]:
#calculamos cuanto representa del total
round(100*credit_clients[credit_clients['dob_years']==0]['dob_years'].count()/len(credit_clients),2)

#observamos que las edades con valor cero representan el 0.47% del total.

0.47

In [None]:
#Reemplazamos los valores de las edades = 0 con el promedio de las edades
credit_clients['dob_years'] = credit_clients['dob_years'].replace(0, round(credit_clients['dob_years'].mean()))
credit_clients[credit_clients['dob_years']==0]['dob_years'].count()

0

In [None]:
#ahora revisamos la columna 'family_status'

print(credit_clients['family_status'].unique()) #observamos que no hay problemas con los valores únicos

credit_clients['family_status'].isna().sum() #observamos que tampoco hay nulos

# Todo está bien con la columna 'family_status'

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


0

In [None]:
#ahora revisamos la columna 'gender'
credit_clients['gender'].unique()

#observamos que hay un dato 'XNA'

array(['F', 'M', 'XNA'], dtype=object)

In [None]:
#vamos a filtrar la tabla por el dato 'XNA'
credit_clients[credit_clients['gender']=='XNA'] #observamos que solamente hay una fila

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
10701,0,2359,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate,7.041791


In [None]:
#como solamente hay una fila con el dato 'XNA' entonces la eliminamos
credit_clients = credit_clients.drop(credit_clients[credit_clients['gender']=='XNA'].index, axis=0)

credit_clients['gender'].unique() #verificamos que el dato ha sido eliminado puesto que ahora solamente hay 'F' y 'M'


array(['F', 'M'], dtype=object)

In [None]:
#Para que la tabla sea mejor entendida por cualquiera que la lea, entonces cambiaremos F por female y M por male

credit_clients.loc[credit_clients['gender'] == 'F', 'gender']= 'female'
credit_clients.loc[credit_clients['gender'] == 'M', 'gender']= 'male'

print(credit_clients['gender'].unique()) # ahora solo tenemos dos datos diferentes

credit_clients.head() #mostramos las primeras cinco columnas

['female' 'male']


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
0,1,8438,42,bachelor's degree,0,married,0,female,employee,0,40620.102,purchase of the house,25.18806
1,1,4025,36,secondary education,1,married,0,female,employee,0,17932.802,car purchase,12.014925
2,0,5623,33,secondary education,1,married,0,male,employee,0,23341.752,purchase of the house,16.785075
3,3,4125,32,secondary education,1,married,0,male,employee,0,42820.568,supplementary education,12.313433
4,0,266,53,secondary education,1,civil partnership,1,female,retiree,0,25378.572,to have a wedding,0.79403


En la columna de género había un dato introducido erróneamente 'XNA', se hizo el filtrado y solo hay una fila por lo que se eliminó dicha fila y además se renombró F por 'female' y M por 'male'.  
En la columna edades se reemplazó la edad = 0 por la edad promedio de la columna, esto con la finalidad de no eliminar datos.

In [None]:
#observamos que los datos en la columna 'income_type' están correctos
print(credit_clients['income_type'].unique())
print()
credit_clients['income_type'].isna().sum() #no hay valores nulos

['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']



0

In [None]:
# habíamos visto en los códigos líneas arriba que hay valores nulos en la columna 'total_income'
credit_clients['total_income'].isna().sum()

2162

In [None]:
#calculmeos el valor que representan los nulos respecto al total
round(100*(credit_clients['total_income'].isna().sum()/len(credit_clients)),2)

#no podemos eliminarlos porque representan el 10.1%

10.1

In [None]:
#antes de decidir que hacer con los valores ausentes de la columna 'total_income', verificamos si hay valores duplicados
credit_clients[credit_clients.duplicated(keep='first')]

#observamos que hay 71 datos duplicados

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed
2849,0,0,41,secondary education,1,married,0,female,employee,0,,purchase of the house for my family,0.0
3290,0,0,58,secondary education,1,civil partnership,1,female,retiree,0,,to have a wedding,0.0
4182,1,0,34,bachelor's degree,0,civil partnership,1,female,employee,0,,wedding ceremony,0.0
4851,0,0,60,secondary education,1,civil partnership,1,female,retiree,0,,wedding ceremony,0.0
5557,0,0,58,secondary education,1,civil partnership,1,female,retiree,0,,to have a wedding,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,0,64,secondary education,1,married,0,female,retiree,0,,supplementary education,0.0
21032,0,0,60,secondary education,1,married,0,female,retiree,0,,to become educated,0.0
21132,0,0,47,secondary education,1,married,0,female,employee,0,,housing renovation,0.0
21281,1,0,30,bachelor's degree,0,married,0,female,employee,0,,buy commercial real estate,0.0


In [None]:
# mostramos que porcentaje representan los duplicados del total

round(100*credit_clients.duplicated().sum()/len(credit_clients),2)

0.33

In [None]:
#como solo representan el 0.33% del total de datos, entonces eliminamos dichos duplicados
credit_clients = credit_clients.drop_duplicates().reset_index(drop=True)

credit_clients[credit_clients.duplicated()] #observamos que ya no hay datos duplicados

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed


In [None]:
#hacemos el nuevo cálculo de cuanto representan los valores ausentes en 'total_income' respecto al total
round(100*credit_clients['total_income'].isna().sum()/len(credit_clients),2)

#observamos que bajó a 9.8%, sin embargo sigue siendo alto por lo que estos registros no se deben eliminar para que no afecte los resultados

9.8

In [None]:
#observamos en el dataframe que hay valores que están asociados a un ID, esto nos recuerda a un diccionario (la clave sería el ID).
#las columnas que cumplen con esto son 'family_status' y 'education' las cuales tienen un código ID 'family_status_id' y 'education_id' respectivamente.
print('EDUCATION')
print(credit_clients['education_id'].unique())
print(credit_clients['education'].unique())
print()
print('FAMILY STATUS')
print(credit_clients['family_status_id'].unique())
print(credit_clients['family_status'].unique())

#observamos que cada identificador (clave) tiene asociado un valor.

EDUCATION
[0 1 2 3 4]
["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']

FAMILY STATUS
[0 1 2 3 4]
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


In [None]:
#Mostramos el primer diccionario:
dic_1 = {'education_id': [0,1, 2,3,4],
        'education': ["bachelor's degree",'secondary education','some college', 'primary education', 'graduate degree']        
}

tabla_1 = pd.DataFrame(dic_1)
tabla_1

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
2,2,some college
3,3,primary education
4,4,graduate degree


In [None]:
#Mostramos el segundo diccionario:
dic_2 = {'family_status_id': [0,1,2,3,4],
        'family_status': ['married', 'civil partnership', 'widow / widower', 'divorced', 'unmarried']        
}

tabla_2 = pd.DataFrame(dic_2)
tabla_2

Unnamed: 0,family_status_id,family_status
0,0,married
1,1,civil partnership
2,2,widow / widower
3,3,divorced
4,4,unmarried


In [None]:
#calculamos las edades máxima y mínima
credit_clients['dob_years'].max(), credit_clients['dob_years'].min()

(75, 19)

Al analizar la columna 'total_income' observamos que habían duplicados y valores nulos. Se procedió a eliminar los duplicados para que los resultados no tengan sesgo ya que se estarían analizando dos veces los mismos datos.  

Hemos calculado la edad mínima y máxima para tener una idea de como agrupar las edades de la mejor manera.

In [None]:
# crearemos una función para definir los rangos de edad y agregar una columna al data frame usando apply

def assign_age_group(dob_years):
    if dob_years >= 19 and dob_years<30: 
        return '19-29'
    elif dob_years <=39:
        return '30-39'
    elif dob_years <=49:
        return '40-49'
    elif dob_years<=59:
        return '50-59'
    elif dob_years <=69:
        return '60-69'
    else:
        return '70+'

credit_clients['dob_years_group'] = credit_clients['dob_years'].apply(assign_age_group)

credit_clients.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed,dob_years_group
0,1,8438,42,bachelor's degree,0,married,0,female,employee,0,40620.102,purchase of the house,25.18806,40-49
1,1,4025,36,secondary education,1,married,0,female,employee,0,17932.802,car purchase,12.014925,30-39
2,0,5623,33,secondary education,1,married,0,male,employee,0,23341.752,purchase of the house,16.785075,30-39
3,3,4125,32,secondary education,1,married,0,male,employee,0,42820.568,supplementary education,12.313433,30-39
4,0,266,53,secondary education,1,civil partnership,1,female,retiree,0,25378.572,to have a wedding,0.79403,50-59
5,0,926,27,bachelor's degree,0,civil partnership,1,male,business,0,40922.17,purchase of the house,2.764179,19-29
6,0,2879,43,bachelor's degree,0,married,0,female,business,0,38484.156,housing transactions,8.59403,40-49
7,0,153,50,secondary education,1,married,0,male,employee,0,21731.829,education,0.456716,50-59
8,2,6930,35,bachelor's degree,0,civil partnership,1,female,employee,0,15337.093,having a wedding,20.686567,30-39
9,0,2189,41,secondary education,1,married,0,male,employee,0,23108.15,purchase of the house for my family,6.534328,40-49


Hemos realizado un agrupamiento de las edades estableciendo 6 rangos de edad, esto nos servirá para calcular la media y la mediana de la columna 'total_income' agrupado por rangos de edad puesto que los ingresos de una persona también dependen, aparte de otros factores  como la educación o el tipo de empleo, de la edad. A mayor edad se tiene más experiencia y por ende puede que se le pague más a una persona.  

El rango de edad también será de utilidad para calcular la media y la mediana de la columna 'days_employed' para reemplazar los valores ausentes.

**Restauramos los valores ausentes en total_income**

In [None]:
#calculamos la media y la mediana para los ingresos totales de acuerdo a la educación
print(credit_clients.groupby('education').agg({'total_income':['mean','median']}))
print()

#calculamos el promedio total y la mediana total de los ingresos agrupados por educación
credit_clients.groupby('education').agg({'total_income':['mean','median']}).agg({('total_income','mean'):'mean',('total_income','median'):'median'})

                     total_income            
                             mean      median
education                                    
bachelor's degree    33167.337459  28086.5425
graduate degree      27960.024667  25161.5835
primary education    21144.882211  18741.9760
secondary education  24587.986103  21829.3420
some college         29033.960563  25618.4640



total_income  mean      27178.838201
              median    25161.583500
dtype: float64

In [None]:
#calculamos la media y la mediana para los ingresos totales de acuerdo al grupo de edad
print(credit_clients.groupby('dob_years_group').agg({'total_income':['mean','median']}))
print()
#calculamos el promedio total y la mediana total
credit_clients.groupby('dob_years_group').agg({'total_income':['mean','median']}).agg({('total_income','mean'):'mean',('total_income','median'):'median'})

                 total_income            
                         mean      median
dob_years_group                          
19-29            25544.231203  22765.2935
30-39            28314.525654  24699.5815
40-49            28514.403672  24770.4920
50-59            25807.707523  22195.8470
60-69            23236.985508  19811.3260
70+              20125.658331  18751.3240



total_income  mean      25257.251982
              median    22480.570250
dtype: float64

In [None]:
#calculamos la media y la mediana para los ingresos totales de acuerdo al tipo de ingreso
print(credit_clients.groupby('income_type').agg({'total_income':['mean','median']}))
print()
#calculamos el promedio total y la mediana total
credit_clients.groupby('income_type').agg({'total_income':['mean','median']}).agg({('total_income','mean'):'mean',('total_income','median'):'median'})

                             total_income            
                                     mean      median
income_type                                          
business                     32413.685392  27602.5060
civil servant                27318.902910  24067.2240
employee                     25818.401986  22814.0140
entrepreneur                 79866.103000  79866.1030
paternity / maternity leave   8612.661000   8612.6610
retiree                      21951.754892  18956.9340
student                      15712.260000  15712.2600
unemployed                   21014.360500  21014.3605



total_income  mean      29088.51621
              median    21914.18725
dtype: float64

"De los resultados anteriores observamos que la mediana es un valor mas exacto que el promedio en este caso en vista que 
la variación entre las tres medianas por tipo de ingreso, educación y edad es menor que el promedio por tipo de ingreso, educación y edad.

Llenaremos los valores nulos de la columna 'total_income' con la mediana de acuerdo a la educación, esto porque la diferencia entre la mediana
y el promedio es menor en esta clasificación en comparación con el grupo de edad y tipo de ingreso."

In [None]:
#creamos una función para rellenar los valores nulos con la mediana del total_income de acuerdo a education
#target_column es la columna donde se reemplazarán los valores ausente
#column_to_replace es la columna a tener en cuenta para el cálculo de la mediana

def fillna_by_other_column(credit_clients, target_column, column_to_replace, agg = "median"): 
    grouped = credit_clients.groupby(column_to_replace).agg({target_column: ["mean","median"]})

    for index in grouped.index:
        credit_clients.loc[credit_clients[target_column].isna() & (credit_clients[column_to_replace] == index),  target_column] = grouped.loc[index,(target_column, agg)]
        
    return credit_clients

credit_clients = fillna_by_other_column(credit_clients, "total_income", "education")

credit_clients['total_income'].isna().sum() #comprobamos que ya no hay valores nulos

0

**Restauramos los valores ausentes en days_employed**

In [None]:
#calculamos la media y la mediana para los dias trabajados de acuerdo a la educación
education_mean_median = pd.DataFrame(credit_clients.groupby('education').agg({'days_employed':['mean','median']}))
education_mean_median

#calculamos el promedio total y la mediana total
education_mean_median_total = credit_clients.groupby('education').agg({'days_employed':['mean','median']}).agg({('days_employed','mean'):'mean',('days_employed','median'):'median'})
#print(education_mean_median_total)

In [None]:
#calculamos la media y la mediana para los dias trabajados de acuerdo al status
print(credit_clients.groupby('family_status').agg({'days_employed':['mean','median']}))
print()
#calculamos el promedio total y la mediana total
credit_clients.groupby('family_status').agg({'days_employed':['mean','median']}).agg({('days_employed','mean'):'mean',('days_employed','median'):'median'})

                  days_employed        
                           mean  median
family_status                          
civil partnership   2416.324462  1535.0
divorced            2602.227923  1720.0
married             2611.442705  1735.0
unmarried           2012.059728  1197.0
widow / widower     3643.610936  2960.0



days_employed  mean      2657.133151
               median    1720.000000
dtype: float64

In [None]:
#calculamos la media y la mediana para los dias trabajados de acuerdo a la edad
print(credit_clients.groupby('dob_years_group').agg({'days_employed':['mean','median']}))
print()
#calculamos el promedio total y la mediana total
credit_clients.groupby('dob_years_group').agg({'days_employed':['mean','median']}).agg({('days_employed','mean'):'mean',('days_employed','median'):'median'})

                days_employed        
                         mean  median
dob_years_group                      
19-29             1107.878357   905.0
30-39             1852.561422  1392.0
40-49             2510.633629  1756.5
50-59             3452.820989  2511.0
60-69             4263.403531  3877.5
70+               4562.526627  4123.0



days_employed  mean      2958.304093
               median    2133.750000
dtype: float64

"De los resultados anteriores observamos que el promedio es un valor mas exacto que la mediana en este caso en vista que la variación entre las medias por educación, status y edad es menor que la mediana por tipo de educación, status y edad.

Llenaremos los valores nulos de la columna 'days_employed' con la media de acuerdo al status, esto porque la diferencia entre la mediana
y el promedio es menor en esta clasificación en comparación con el grupo de edad y educación."

In [None]:
def fillna_by_other_column(credit_clients, target_column, column_to_replace, agg = "mean"): 
    grouped = credit_clients.groupby(column_to_replace).agg({target_column: ["mean","median"]})

    for index in grouped.index:
        credit_clients.loc[credit_clients[target_column]==0 & (credit_clients[column_to_replace] == index),  target_column] = grouped.loc[index,(target_column, agg)]
        
    return credit_clients

credit_clients = fillna_by_other_column(credit_clients, "days_employed", "family_status")

credit_clients['days_employed'].isna().sum() #comprobamos que ya no hay valores nulos

0

In [None]:
credit_clients.info() #verificamos que ya no hayan nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21330 entries, 0 to 21329
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21330 non-null  int64  
 1   days_employed     21330 non-null  float64
 2   dob_years         21330 non-null  int64  
 3   education         21330 non-null  object 
 4   education_id      21330 non-null  int64  
 5   family_status     21330 non-null  object 
 6   family_status_id  21330 non-null  int64  
 7   gender            21330 non-null  object 
 8   income_type       21330 non-null  object 
 9   debt              21330 non-null  int64  
 10  total_income      21330 non-null  float64
 11  purpose           21330 non-null  object 
 12  year_employed     21330 non-null  float64
 13  dob_years_group   21330 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [None]:
#observamos que luego de la depuración y limpieza nos hemosmquedado con 21230 registros, en un inicio teníamos 21525

round(100*21230/21525) # como se observa, la depuración y limpieza representa el 1% del total

99

In [None]:
#crearemos una columna para clasificar el nivel de ingresos

#credit_clients['total_income'].min() = 3306.76 calculamos el valor mínimo como referencia
#credit_clients['total_income'].max() = 362496.65 calculamos el valor máximo como referencia

def total_income_group(total_income):
    if  0 < total_income < 30000:
        return 'bajo'
    elif 30000 <= total_income < 170000:
        return 'medio'
    else:
        return 'alto'

credit_clients['total_income_group'] = credit_clients['total_income'].apply(total_income_group)
credit_clients.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,year_employed,dob_years_group,total_income_group
0,1,8438.0,42,bachelor's degree,0,married,0,female,employee,0,40620.102,purchase of the house,25.18806,40-49,medio
1,1,4025.0,36,secondary education,1,married,0,female,employee,0,17932.802,car purchase,12.014925,30-39,bajo
2,0,5623.0,33,secondary education,1,married,0,male,employee,0,23341.752,purchase of the house,16.785075,30-39,bajo
3,3,4125.0,32,secondary education,1,married,0,male,employee,0,42820.568,supplementary education,12.313433,30-39,medio
4,0,266.0,53,secondary education,1,civil partnership,1,female,retiree,0,25378.572,to have a wedding,0.79403,50-59,bajo


Hemos agrupado los ingresos en rangos bajo, medio y alto. Esto servirá para analizar la hipótesis 3.

In [None]:
#revisamos la columna 'purpose'
credit_clients['purpose'].unique()

#observamos que hay varios nombres que significan los mismo

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [None]:
#creamos una función para reemplazar los nombres que significan lo mismo por uno solo que los englobe

def replace_wrong_values(wrong_values, correct_value): # pasamos una lista de valores incorrectos y una string con el valor correcto en la entrada de la función
    for wrong_value in wrong_values: # un bucle sobre nombres mal escritos
        credit_clients['purpose'] = credit_clients['purpose'].replace(wrong_value, correct_value) # llamamos a replace() por cada nombre incorrecto



In [None]:
#llamamos a la función para remmplazar todos los nombres que significan lo mismo por una sola palabra 'buy/construction a property'
duplicates = ['purchase of the house for my family','purchase of the house', 'housing transactions', 
                'construction of own property', 'property', 'building a property', 'housing', 'purchase of my own house', 
                'buying property for renting out', 'housing renovation' 
] # una lista de nombres mal escritos
correct_name = 'buy/construction a property' # el nombre correcto
replace_wrong_values(duplicates, correct_name) 

In [None]:
#llamamos a la función para remmplazar todos los nombres que significan lo mismo por una sola palabra 'to buy a car'
duplicates = ['car purchase', 'buying a second-hand car', 'buying my own car', 
                'cars', 'second-hand car purchase', 'car', 'to own a car', 'purchase of a car' 
] 
correct_name = 'to buy a car' 
replace_wrong_values(duplicates, correct_name) 

In [None]:
#llamamos a la función para remmplazar todos los nombres que significan lo mismo por una sola palabra 'education'
duplicates = ['supplementary education', 'to become educated', 'getting an education', 
                'to get a supplementary education', 'getting higher education', 'profile education', 'university education', 'going to university' 
] 
correct_name = 'education' 
replace_wrong_values(duplicates, correct_name) 

In [None]:
#llamamos a la función para remmplazar todos los nombres que significan lo mismo por una sola palabra 'buy/building real state'
duplicates = ['buy commercial real estate', 'buy real estate', 'buy residential real estate', 'transactions with commercial real estate', 
                'building a real estate', 'transactions with my real estate', 'real estate transactions'
] 
correct_name = 'buy/building real state' 
replace_wrong_values(duplicates, correct_name) 

In [None]:
#llamamos a la función para remmplazar todos los nombres que significan lo mismo por una sola palabra 'to have a wedding'
duplicates = ['having a wedding', 'wedding ceremony', 'transactions with commercial real estate', 
                'building a real estate', 'transactions with my real estate', 'real estate transactions'
] 
correct_name = 'to have a wedding' 
replace_wrong_values(duplicates, correct_name) 

In [None]:
credit_clients['purpose'].unique() # ahora tenemos el nuevo DataFrame sin duplicados

array(['buy/construction a property', 'to buy a car', 'education',
       'to have a wedding', 'buy/building real state'], dtype=object)

Listo, nuestra función creada funciona correctamente y hemos reemplazado los propósitos que significan lo mismo por un único propósito que los agrupe. Como se puede observar los datos de la columna 'purpose' ahora son más entendibles y mejor trabajables para realizar la comprobación de la hipótesis 4.

## **Comprobación de las hipótesis**

### 1. ¿Existe una correlación entre tener hijos y pagar a tiempo?

In [None]:
#veamos la relación entre hijos y pago de deuda
children_debt = credit_clients.pivot_table(index='children', columns='debt', values='education_id', aggfunc='count', margins=True)
children_debt

#observamos que los clientes con más hijos son los que presentan menos deuda y los que tienen 5 hijos no tienen deuda
#también se observa que mientras menos hijos tienen los clientes, más deuda presentan


debt,0,1,All
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13027.0,1063.0,14090
1,4364.0,444.0,4808
2,1858.0,194.0,2052
3,303.0,27.0,330
4,37.0,4.0,41
5,9.0,,9
All,19598.0,1732.0,21330


In [None]:
#calculamos la tasa de incumplimiento en función del número de hijos
children_debt['tasa_incumplimiento'] = round(100*children_debt[1]/children_debt['All'],2)
children_debt

#observamos que a medida que aumenta el número de hijos, la tasa de incumplimiento de la deuda aumenta con excepción
#de los que tienen tres pero que igualmente sigue siento alta y mayor a los que no tienen hijos

debt,0,1,All,tasa_incumplimiento
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13027.0,1063.0,14090,7.54
1,4364.0,444.0,4808,9.23
2,1858.0,194.0,2052,9.45
3,303.0,27.0,330,8.18
4,37.0,4.0,41,9.76
5,9.0,,9,
All,19598.0,1732.0,21330,8.12


Comprobamos entonces que la primera hipotésis es correcta, hay una correlación entre el número de hijos y el pago de la deuda observándose que la tasa de incumplimiento de pago de la deuda va en aumento conforme se tiene más hijos. Para las personas que tienen 3 hijos la tasa de incumplimiento es del 8.23% siendo menor que los que tienen dos hijos pero mayor que los que no tienen hijos. Así mismo las personas que tienen 5 hijos no tienen ninguna deuda.

En resumen los clientes que tienen de 0-4 hijos presentan una correlación con el incuplimiento del pago de la deuda mientras más hijos tienen y los clientes con 5 hijos no presentan deuda.

### 2. ¿Existe una correlación entre la situación familiar y el pago a tiempo?

In [None]:
family_status_debt = credit_clients.pivot_table(index='family_status', values = 'family_status_id', columns= 'debt', aggfunc='count').sort_values(by=1, ascending=False)
family_status_debt

#observamos que los casados son los que más deuda presentan, seguido por los de casados, seguido por los solteros
# luego los divorciados y finalmente los viudos son los que menos deuda presentan


debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
married,11334,927
civil partnership,3748,385
unmarried,2523,273
divorced,1105,84
widow / widower,888,63


In [None]:
##calculamos la tasa de incumplimiento de pago en función del estado civil
family_status_debt['total'] = family_status_debt[0]+family_status_debt[1]
family_status_debt['tasa_incumplimiento'] = round(100*family_status_debt[1]/family_status_debt['total'],2)
family_status_debt.sort_values(by='tasa_incumplimiento', ascending=False)


debt,0,1,total,tasa_incumplimiento
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
unmarried,2523,273,2796,9.76
civil partnership,3748,385,4133,9.32
married,11334,927,12261,7.56
divorced,1105,84,1189,7.06
widow / widower,888,63,951,6.62


Se observa que existe una correlación entre el estado civil de los clientes y el incumplimiento de pago. En la tabla anterior se observa que los solteros son lo que más incumplen sus pagos, seguido por los casados, luego los divorciados y finalmente los viudos son los que menos tasa en el incumplimiento de pago presentan.

### 3. ¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?

In [None]:
total_income_debt = credit_clients.pivot_table(index='total_income_group', columns='debt', values='total_income', aggfunc='count').sort_values(by=1, ascending=False)
total_income_debt

#se observa que 1291 cliente con ingresos bajos tienen deuda, 432 clientes con ingresos medios tienen deuda y solamente un cliente con ingresos altos
#presenta deuda

debt,0,1
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1
bajo,14145,1298
medio,5434,433
alto,19,1


In [None]:
#calculamos la tasa de incumplimiento
total_income_debt['tasa_incumplimiento'] = round(100*total_income_debt[1]/(total_income_debt[1]+total_income_debt[0]),2)
total_income_debt

debt,0,1,tasa_incumplimiento
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bajo,14145,1298,8.41
medio,5434,433,7.38
alto,19,1,5.0


Podemos concluir que existe correlación entre el nivel de ingreso de una persona con el incumplimiento de pago de la deuda, esto en vista de que el 8.4% de los clientes con ingresos bajos no cumplen con el pago de la deuda, el 7.4% de los clientes con ingresos medios no cumplen con el pago de la deuda y respecto a los clientes con ingresos altos solamente el 5% no cumple con el pago de la deuda.

Mientras los niveles de ingresos sean más bajos, es más probable incumplir el pago de la deuda a tiempo.

### 4. ¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?

In [None]:
credit_purpose_debt = credit_clients.pivot_table(index='purpose', columns='debt', values='education_id', aggfunc='count')
credit_purpose_debt

debt,0,1
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
buy/building real state,4100,335
buy/construction a property,5870,445
education,3619,369
to buy a car,3879,400
to have a wedding,2130,183


In [None]:
credit_purpose_debt['tasa_incumplimiento'] = round(100*credit_purpose_debt[1]/(credit_purpose_debt[0]+credit_purpose_debt[1]),2)
credit_purpose_debt.sort_values(by='tasa_incumplimiento', ascending=False)

debt,0,1,tasa_incumplimiento
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
to buy a car,3879,400,9.35
education,3619,369,9.25
to have a wedding,2130,183,7.91
buy/building real state,4100,335,7.55
buy/construction a property,5870,445,7.05


Observamos que cuando el préstamo es para fines de educación y para la compra de un carro hay una mayor tasa de incumplimiento del pago del 9.29% y 9.02% respectivamente. Cuando el préstamo es para bienes raíces la tasa de incumplimiento de pago es menor siendo de 7.58% para real state y 7.19% para property

## **Conclusión general**

De acuerdo al trabajo realizado para abordar las hipótesis planteadas podemos hacer conslusiones bajo dos enfoques.

**1. Preprocesamiento de los datos:**

  * Determinamos que nuestro DataFrame tenía dos columnas con valores nulos, estas eran las columnas `days_employed` y `total_income`. Además en la columna `days_employed` había datos negativos y datos que excedían demasiado el tiempo que puede trabajar una persona ya que al hacer la transformación de días a años encontramos valores por encima de los 900 años.
  * La columna de `education` presentaba datos duplicados y en la columna `children` habían valores que no eran coherentes con la realidad, habían clientes que tenían -1 hijos y 20 hijos.
  * En la columna `dob_years` encontramos edades de cero años lo cual es impossible.
  * En cuanto a los datos de la columna `gender` habían datos incorrectos y se cambió las iniciales del género 'F' por 'female' y 'M' por 'male'.
  * Respecto a la columna `purpose` habían datos escritos de forma diferente pero que significaban lo mismo, en otras palabras habían duplicados.
  * Las columnas `family_status` e `income_type` no presentaron ningún problema.
  * Se creó una función para definir rangos de edad en una nueva columna del DataFrame llamada `dob_years_group`.
  * Se creó una función para definir el nivel de ingresos de los clientes (bajo, medio, alto) en una nueva columna del DataFrame llamada `total_income_group`.
  * Se calculó la media y la mediana para rellenar los valores ausenten en la columna `total_income` en función a 03 diferentes factores `education`, `dob_years_group` e `income_type`. Los valores que más se ajustaban fue en base a la mediana agrupado por `education`.
  * Se calculó la media y la mediana para rellenar los valores ausenten en la columna `days_employed` en función a 03 diferentes factores `education`, `dob_years_group` y `family_status`. Los valores que más se ajustaban fue en base a la media agrupado por `family_status`.
  * Se creó una función para rellenar los valores ausenten en las columnas `total_income` y `days_employed`.
  * Se creó una función para reemplazar los datos duplicados de la columna`purpose`.
  * Se crearon tablas de banda ancha para el análisis de las hipótesis.

Para todos los problemas descritos se hizo el análisis y limpieza correspondiente para comprobar las hipótesis.

**2. Comprobación de hipótesis:**

  * Comprobamos que existe una correlación directa entre el número de hijos y el incumplimiento del pago de la deuda. Clientes con menos hijos presentan una tasa de incumplimiento menor respecto a los que tienen más hijos.
  * Comprobamos que existe una correlación entre el estado civil de los clientes y el incumplimiento de pago de la deuda. Se observó que los solteros son los que más incumplen sus pagos, seguido por los casados, luego los divorciados y finalmente los viudos son los que menos tasa en el incumplimiento de pago presentan.
  * Comprobamos que existe una correlación entre el nivel de ingreso de una persona con el incumplimiento de pago de la deuda. Se observó que el 8.4% de los clientes con ingresos bajos no cumplen con el pago de la deuda, el 7.4% de los clientes con ingresos medios no cumplen con el pago de la deuda y respecto a los clientes con ingresos altos solamente el 5% no cumple con el pago de la deuda. Mientras los niveles de ingresos sean más bajos, es más probable incumplir el pago de la deuda a tiempo.
  * Comprobamos que de acuerdo a los fines para los que se solicita el préstamo la tasa de incumplimiento de pago puede ser menor o mayor. Se observa que si el préstamo es para fines de educación, para la compra de un carro o para una boda las tasas de incumplimiento son del 9.29%, 9.02% y 7.87% respectivamente; mientras que si el préstamo es para bienes raíces las tasas de incumplimiento son ligeramente menores del 7.58% para real state y 7.19% para una propiedad.
 