# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


A continuación se procederá a realizar la carga de la data y a examinar los datos para evaluar su inegridad con el fin de llegar a la puntuación del crédito.

## Abre el archivo de datos y mira la información general. 



In [1]:
import pandas as pd

#se almacenará la información en la variable credit_score
credit_score = pd.read_csv("/datasets/credit_scoring_eng.csv")
#se solicita la información general de los datos
credit_score.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


De la observación de los datos se puede concluir:
1. Las columnas: "days_employed" y "total_income", tienen datos ausentes, dado que el total de los datos es de 21525 y estas dos columnas presentan 19351 cada una, coincidencia entre ellas?, posiblemente no, al parecer son los mismos registros u solicitantes que no dieron la información completa. Esto trataremos de confirmarlo más adelante en nuestro análisis!.
2. Los identificadores de las columnas (nombres) son apropiados y cumplen con las reglas de python, es decir, están en minúsculas, con separadores y su nombre hacer referencia o nos da una idea del contenido del dato.

In [2]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
credit_score.shape


(21525, 12)

Con la llamada de la función shape, se observó que el conjunto de datos cuenta con 21525 filas y 12 columnas. Ahora daremos un vistazo a los datos y solicitaremos información para detectar anomalias.

In [3]:
# vamos a mostrar las primeras filas N
credit_score.head(20)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Analizando la información entregada, se observa:
1. Las columnas "days_employed" y "total income" muestran valores ausentes, que pareciera se corresponden entre si por el número de la fila en que se presentan, es decir, ambos están presentes en el mismo registro o fila. Esto ya fue presentado en la tabla de información.
2. La columna "days_employed" muestra números negativos, lo cual representa un problema, ya que en la realidad no es posible, trataremos más adelante de averiguar que paso con esta información.
3. La columna "education" muestra datos en mayúsculas y minúsculas, por lo que hay que normalizarla todo a minúscula, es posible que en otras columnas también suceda lo mismo, por lo que hay que analizarla una a una más adelante, ¡por lo pronto nos enfocaremos en los datos ausentes!.
4. Las columnas "education", "family_status", "gender", "income_type" y "purpose", son variables cualitativas tipo objeto.
5. Las columnas restantes fueron declaradas como cuantitativas, numéricas.

In [4]:
# Obtener información sobre los datos
credit_score.isna().sum()


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

1. Las columnas "days_employed"  y "total_income" muestran un total de 2174 datos ausentes cada una, parece que existe una relación entre ambas, es decir, ambas informaciones fueron omitidas por el usuario en el registro.Coincidencia?.
2.Estas columnas representan variables cuantitativas.
3.El resto de los datos están completos.

In [5]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit_score_employed = credit_score[credit_score["days_employed"].isna()]
credit_score_employed.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


Ahora para estar segura voy a realizar un doble filtrado por datos ausentes y comprobar si hay simetria en las dos columnas donde faltan datos, es decir, si el solicitante dejo ambos campos sin datos al someter la información.

In [6]:
#credit_score[(credit_score["days_employed"].isna()) & (credit_score["total_income"].isna())]
credit_score_filtrado_nulo = credit_score[credit_score["days_employed"].isna()]
credit_score_filtrado_nulo = credit_score_filtrado_nulo[credit_score_filtrado_nulo["total_income"].isna()]
credit_score_filtrado_nulo.head(20)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [7]:
#comprobación de la distribución
credit_score_filtrado_nulo.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,2174.0,0.0,2174.0,2174.0,2174.0,2174.0,0.0
mean,0.552438,,43.632015,0.800828,0.975161,0.078197,
std,1.469356,,12.531481,0.530157,1.41822,0.268543,
min,-1.0,,0.0,0.0,0.0,0.0,
25%,0.0,,34.0,0.25,0.0,0.0,
50%,0.0,,43.0,1.0,0.0,0.0,
75%,1.0,,54.0,1.0,1.0,0.0,
max,20.0,,73.0,3.0,4.0,1.0,


Al realizar el filtro por valores ausentes en la columna "days_employed" se observa que existe una aparente correlación con los datos ausentes de la columna "total_income", ya que ambas tienen esos datos ausentes, es decir ambas presentan las mismas 2174 filas, esto tambien se corrobora en la tabla de datos estadísticos(describe).


In [8]:
#Se determina el porcentaje de datos ausentes en relación a la data original
credit_score_original_ausentes = credit_score["days_employed"].count()
credit_score_total_original = credit_score["days_employed"].size

porcentaje_credit_score_ausentes = (credit_score_total_original-credit_score_original_ausentes)/credit_score_total_original
print(f"Porcentaje de datos ausentes en la data original:{porcentaje_credit_score_ausentes:.0%}")

Porcentaje de datos ausentes en la data original:10%


Conclusión intermedia:

Con el cálculo que se acaba de realizar, se determinó que el 10% de la data original presenta faltante en los campos de "days_employed" y "total_income". Se puede pensar en las siguientes hipótesis:

1. Es posible que estos solicitantes tengan un trabajo que no sea continuo, es decir, trabajan por: contratos o proyectos.
2. Es posible que trabajen por su cuenta y generan una cantidad de dinero considerada y por razones de seguridad prefieren no divulgarla.
3. no trabajen


In [9]:
#ahora se hace el cálculo considerando la columna "days_employed" y la columna "income_type" con y sin datos ausentes:
def funcion(df, columna, columna_1):
    p1 = df[columna].value_counts(normalize=True) 
    p2 = df[df[columna_1].isna()][columna].value_counts(normalize=True)
    d = pd.concat([p1, p2], axis=1)
    d.columns = ['original', 'con datos ausentes']
    return d
funcion(credit_score, "income_type", "days_employed")

Unnamed: 0,original,con datos ausentes
employee,0.516562,0.50828
business,0.236237,0.233671
retiree,0.179141,0.189972
civil servant,0.067782,0.067617
unemployed,9.3e-05,
entrepreneur,9.3e-05,0.00046
paternity / maternity leave,4.6e-05,
student,4.6e-05,


In [10]:
#ahora se hace el cálculo considerando la columna "days_employed" y la columna "family_status" con y sin datos ausentes

funcion(credit_score, "family_status", "days_employed")

Unnamed: 0,original,con datos ausentes
married,0.575145,0.568997
civil partnership,0.194053,0.203312
unmarried,0.130685,0.132475
divorced,0.055517,0.051518
widow / widower,0.044599,0.043698


In [11]:
#ahora comparemos con las otras dos columnas categoricas:

funcion(credit_score, "gender", "days_employed")


Unnamed: 0,original,con datos ausentes
F,0.66137,0.682613
M,0.338583,0.317387
XNA,4.6e-05,


In [12]:

funcion(credit_score, "purpose", "days_employed")

Unnamed: 0,original,con datos ausentes
wedding ceremony,0.037027,0.034959
having a wedding,0.036098,0.042318
to have a wedding,0.035958,0.037259
real estate transactions,0.031405,0.028059
buy commercial real estate,0.030848,0.030819
housing transactions,0.030337,0.034039
buying property for renting out,0.030337,0.029899
transactions with commercial real estate,0.030244,0.032199
purchase of the house,0.030058,0.023919
housing,0.030058,0.027599


In [13]:

funcion(credit_score, "debt", "days_employed")


Unnamed: 0,original,con datos ausentes
0,0.919117,0.921803
1,0.080883,0.078197


In [14]:
#calculo de personas deudoras en la muestra de datos original
credit_score_deudores_totales=credit_score["debt"].sum()
credit_score_deudores_en_data_original=credit_score["debt"].shape[0]
#calculo de deudores en la data filtrada por ausentes
credit_score_deudores_con_datos_ausentes=credit_score_filtrado_nulo["debt"].sum()
credit_score_deudores_con_datos_ausentes_original=credit_score_filtrado_nulo["debt"].shape[0]
#cálculo de porcentaje de deudores
relacion_deudores_totales=credit_score_deudores_totales/credit_score_deudores_en_data_original
relacion_de_deudores_ausentes=credit_score_deudores_con_datos_ausentes/credit_score_deudores_con_datos_ausentes_original
print(f'Deudores totales {relacion_deudores_totales:.2%}'.format(relacion_deudores_totales))
print(f'Deudores con datos ausentes {relacion_de_deudores_ausentes:.2%}'.format(relacion_de_deudores_ausentes))


Deudores totales 8.09%
Deudores con datos ausentes 7.82%


Las personas sin deudas (92%) son las que dejaron de proporcionar los datos de salarios y tiempo de servicio, contrario a lo esperado por lo que no se encuentra relación.

In [15]:
# Comprobando la distribución en el conjunto de datos entero con las variables cuantitativas:
# para las variables cuantitativas se procedio a determinar los parámtros estadísticos con el metodo describe() antes de eliminar los valores ausentes
credit_score.describe()


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [16]:
#igualmente se determino el calculo de coeficiente de correlación según el método pherson, esto para ver la contribución de cada variable
credit_score.corr(method="pearson")




Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
children,1.0,-0.138354,-0.174358,-0.012695,-0.091284,0.01847,0.01822
days_employed,-0.138354,1.0,0.582643,0.080565,0.005726,-0.04711,-0.136648
dob_years,-0.174358,0.582643,1.0,0.067467,-0.069988,-0.06962,-0.052911
education_id,-0.012695,0.080565,0.067467,1.0,0.007876,0.052906,-0.178885
family_status_id,-0.091284,0.005726,-0.069988,0.007876,1.0,0.020611,-0.009147
debt,0.01847,-0.04711,-0.06962,0.052906,0.020611,1.0,-0.012475
total_income,0.01822,-0.136648,-0.052911,-0.178885,-0.009147,-0.012475,1.0


In [17]:

funcion(credit_score, "dob_years", "days_employed")

Unnamed: 0,original,con datos ausentes
0,0.004692,0.0046
19,0.00065,0.00046
20,0.002369,0.0023
21,0.005157,0.00828
22,0.008502,0.00782
23,0.0118,0.016559
24,0.012265,0.00966
25,0.016585,0.01058
26,0.018955,0.016099
27,0.022904,0.016559


In [18]:

funcion(credit_score, "children", "total_income")

Unnamed: 0,original,con datos ausentes
-1,0.002184,0.00138
0,0.657329,0.661914
1,0.223833,0.218491
2,0.09547,0.093836
3,0.015331,0.016559
4,0.001905,0.00322
5,0.000418,0.00046
20,0.003531,0.00414


Con las variables cuantitativas:


2. De acuerdo al índice de correlación, se observó que aparentemente para la columna "days_employed" la mayor relación es con "dob_years" y sin embargo, es tan variado el rango de edades que no hay un patrón definido. 
3. Para la columna "total_income" hay una debil relacion con "children" y son aquellos solicitantes sin hijos los que mayormente dejaron de reportar sus ingresos.
 



**Conclusiones**

Con la información suministrada y el análisis realizado no se encontró ningún patrón que sugiera la ausencia de datos en los campos de salario y tiempo de servicio. Si se analizó la relación con las variables categóricas y cuantitativas, sin embargo, no siguen un patrón.

A continuación, seguiremos con el análisis de la información y para ello abordaremos algunos problemas detectados y mencionados al principio del proyecto:

1. En la columna "days_employed" hay valores negativos. 

2. La columna "children" reporta valores negativos.

3. valores repetidos en minúsculas y mayúsculas en la columna "education"



## Transformación de datos

El primer problema detectado fue en la columna de "education" en donde se observan campos repetidos pero por el uso de mayúsculas, por lo que se procederá a convertir todo el campo en minúscula.



In [19]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print(credit_score["education"].unique())

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [20]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
credit_score["education"]=credit_score["education"].str.lower()


In [21]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
print(credit_score["education"].unique())

["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']


Ahora se realizara un llamado de la función value_counts para detectar los valores en la columna "children" ya que al menos se observó en los llamados anteriores de la tabla la presencia de número negativo.

In [22]:
# Veamos la distribución de los valores en la columna `children`
credit_score["children"].value_counts() 


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [23]:
credit_score["children"].describe()

count    21525.000000
mean         0.538908
std          1.381587
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

En la columna children se observa que existen datos inconsistentes:
1. cantidad de hijos negativos 
2. Cantidad de hijos 20, lo que se sale del tercer cuartil

In [24]:
credit_score["children"].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

 
Revisando los datos proporcionados en la columna "children" se observa que existe una porción con el valor de -1, lo cual es ilógico con la realidad, pues nadie tiene hijos "negativos" o si?, la verdad es que los solicitantes tienen hijos (hijos > 0) o no tienen (hijos = 0).
1. Sin embargo, el porcentaje de datos con valores negativos es menor a 1% por lo que se podrían eliminar ó sustituir por "1", asumiendo un error de dedo o bien hasta podría deberse a que su hijo fallecio o aún no nace.........ya estamos especulando.

2. El valor de 20 tambien es menor al 1% por lo que igualmente se puede asumir un error de dedo y fuere de 2 el valor real.

Para proseguir con nuestro análisis cambiaremos estos valores por 1 y 2.

In [25]:
# [arregla los datos según tu decisión]
credit_score.loc[credit_score["children"]==-1, "children"] = 1
credit_score.loc[credit_score["children"]==20, "children"] = 2

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Excelente y lógica decisión!!    
</div>

In [26]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
print(credit_score["children"].unique())


[1 0 3 2 4 5]


Ahora se procederá con la columna "days_employed" la cual ya se sabe de antemano que tiene números negativos, pero profundizaremos un poco más a ver si hay alguna incosistencia.

In [27]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
credit_score["days_employed"].value_counts()


-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64

In [28]:
#determinaremos el porcentaje de la data que corresponde a números negativos para ver si fue un error de dedo que pueda ser descartado
porcentaje_days_employed =credit_score.loc[credit_score["days_employed"]<0].count()["days_employed"] /credit_score["days_employed"].count()
print(f"porcentaje de tiempo de servicio con valor menor a cero:{porcentaje_days_employed:.0%}")

porcentaje de tiempo de servicio con valor menor a cero:82%


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Muchos datos negativos!</div>

In [29]:
# Aborda los valores problemáticos, si existen.
credit_score["days_employed_year"]=credit_score["days_employed"]/365
credit_score.head(20)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,-23.116912
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,-11.02686
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,-15.406637
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,-11.300677
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.235814
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,-2.537495
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,-7.888225
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,-0.418574
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,-18.985932
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,-5.996593


Del análisis de la columna de days_employed se desprende lo siguiente:
1. Existe un 82% de valores negativos, lo cual nos indica que no pueden ser eliminados estos registros. Muy posiblemente estos valores se deba a que al momento de realizar la resta de las fechas de inicio y término del trabajo se hizo considerando el año inicial menos el final y de alli el valor negativo.
2. Al convertir esta columna en años se observan valores inconsistentes como 900 o 1000 años, lo cual tambien resulta ilógico para la antiguedad en un trabajo de alguna persona !Ni que fuera Matusalen¡

Para eliminar los negativos procederemos con la función valor absoluto.
y para la inconsistencia de años de servicio realizaremos un filtro con income_type y dob_years colocando 40 como años de servicio máximo.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Matusalén no es de esta época, exacto! Buena y lógica decisión cambiar a positivos los años negativos! Y bien hecho el proceso </div>

In [30]:
#Transformaremos los valores negativos en positivos con la funcion valor absoluto
credit_score["days_employed"]=credit_score["days_employed"].abs()
credit_score["days_employed_year"]=credit_score["days_employed_year"].abs()
credit_score.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,932.235814
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,2.537495
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,7.888225
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.418574
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,18.985932
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,5.996593


In [31]:
credit_score["days_employed_year"].value_counts(normalize=True)

2.514130       0.000052
5.101491       0.000052
3.107746       0.000052
12.225346      0.000052
1076.536946    0.000052
                 ...   
1073.888785    0.000052
3.551089       0.000052
0.925910       0.000052
3.871231       0.000052
5.886062       0.000052
Name: days_employed_year, Length: 19351, dtype: float64

In [32]:
credit_score["days_employed_year"].describe()

count    19351.000000
mean       183.328024
std        380.906522
min          0.066141
25%          2.539751
50%          6.011563
75%         15.172281
max       1100.699727
Name: days_employed_year, dtype: float64

En el cálculo de los parámetros estadísticos se observa que el 3er cuartil tiene un valor de 15, ya el máximo 110 esta fuera de rango

In [33]:
print(f'Porcentaje de tiempo de servicio mayor a 40 años:', credit_score[credit_score["days_employed_year"]>40].shape[0]/credit_score.shape[0]*100)

Porcentaje de tiempo de servicio mayor a 40 años: 16.083623693379792


In [34]:
credit_score_antiguedad_filtered = credit_score[credit_score["days_employed_year"]>40]

credit_score_antiguedad_filtered["income_type"].value_counts(normalize=True)



retiree          0.994512
employee         0.003177
business         0.000867
civil servant    0.000867
unemployed       0.000578
Name: income_type, dtype: float64

Con este filtro se puede observar que el 99% de los solicitantes cuyo campo de tiempo de servicio aparece mayor a 40 años son retirados, por lo que este dato puede ser reemplazado por 40 años para eliminar esa incosistencia.

In [35]:
credit_score.loc[credit_score["days_employed_year"]>40, "days_employed_year"] = 40
#credit_score.loc[credit_score["days_employed"]>(40*365), "days_employed_year"] = (40*365)

In [36]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_score["days_employed_year"].describe()

count    19351.000000
mean        12.417231
std         14.047912
min          0.066141
25%          2.539751
50%          6.011563
75%         15.172281
max         40.000000
Name: days_employed_year, dtype: float64

In [37]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
credit_score["dob_years"].value_counts(normalize=True)


35    0.028664
40    0.028293
41    0.028200
34    0.028014
38    0.027782
42    0.027735
33    0.026992
39    0.026620
31    0.026016
36    0.025784
44    0.025412
29    0.025319
30    0.025087
48    0.024994
37    0.024948
50    0.023879
43    0.023833
32    0.023693
49    0.023600
28    0.023368
45    0.023089
27    0.022904
56    0.022625
52    0.022485
47    0.022300
54    0.022253
46    0.022067
58    0.021417
57    0.021370
53    0.021324
51    0.020813
59    0.020627
55    0.020581
26    0.018955
60    0.017515
25    0.016585
61    0.016492
62    0.016353
63    0.012497
64    0.012311
24    0.012265
23    0.011800
65    0.009013
66    0.008502
22    0.008502
67    0.007758
21    0.005157
0     0.004692
68    0.004599
69    0.003949
70    0.003020
71    0.002695
20    0.002369
72    0.001533
19    0.000650
73    0.000372
74    0.000279
75    0.000046
Name: dob_years, dtype: float64

El problema detectado fue la edad de solicitante igual a cero, lo cual es imposible. Vamos a calcular el porcentaje que representan estos datos en relación a la muestra original.

In [38]:
# Resuelve los problemas en la columna `dob_years`, si existen
porcentaje_edad_cero =credit_score.loc[credit_score["dob_years"]==0].count()["dob_years"] /credit_score["dob_years"].count()
print(f"porcentaje de edad igual a cero:{porcentaje_edad_cero:.2%}")

porcentaje de edad igual a cero:0.47%


Con este porcentaje tan bajo, se procedera a descartar estos datos en nuestro estudio.

In [39]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_score.drop(credit_score[credit_score['dob_years'] == 0].index, inplace=True)
credit_score["dob_years"].describe()


count    21424.000000
mean        43.497479
std         12.246934
min         19.000000
25%         33.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Ahora revisemos la columna `family_status`

In [40]:
# Veamos los valores de la columna

credit_score["family_status"].value_counts(normalize=True)

married              0.575569
civil partnership    0.193988
unmarried            0.130555
divorced             0.055312
widow / widower      0.044576
Name: family_status, dtype: float64

In [41]:
# Veamos los valores en la columna
credit_score["gender"].value_counts(normalize=True)

F      0.661128
M      0.338826
XNA    0.000047
Name: gender, dtype: float64

In [42]:
# Aborda los valores problemáticos, si existen
credit_score.drop(credit_score[credit_score['gender'] == "XNA"].index, inplace=True)


In [43]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_score["gender"].value_counts(normalize=True)


F    0.661159
M    0.338841
Name: gender, dtype: float64

In [44]:
# Veamos los valores en la columna
credit_score["income_type"].value_counts(normalize=True)

employee                       0.516454
business                       0.236381
retiree                        0.179060
civil servant                  0.067824
unemployed                     0.000093
entrepreneur                   0.000093
paternity / maternity leave    0.000047
student                        0.000047
Name: income_type, dtype: float64

In [45]:
# Aborda los valores problemáticos, si existen
credit_score[(credit_score["income_type"]=="retiree")&(credit_score["dob_years"]<40)].value_counts().sum()

36

In [46]:
credit_filtered_retirados= credit_score[(credit_score["income_type"]=="retiree")&(credit_score["dob_years"]<40)].shape[0]/credit_score[credit_score["income_type"]=="retiree"].shape[0]
print(f"porcentaje de retirados menor a 40 años:{credit_filtered_retirados:.2%}")

porcentaje de retirados menor a 40 años:1.09%


Ahora checaremos si hay duplicados en nuestros datos

In [47]:
# Comprobar los duplicados
credit_score.duplicated().sum()


71

In [48]:
# Aborda los duplicados
credit_score[credit_score.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family,
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding,
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony,
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony,
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education,
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated,
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation,
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate,


Se observa que casi toda la tabla de duplicados tienen los valores faltantes en las columnas ya investigadas de "days_employed" y "total_income" y el rango de edad es alto, para comprobar realizaremos un filtro.

In [49]:
credit_score[credit_score.duplicated()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 71 entries, 2849 to 21415
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            71 non-null     int64  
 1   days_employed       0 non-null      float64
 2   dob_years           71 non-null     int64  
 3   education           71 non-null     object 
 4   education_id        71 non-null     int64  
 5   family_status       71 non-null     object 
 6   family_status_id    71 non-null     int64  
 7   gender              71 non-null     object 
 8   income_type         71 non-null     object 
 9   debt                71 non-null     int64  
 10  total_income        0 non-null      float64
 11  purpose             71 non-null     object 
 12  days_employed_year  0 non-null      float64
dtypes: float64(3), int64(5), object(5)
memory usage: 7.8+ KB


In [50]:
credit_score[credit_score.duplicated()]["income_type"].value_counts(normalize=True)

employee         0.492958
retiree          0.380282
business         0.098592
civil servant    0.028169
Name: income_type, dtype: float64

In [51]:
sum(credit_score[credit_score.duplicated()]["dob_years"]>40)

54

In [52]:
credit_score[credit_score.duplicated()]["gender"].value_counts(normalize = True)

F    0.873239
M    0.126761
Name: gender, dtype: float64

Con esos 2 filtros aplicados se concluye:
1. Existen 71 registros duplicados de solicitud
2. el 49% de los casos duplicados corresponden a empleados y un 38% al grupo de retirados
3. 54 de los 71 registros son de personas mayores de 40 años y la mayoria (87%) son de mujeres
4. No se cuenta con el nombre de los solicitantes, pero se puede decir que muy posiblemente estén sometiendo las solicitudes de manera repetida porque tienen factores adversos como la edad y su situación de retirados que limitan la posibilidad de obteer un crédito, quien quita y en una de esas tantas y repetidas veces quede aprobado.
En virtud de lo antes expuesto se procederá a continuación a eliminar esos duplicados de la data original.

In [53]:
# comprobación para ver si tenemos duplicados
credit_score_depurada=credit_score.drop_duplicates().reset_index(drop=True)
credit_score_depurada.duplicated().sum()

0

In [54]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
credit_score_depurada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            21352 non-null  int64  
 1   days_employed       19259 non-null  float64
 2   dob_years           21352 non-null  int64  
 3   education           21352 non-null  object 
 4   education_id        21352 non-null  int64  
 5   family_status       21352 non-null  object 
 6   family_status_id    21352 non-null  int64  
 7   gender              21352 non-null  object 
 8   income_type         21352 non-null  object 
 9   debt                21352 non-null  int64  
 10  total_income        19259 non-null  float64
 11  purpose             21352 non-null  object 
 12  days_employed_year  19259 non-null  float64
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


# Trabajar con valores ausentes

In [55]:
#  diccionarios
credit_score_depurada["family_status_id"].unique()
credit_score_depurada["education_id"].unique()

array([0, 1, 2, 3, 4])

In [56]:
credit_score_depurada_family_status_id=credit_score_depurada[['family_status_id','family_status']]
credit_score_depurada_family_status_id.head(10)

Unnamed: 0,family_status_id,family_status
0,0,married
1,0,married
2,0,married
3,0,married
4,1,civil partnership
5,1,civil partnership
6,0,married
7,0,married
8,1,civil partnership
9,0,married


In [57]:
credit_score_depurada_education_id=credit_score_depurada[['education_id','education']]
credit_score_depurada_education_id.head(10)

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
2,1,secondary education
3,1,secondary education
4,1,secondary education
5,0,bachelor's degree
6,0,bachelor's degree
7,1,secondary education
8,0,bachelor's degree
9,1,secondary education


In [58]:
credit_score_depurada_family_status_id=credit_score_depurada_family_status_id.drop_duplicates().reset_index(drop=True)
credit_score_depurada_family_status_id

Unnamed: 0,family_status_id,family_status
0,0,married
1,1,civil partnership
2,2,widow / widower
3,3,divorced
4,4,unmarried


In [59]:
credit_score_depurada_education_id=credit_score_depurada_education_id[['education_id','education']]
credit_score_depurada_education_id=credit_score_depurada_education_id.drop_duplicates().reset_index(drop=True)
credit_score_depurada_education_id

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
2,2,some college
3,3,primary education
4,4,graduate degree


### Restaurar valores ausentes en `total_income`

In [60]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(age):
    if age < 20:
        return "0-19" 
    elif age < 30:
        return "20-29" 
    elif age < 40:
        return "30-39" 
    elif age < 50:
        return "40-49" 
    elif age < 60:
        return "50-59" 
    elif age < 70:
        return "60-69" 
    return "70+"

    

In [61]:
# Prueba si la función funciona bien
print(age_group(25))
print(age_group(46))


20-29
40-49


In [62]:
# Crear una nueva columna basada en la función

credit_score_depurada["age_group"] = credit_score_depurada["dob_years"].apply(age_group)

In [63]:
# Comprobar cómo los valores en la nueva columna

credit_score_depurada.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40.0,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,2.537495,20-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,7.888225,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.418574,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,18.985932,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,5.996593,40-49


Normalmente los ingresos van a depender del grado de escolaridad, del grupo de edad y de la fuente de ingresos.
A continuación procederemos a crear una tabla sin valores ausentes para poder realizar estimaciones estadísticas

In [64]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
credit_score_depurada_sin_ausentes = credit_score_depurada[credit_score_depurada["days_employed"].isnull() != True]
credit_score_depurada_sin_ausentes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19259 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            19259 non-null  int64  
 1   days_employed       19259 non-null  float64
 2   dob_years           19259 non-null  int64  
 3   education           19259 non-null  object 
 4   education_id        19259 non-null  int64  
 5   family_status       19259 non-null  object 
 6   family_status_id    19259 non-null  int64  
 7   gender              19259 non-null  object 
 8   income_type         19259 non-null  object 
 9   debt                19259 non-null  int64  
 10  total_income        19259 non-null  float64
 11  purpose             19259 non-null  object 
 12  days_employed_year  19259 non-null  float64
 13  age_group           19259 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.2+ MB


In [65]:
credit_score_depurada_sin_ausentes.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40.0,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,2.537495,20-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,7.888225,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.418574,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,18.985932,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,5.996593,40-49


In [66]:
credit_score_depurada_sin_ausentes.pivot_table(index="income_type", columns="age_group", values="total_income", aggfunc="mean")

age_group,0-19,20-29,30-39,40-49,50-59,60-69,70+
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
business,19197.349,28763.775496,33145.949183,33989.836505,32385.032725,32494.91835,27766.3072
civil servant,12125.986,25206.966324,27921.836553,28568.272491,25838.10573,29305.166039,32189.795667
employee,14882.7646,24125.462244,26191.716908,26193.926281,26073.759931,27307.60661,26672.382429
entrepreneur,,79866.103,,,,,
paternity / maternity leave,,,8612.661,,,,
retiree,,14888.651857,23122.709862,27020.126339,22221.765833,21544.426743,18994.044264
student,,15712.26,,,,,
unemployed,,,9593.119,32435.602,,,


In [67]:
credit_score_depurada_sin_ausentes.pivot_table(index="income_type", columns="age_group", values="total_income", aggfunc="median")

age_group,0-19,20-29,30-39,40-49,50-59,60-69,70+
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
business,19321.445,25615.509,28765.5935,28698.4665,27299.6345,29171.989,28138.895
civil servant,12125.986,23611.697,24662.744,24890.759,23136.302,23390.057,24525.224
employee,14575.717,21588.7985,23218.803,23108.15,22547.831,23316.965,24660.901
entrepreneur,,79866.103,,,,,
paternity / maternity leave,,,8612.661,,,,
retiree,,12807.071,18735.716,22498.708,19526.812,18446.1435,17650.466
student,,15712.26,,,,,
unemployed,,,9593.119,32435.602,,,


In [68]:
# Examina los valores medios de los ingresos en función de "income_type"
credit_score_depurada_mean = credit_score_depurada_sin_ausentes.pivot_table(index=["income_type", "age_group"], columns="education", values="total_income", aggfunc="mean")
credit_score_depurada_mean

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,16236.9152,26598.4335
business,20-29,32256.239769,,30460.981833,26116.903475,27814.692906
business,30-39,39169.886242,,25068.715417,29227.042915,32208.165662
business,40-49,41258.836133,,25941.415857,30081.753153,40047.354364
business,50-59,42774.930702,,25171.059,27988.362846,34081.208
business,60-69,40074.64342,,,28280.215722,32607.246
business,70+,35343.05,,,24519.131714,
civil servant,0-19,,,,,12125.986
civil servant,20-29,27907.014075,,30563.383,22601.223783,21662.198364
civil servant,30-39,32040.193301,17822.757,21150.696,24654.951415,32407.86225


In [69]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
credit_score_depurada_median = credit_score_depurada_sin_ausentes.pivot_table(index=["income_type", "age_group"], columns="education", values="total_income", aggfunc="median")
credit_score_depurada_median

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,16588.237,26598.4335
business,20-29,28250.284,,24210.196,23884.904,25315.833
business,30-39,32574.976,,20030.226,26268.048,29814.5275
business,40-49,34592.045,,27929.098,26115.666,35282.094
business,50-59,35379.399,,23066.131,24461.0155,33073.763
business,60-69,30849.5425,,,27142.1265,37146.535
business,70+,36808.968,,,24259.687,
civil servant,0-19,,,,,12125.986
civil servant,20-29,24617.544,,30563.383,21361.73,21640.4795
civil servant,30-39,27956.2445,17822.757,21150.696,20870.973,30672.718


In [70]:
# Examina los valores medios de los ingresos en función de "education"
#credit_score_depurada_mean = credit_score_depurada_sin_ausentes.pivot_table(index="income_type", columns="age_group", values="total_income", aggfunc='mean')
credit_score_depurada_mean/credit_score_depurada_median

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,0.978821,1.0
business,20-29,1.141802,,1.258188,1.093448,1.098707
business,30-39,1.202453,,1.251544,1.112646,1.080284
business,40-49,1.192726,,0.928831,1.151866,1.135062
business,50-59,1.209035,,1.091256,1.144203,1.030461
business,60-69,1.299035,,,1.041931,0.8778
business,70+,0.960175,,,1.010694,
civil servant,0-19,,,,,1.0
civil servant,20-29,1.133623,,1.0,1.058024,1.001004
civil servant,30-39,1.146084,1.0,1.0,1.181303,1.05657


In [71]:
credit_score_depurada_median

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,16588.237,26598.4335
business,20-29,28250.284,,24210.196,23884.904,25315.833
business,30-39,32574.976,,20030.226,26268.048,29814.5275
business,40-49,34592.045,,27929.098,26115.666,35282.094
business,50-59,35379.399,,23066.131,24461.0155,33073.763
business,60-69,30849.5425,,,27142.1265,37146.535
business,70+,36808.968,,,24259.687,
civil servant,0-19,,,,,12125.986
civil servant,20-29,24617.544,,30563.383,21361.73,21640.4795
civil servant,30-39,27956.2445,17822.757,21150.696,20870.973,30672.718


In [72]:
credit_score_depurada_median["secondary education"]["retiree"]["30-39"]

18495.774

In [73]:
#  Escribe una función que usaremos para completar los valores ausentes
def reemplazo_salario_median(salario):
    age_group = salario["age_group"]
    education = salario["education"]
    income_type = salario["income_type"]
    total_income = salario["total_income"]
    if pd.isna(total_income):
        try:
            return credit_score_depurada_median[education][income_type][age_group]
        except:
            return "error"
    return total_income
    

In [74]:
salario_values=["secondary education", "retiree", "60-69", float("NaN")]
salario_columns=["education", "income_type", "age_group","total_income"]
salario=pd.Series(data=salario_values, index=salario_columns)
reemplazo_salario_median(salario)

17943.555500000002

In [75]:
# Aplícalo a cada fila
credit_score_depurada.apply(reemplazo_salario_median, axis=1).isna().sum()

2

In [76]:
credit_score_depurada.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,23.116912,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,11.02686,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,15.406637,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,11.300677,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40.0,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,2.537495,20-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,7.888225,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,0.418574,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,18.985932,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,5.996593,40-49


In [77]:
# Comprueba si tenemos algún error
credit_score_depurada["total_income"] = credit_score_depurada.apply(reemplazo_salario_median, axis=1)

In [78]:
credit_score_depurada[credit_score_depurada["total_income"]=="error"]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
5907,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,error,buy residential real estate,,50-59


In [79]:
# Reemplazar los valores ausentes si hay algún error
credit_score_depurada[(credit_score_depurada["income_type"]=="entrepreneur") & (credit_score_depurada["education"]=="bachelor's degree")]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
5907,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,error,buy residential real estate,,50-59
18554,0,520.848083,27,bachelor's degree,0,civil partnership,1,F,entrepreneur,0,79866.103,having a wedding,1.426981,20-29


In [80]:
credit_score_depurada.loc[credit_score_depurada["total_income"]=="error","total_income"]=79866.103

In [81]:
credit_score_depurada[credit_score_depurada["total_income"].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
1296,1,,70,primary education,3,civil partnership,1,F,employee,0,,transactions with commercial real estate,,70+
8095,0,,64,primary education,3,civil partnership,1,F,civil servant,0,,to have a wedding,,60-69


Aún aparecen 2 filas con valores ausentes que tienen en común el grado de educación y el status civil, realizaremos un nuevo filtro y buscaremos la mediana

In [82]:
credit_score_depurada[(credit_score_depurada["education"]=="primary education") & (credit_score_depurada["family_status"]=="civil partnership")& (credit_score_depurada["income_type"]=="employee")]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
209,0,577.273434,41,primary education,3,civil partnership,1,F,employee,0,5863.853,second-hand car purchase,1.581571,40-49
269,0,5538.963731,35,primary education,3,civil partnership,1,M,employee,1,19810.253,to become educated,15.175243,30-39
299,2,259.737155,49,primary education,3,civil partnership,1,F,employee,0,31052.373,buy commercial real estate,0.711609,40-49
678,1,441.719273,35,primary education,3,civil partnership,1,M,employee,0,34952.081,to have a wedding,1.21019,30-39
1034,0,4586.047987,44,primary education,3,civil partnership,1,F,employee,0,14397.944,to have a wedding,12.564515,40-49
1296,1,,70,primary education,3,civil partnership,1,F,employee,0,,transactions with commercial real estate,,70+
1502,0,,52,primary education,3,civil partnership,1,M,employee,1,14599.258,construction of own property,,50-59
1763,0,3698.49826,26,primary education,3,civil partnership,1,M,employee,0,27742.701,university education,10.132872,20-29
2123,1,1846.38158,41,primary education,3,civil partnership,1,M,employee,0,25240.59,to have a wedding,5.05858,40-49
2490,3,1431.32969,35,primary education,3,civil partnership,1,F,employee,0,19920.069,wedding ceremony,3.921451,30-39


In [83]:
x=credit_score_depurada.groupby(["education","family_status","gender"])["total_income"]

x.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count,unique,top,freq
education,family_status,gender,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
bachelor's degree,civil partnership,F,680.0,623.0,32574.976,9.0
bachelor's degree,civil partnership,M,267.0,249.0,26722.5325,9.0
bachelor's degree,divorced,F,248.0,236.0,27427.664,6.0
bachelor's degree,divorced,M,63.0,63.0,30849.5425,1.0
bachelor's degree,married,F,1948.0,1767.0,26722.5325,32.0
bachelor's degree,married,M,1079.0,993.0,27427.664,22.0
bachelor's degree,unmarried,F,517.0,464.0,24030.585,10.0
bachelor's degree,unmarried,M,278.0,258.0,28250.284,8.0
bachelor's degree,widow / widower,F,123.0,117.0,22805.7985,3.0
bachelor's degree,widow / widower,M,12.0,12.0,55230.308,1.0


In [84]:
credit_score_depurada["total_income"] = credit_score_depurada["total_income"].fillna(19546) 

In [85]:
credit_score_depurada[credit_score_depurada["total_income"].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group


In [86]:
credit_score_depurada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            21352 non-null  int64  
 1   days_employed       19259 non-null  float64
 2   dob_years           21352 non-null  int64  
 3   education           21352 non-null  object 
 4   education_id        21352 non-null  int64  
 5   family_status       21352 non-null  object 
 6   family_status_id    21352 non-null  int64  
 7   gender              21352 non-null  object 
 8   income_type         21352 non-null  object 
 9   debt                21352 non-null  int64  
 10  total_income        21352 non-null  float64
 11  purpose             21352 non-null  object 
 12  days_employed_year  19259 non-null  float64
 13  age_group           21352 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


###  Restaurar valores en `days_employed`

In [87]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
credit_score_depurada_median_days = credit_score_depurada_sin_ausentes.pivot_table(index=["income_type", "age_group"], columns="education", values="days_employed_year", aggfunc="median")
credit_score_depurada_median_days



Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,0.882258,2.252321
business,20-29,2.452261,,3.206764,2.560091,2.328803
business,30-39,3.903004,,2.759914,4.503832,2.758134
business,40-49,5.215549,,3.155163,5.142464,5.91416
business,50-59,5.339175,,7.991539,5.655282,3.308985
business,60-69,7.057864,,,6.353784,0.975176
business,70+,27.654407,,,7.120496,
civil servant,0-19,,,,,1.397178
civil servant,20-29,3.695247,,2.084662,4.434381,3.51908
civil servant,30-39,7.443608,16.350893,4.582558,6.901865,6.254232


In [88]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
credit_score_depurada_mean_days = credit_score_depurada_sin_ausentes.pivot_table(index=["income_type", "age_group"], columns="education", values="days_employed_year", aggfunc="mean")
credit_score_depurada_mean_days

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,1.113298,2.252321
business,20-29,3.114009,,2.946226,3.224145,2.687675
business,30-39,4.891928,,4.452488,5.32987,3.954069
business,40-49,6.556057,,5.684579,6.902526,6.957376
business,50-59,7.387624,,12.384772,7.835268,4.0677
business,60-69,10.427148,,,9.121582,1.839101
business,70+,29.801598,,,7.942559,
civil servant,0-19,,,,,1.397178
civil servant,20-29,4.147227,,2.084662,4.790106,4.12446
civil servant,30-39,7.844383,16.350893,4.582558,7.424216,6.686034


In [89]:
credit_score_depurada_mean_days/credit_score_depurada_median_days

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,0-19,,,,1.261874,1.0
business,20-29,1.269852,,0.918754,1.259387,1.154102
business,30-39,1.253375,,1.613271,1.183408,1.433603
business,40-49,1.257021,,1.801675,1.342261,1.176393
business,50-59,1.383664,,1.549736,1.385478,1.229289
business,60-69,1.47738,,,1.435614,1.885918
business,70+,1.077644,,,1.11545,
civil servant,0-19,,,,,1.0
civil servant,20-29,1.122314,,1.0,1.08022,1.172028
civil servant,30-39,1.053842,1.0,1.0,1.075683,1.069042


Al igual que en la columna "total_income" existen muchos valores donde la media supera a la mediana, lo cual nos indica que hay valores extremos que se salen del rango y hacen susceptible a la media, por lo que se recomienda utilizar la mediana para reemplazar los valores ausentes.

In [90]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def reemplazo_antiguedad_median(antiguedad):
    age_group = antiguedad["age_group"]
    education = antiguedad["education"]
    income_type = antiguedad["income_type"]
    days_employed_year = antiguedad["days_employed_year"]
    if pd.isna(days_employed_year):
        try:
            return credit_score_depurada_median_days[education][income_type][age_group]
        except:
            return "error"
    return days_employed_year

In [91]:
# Comprueba que la función funciona
antiguedad_values = ["primary education","employee","30-39", float("NaN")]
antiguedad_columns = ["education","income_type","age_group", "days_employed_year"]
antiguedad = pd.Series(data=antiguedad_values, index=antiguedad_columns)
reemplazo_antiguedad_median(antiguedad)


2.985110176282317

In [92]:
# Aplicar la función al income_type
credit_score_depurada["days_employed_year"] = credit_score_depurada.apply(reemplazo_antiguedad_median, axis=1)



In [93]:
# Comprueba si la función funcionó
credit_score_depurada[credit_score_depurada["days_employed_year"]=="error"]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
5907,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,79866.103,buy residential real estate,error,50-59


In [94]:
# Reemplazar valores ausentes
credit_score_depurada[(credit_score_depurada["income_type"]=="entrepreneur") & (credit_score_depurada["education"]=="bachelor's degree")]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
5907,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,79866.103,buy residential real estate,error,50-59
18554,0,520.848083,27,bachelor's degree,0,civil partnership,1,F,entrepreneur,0,79866.103,having a wedding,1.426981,20-29


In [95]:
credit_score_depurada.loc[credit_score_depurada["days_employed_year"]=="error","days_employed_year"]=1.426981

In [96]:
credit_score_depurada[credit_score_depurada["days_employed_year"].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,days_employed_year,age_group
1296,1,,70,primary education,3,civil partnership,1,F,employee,0,19546.0,transactions with commercial real estate,,70+
8095,0,,64,primary education,3,civil partnership,1,F,civil servant,0,19546.0,to have a wedding,,60-69


In [97]:
y=credit_score_depurada.groupby(["education","income_type","gender"])["days_employed_year"]

y.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count,unique,top,freq
education,income_type,gender,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
bachelor's degree,business,F,1153.0,1031.0,3.903004,49.0
bachelor's degree,business,M,622.0,566.0,3.903004,22.0
bachelor's degree,civil servant,F,400.0,359.0,7.443608,18.0
bachelor's degree,civil servant,M,144.0,132.0,7.443608,7.0
bachelor's degree,employee,F,1532.0,1381.0,4.091494,51.0
bachelor's degree,employee,M,791.0,716.0,5.192394,28.0
bachelor's degree,entrepreneur,F,1.0,1.0,1.426981,1.0
bachelor's degree,entrepreneur,M,1.0,1.0,1.426981,1.0
bachelor's degree,retiree,F,429.0,1.0,40.0,429.0
bachelor's degree,retiree,M,140.0,1.0,40.0,140.0


In [98]:
credit_score_depurada["days_employed_year"] = credit_score_depurada["days_employed_year"].fillna(2.9851) 

In [99]:
credit_score_depurada["days_employed"] = credit_score_depurada["days_employed_year"]*365

In [100]:
credit_score_depurada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            21352 non-null  int64  
 1   days_employed       21352 non-null  float64
 2   dob_years           21352 non-null  int64  
 3   education           21352 non-null  object 
 4   education_id        21352 non-null  int64  
 5   family_status       21352 non-null  object 
 6   family_status_id    21352 non-null  int64  
 7   gender              21352 non-null  object 
 8   income_type         21352 non-null  object 
 9   debt                21352 non-null  int64  
 10  total_income        21352 non-null  float64
 11  purpose             21352 non-null  object 
 12  days_employed_year  21352 non-null  float64
 13  age_group           21352 non-null  object 
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [101]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit_score_depurada.isna().sum()

children              0
days_employed         0
dob_years             0
education             0
education_id          0
family_status         0
family_status_id      0
gender                0
income_type           0
debt                  0
total_income          0
purpose               0
days_employed_year    0
age_group             0
dtype: int64

## Clasificación de datos

El objetivo del análisis es averiguar si el estado civil y el número de hijos impactan en el incumplimiento de pago del préstamo solicitado, por lo tanto estas dos variables "children" y "family_status" deben estar en la clasificación de datos. Aunado a esto debe aparecer el ingreso familiar y la variable purpose que aún no ha sido analizada con detenimiento.

In [102]:
# Muestra los valores de los datos seleccionados para la clasificación
print(credit_score_depurada[["children","family_status","total_income","purpose"]])


       children      family_status  total_income                  purpose
0             1            married     40620.102    purchase of the house
1             1            married     17932.802             car purchase
2             0            married     23341.752    purchase of the house
3             3            married     42820.568  supplementary education
4             0  civil partnership     25378.572        to have a wedding
...         ...                ...           ...                      ...
21347         1  civil partnership     35966.698     housing transactions
21348         0            married     24959.969        purchase of a car
21349         1  civil partnership     14347.610                 property
21350         3            married     39054.888        buying my own car
21351         2            married     13127.587             to buy a car

[21352 rows x 4 columns]


In [103]:
# Comprobar los valores únicos
print(credit_score_depurada["children"].unique())

print(credit_score_depurada["family_status"].unique())

print(credit_score_depurada["purpose"].unique())


[1 0 3 2 4 5]
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']
['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'buy residential real estate'
 'construction of own property' 'property' 'building a property'
 'buying a second-hand car' 'buying my own car'
 'transactions with commercial real estate' 'building a real estate'
 'housing' 'transactions with my real estate' 'cars' 'to become educated'
 'second-hand car purchase' 'getting an education' 'car'
 'wedding ceremony' 'to get a supplementary education'
 'purchase of my own house' 'real estate transactions'
 'getting higher education' 'to own a car' 'purchase of a car'
 'profile education' 'university education'
 'buying property for renting out' 'to buy a car' 'housing renovation'
 'going to university']


La variable "purpose" muestra muchos valores que son repetidos, por los cuales serán reagrupados para reducir los filtros por categoria en esta variable

In [104]:
def purpose_group(purpose):
    if "house" in purpose or "housing" in purpose or "real estate" in purpose or "building" in purpose or "property" in purpose:
        return "house purchase"
    elif "car" in purpose:
        return "car purchase"
    elif "education" in purpose or "university" in purpose or "educated"in purpose :
        return "education"
    elif "wedding"in purpose:
        return "wedding"
    return "other"

In [105]:
credit_score_depurada["purpose_group"] = credit_score_depurada["purpose"].apply(purpose_group)
credit_score_depurada["purpose_group"].unique()

array(['house purchase', 'car purchase', 'education', 'wedding'],
      dtype=object)

La variable "children" también debe ser clasificada en grupos para hacer más fácil el análisis, al igual que el salario.


In [106]:
# Escribamos una función para clasificar los datos en función de temas comunes
def children_group(value):
    if value==0:
        return "without child"
    elif value==1 or value==2:
        return '1-2'
    elif value==3 or value==4:
        return '3-4'
    return '5+'

In [107]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit_score_depurada["children_group"]=credit_score_depurada["children"].apply(children_group)
credit_score_depurada["children_group"].value_counts()


without child    14021
1-2               6953
3-4                369
5+                   9
Name: children_group, dtype: int64

CLASIFICACION DE VARIABLES CUALITATIVAS

In [108]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
#se usara la conversión de decimales a números enteros
print(credit_score_depurada["total_income"].describe().astype("int"))
print("mediana:", credit_score_depurada["total_income"].median().astype("int"))

count     21352
mean      26484
std       15751
min        3306
25%       17199
50%       22931
75%       31656
max      362496
Name: total_income, dtype: int64
mediana: 22931


In [109]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

def income_group(value):
    if value<=23000:
        return "bajo ingreso"
    elif value <=32000:
         return "ingreso medio"
    return "alto ingreso"

In [110]:
# Crear una columna con categorías
credit_score_depurada["income_group"]=credit_score_depurada["total_income"].apply(income_group)

In [111]:
# Contar los valores de cada categoría para ver la distribución
credit_score_depurada["income_group"].value_counts(normalize=True)

bajo ingreso     0.502154
ingreso medio    0.254449
alto ingreso     0.243396
Name: income_group, dtype: float64

In [112]:
credit_score_depurada["days_employed_year"].describe()

count    21352.000000
mean        12.312723
std         14.011590
min          0.066141
25%          2.758856
50%          5.663455
75%         14.578088
max         40.000000
Name: days_employed_year, dtype: float64

In [113]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

def days_employed_year_group(value):
    if value<=5:
        return "poca antiguedad"
    elif value <=14:
         return "media antiguedad"
    return "antiguedad considerada"

credit_score_depurada["antiguedad_group"]=credit_score_depurada["days_employed_year"].apply(days_employed_year_group)

In [114]:
credit_score_depurada["antiguedad_group"].value_counts(normalize=True)

poca antiguedad           0.440193
media antiguedad          0.302595
antiguedad considerada    0.257212
Name: antiguedad_group, dtype: float64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [115]:
# Comprueba los datos sobre los hijos y los pagos puntuales
hipotesis_1_1 = pd.pivot_table(credit_score_depurada, index="children_group", values = "debt", aggfunc="mean")

# Calcular la tasa de incumplimiento en función del número de hijos
hipotesis_1_1["debt"] = hipotesis_1_1["debt"]
hipotesis_1_1["% incumpl"] = hipotesis_1_1["debt"] * 100
hipotesis_1_1["tasa cumpl"] = 1 - hipotesis_1_1["debt"]
hipotesis_1_1["% cumpl"] = hipotesis_1_1["tasa cumpl"] * 100
hipotesis_1_1 = hipotesis_1_1.rename(columns={"debt":"tasa de incumpl"})
print(hipotesis_1_1)

                tasa de incumpl  % incumpl  tasa cumpl     % cumpl
children_group                                                    
1-2                    0.092622   9.262189    0.907378   90.737811
3-4                    0.084011   8.401084    0.915989   91.598916
5+                     0.000000   0.000000    1.000000  100.000000
without child          0.075458   7.545824    0.924542   92.454176


In [116]:
credit_score_depurada["children_group"].value_counts(normalize=True)

without child    0.656660
1-2              0.325637
3-4              0.017282
5+               0.000422
Name: children_group, dtype: float64

**Conclusión**

Los resultados obtenidos se muestran muy cercanos entre sí (no hay diferencias apreciables) apenas los separa como máximo un 2% en lo que a incumplimiento se refiere, por lo que: 
1. La mayor tasa de incumplimiento se obtuvo con aquellos solicitantes que tienen entre 1 y 2 hijos, seguido de aquellos con 3 a 4 hijos, esto está de acuerdo con la hipótesis de que a mayor número de hijos menos posibilidades de pago y la razón es porque hay que atender las necesidades de los hijos. Es importante mencionar que se esperaba que el grupo 3-4 hijos tuviera mayor tasa de incumplimiento, sin embargo, no resultó así, pero su explicación se puede basar en que la muestra de datos de este grupo es de apenas 1.7%, muy pequeña en comparación al 32% del grupo 1-2.
2. Los solicitantes con 5 o más hijos son cumplidos (no tienen deudas), esto si resulta contradictorio con lo anterior, sin embargo, este grupo representa el 0.04% de la muestra de datos, es decir, no es muy representativa para hacer una conclusión al respecto.
3. Las solicitudes que no reportaron hijos son del 65% del universo de datos por lo que este grupo es muy representativo y aún así se ubica en el 3er lugar de incumplimiento, dejando por sentado que a mayor número de hijos menos posibilidades de pago, es decir, más riesgo de incumplimiento del crédito.

En fin, estos resultados fueron muy similares y no permiten establecer una conclusión bien marcada en cuanto al número de hijos.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [117]:
# Comprueba los datos del estado familiar y los pagos a tiempo

hipotesis_1_2 = pd.pivot_table(credit_score_depurada, index="family_status", values = "debt", aggfunc="mean")
                       


# Calcular la tasa de incumplimiento basada en el estado familiar
                         
hipotesis_1_2["debt"] = hipotesis_1_2["debt"]
hipotesis_1_2["% incumpl"] = hipotesis_1_2["debt"] * 100
hipotesis_1_2["tasa cumpl"] = 1 - hipotesis_1_2["debt"]
hipotesis_1_2["% cumpl"] = hipotesis_1_2["tasa cumpl"] * 100
hipotesis_1_2 = hipotesis_1_2.rename(columns={"debt":"tasa de incumpl"})
print(hipotesis_1_2)

                   tasa de incumpl  % incumpl  tasa cumpl    % cumpl
family_status                                                       
civil partnership         0.093485   9.348511    0.906515  90.651489
divorced                  0.071730   7.172996    0.928270  92.827004
married                   0.075427   7.542718    0.924573  92.457282
unmarried                 0.097709   9.770938    0.902291  90.229062
widow / widower           0.064990   6.498952    0.935010  93.501048


In [118]:
credit_score_depurada["family_status"].value_counts(normalize=True)

married              0.575590
civil partnership    0.193378
unmarried            0.130854
divorced             0.055498
widow / widower      0.044680
Name: family_status, dtype: float64

**Conclusión**

De acuerdo a los resultados obtenidos:
1. La mayor tasa de incumplimiento se obtuvo con aquellos solicitantes unmarried, seguido muy de cerca por los que viven en unión, sin embargo, los no casados legalmente representan el 13% de la muestra de datos y resultan aparentemente ser los potencialmente más riesgosos para el otorgamiento de crédito por el índice de incumplimiento de pago.
2. Los casados que representan el 57% de las solicitudes de créditos, reportaron una tasa de incumplimiento de 0.075, la tercera en orden descendiente, lo cual es bastante alto si se considera que es el grupo más numeroso.
3. Las solicitudes realizadas por divorciados o viudos son pocas (no llegan al 10% entre ambas) y representan ambas la menor tasa de incumplimiento.

En conclusión, los resultados no muestran una diferencia considerable entre sí, por lo que emitir un juicio en cuanto a riesgo de pago sería aventurado.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [119]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
hipotesis_1_3 = pd.pivot_table(credit_score_depurada, index="income_group", values = "debt", aggfunc="mean")


# Calcular la tasa de incumplimiento basada en el nivel de ingresos
hipotesis_1_3["debt"] = hipotesis_1_3["debt"]
hipotesis_1_3["% incumpl"] = hipotesis_1_3["debt"] * 100
hipotesis_1_3["tasa cumpl"] = 1 - hipotesis_1_3["debt"]
hipotesis_1_3["% cumpl"] = hipotesis_1_3["tasa cumpl"] * 100
hipotesis_1_3 = hipotesis_1_3.rename(columns={"debt":"tasa de incumpl"})
print(hipotesis_1_3)


               tasa de incumpl  % incumpl  tasa cumpl    % cumpl
income_group                                                    
alto ingreso          0.070040   7.004041    0.929960  92.995959
bajo ingreso          0.085152   8.515202    0.914848  91.484798
ingreso medio         0.083932   8.393153    0.916068  91.606847


In [120]:
credit_score_depurada["income_group"].value_counts(normalize=True)

bajo ingreso     0.502154
ingreso medio    0.254449
alto ingreso     0.243396
Name: income_group, dtype: float64

**Conclusión**

Los resultados aquí son los esperados, en el sentido de que:
1. A mayor ingreso familiar hay más posibilidad de pagar las deudas adquiridas, por eso el grupo de alto ingreso, aunque solo representa el 24% de los datos, es el que menos tasa incumplimiento tiene.
2. El grupo de ingreso medio es el de segundo mayor incumplimiento (8.39%).
3. El grupo de menos ingreso ocupa el primer lugar en incumplimiento y en solicitudes (50%), sin embargo, los resultados son muy similares con los de medio y alto ingreso, hay menos de 1 valor porcentual de diferencias en relación a la tasa de incumplimiento, por lo que no se puede establecer una conclusión contundente al respecto. 

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [121]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

hipotesis_1_4 = pd.pivot_table(credit_score_depurada, index="purpose_group", values = "debt", aggfunc="mean")

hipotesis_1_4["debt"] = hipotesis_1_4["debt"]
hipotesis_1_4["% incumpl"] = hipotesis_1_4["debt"] * 100
hipotesis_1_4["tasa cumpl"] = 1 - hipotesis_1_4["debt"]
hipotesis_1_4["% cumpl"] = hipotesis_1_4["tasa cumpl"] * 100
hipotesis_1_4 = hipotesis_1_4.rename(columns={"debt":"tasa de incumpl"})
print(hipotesis_1_4)

                tasa de incumpl  % incumpl  tasa cumpl    % cumpl
purpose_group                                                    
car purchase           0.093371   9.337068    0.906629  90.662932
education              0.092616   9.261577    0.907384  90.738423
house purchase         0.072378   7.237759    0.927622  92.762241
wedding                0.079654   7.965368    0.920346  92.034632


In [122]:
credit_score_depurada["purpose_group"].value_counts(normalize=True)

house purchase    0.504075
car purchase      0.200637
education         0.187102
wedding           0.108187
Name: purpose_group, dtype: float64

**Conclusión**

En cuanto al propósito del crédito solicitado se encontró que:
1. Las mayores solicitudes de crédito se realizaron para compra de casas, terrenos, locales (50%) y estos solicitantes presentaron un 7.2% de incumplimiento en sus deudas que resultó la menor tasa de incumplimiento de los grupos.
2. Los mayores incumplimientos se reportaron para aquellos solicitantes que quieren comprar carro e invertir en educación respectivamente, representando el 20 y 19% de la data suministrada, representando así, aparentemento, el grupo más potencialmente riesgoso para otorgamiento de crédito, puesto que son más propensos a incurrir en el incumplimiento de pago, y decimos aparentemente, porque con la información suministrada y analizada no se puede concluir de manera categórica ya que los resultados difieren tan solo en 2 puntos porcentuales por lo que el margen de error en aseverar esto es muy alto.
3. Solo para efectos de boda se recibieron 11% de las solicitudes y su tasa de incumplimiento asociada es de 7.9%


In [123]:
hipotesis_todo = pd.pivot_table(credit_score_depurada, index=["children_group", "family_status"], columns="income_group", values = "debt", aggfunc="mean")

In [124]:
print(hipotesis_todo)

income_group                      alto ingreso  bajo ingreso  ingreso medio
children_group family_status                                               
1-2            civil partnership      0.074184      0.116864       0.140719
               divorced               0.061856      0.077720       0.075472
               married                0.076596      0.096358       0.076672
               unmarried              0.096000      0.095941       0.165468
               widow / widower        0.086957      0.075472       0.137931
3-4            civil partnership      0.055556      0.206897       0.058824
               divorced               0.000000      0.166667       0.000000
               married                0.053333      0.070312       0.095890
               unmarried              0.000000      0.142857       0.500000
               widow / widower        0.000000      0.000000       0.000000
5+             civil partnership           NaN      0.000000            NaN
            

# Conclusión general 

La data proporcionada por la división de préstamos de un banco se hizo mediante un dataFrame de 21525 registros distribuidos en 12 columnas("children", "days_employed", "dob_years", "education", "education_id", "family_status", "family_id", "gender", "income_type", "debt", "total_income", "purpose"), de las cuales "days_employed" y "total_income" presentaron 2174 datos ausentes.

Para el procesamiento de los datos, se procedió a realizar un filtro con los datos ausentes en ambas columnas, encontrándose que los solicitantes dejaron ambos campos sin llenar en sus solicitudes, son entonces simétricos. Posterior a esto se procedió a buscar una relación entre estas columnas y las restantes del DataFrame a fin de determinar si estos datos tenían carácter aleatorio. No se logró determinar ninguna relación aparente por lo que se concluyó que estos valores ausentes eran aleatorios.

Del análisis de cada columna se obtuvo:

1. En la columna de children se detectaron valores inconsistentes de -1(0.1%) y 20(0.3%), por lo que se procedieron a cambiar por 1 y 2, considerando que eran consecuencia de un posible error de dedo.
2. En la columna de "dob_year" se detectó una edad de cero, lo cual en la realidad no podría ser, por lo que se eliminó del DataFrame ya que su porcentaje era apenas del 0.47%.
3. En la columna "education" se detectó que los valores estaban escritos algunos en mayúsculas, otros en minúsculas y otros con iniciales en mayúsculas, por lo que la solución fue llevarlos todos a minúsculas.
4. Se eliminó el registro de XNA en la columna de género.
5. Se detectaron y eliminaron 71 solicitudes duplicadas que representaban el 0.02% del total de la muestra, posiblemente se deban a que el mismo solicitante, al tener posibilidades en contra del otorgamiento de crédito, llenó la solicitud varias veces, esto podría solucionarse si se coloca un filtro con el ID del solicitante de manera que cuando quiera volver a solicitar el sistema lo rechaze.
6. Se obtuvo un DataFrame con 21352 datos y 19259 datos ausentes.
7. Se creó una nueva columna de days_employed_year para visualizar los valores de antiguedad en años, detectándose la presencia de a) ausentes, b) valores negativos (82%) y c) años de servicio superior a 100. 

       -Se transformaron estos valores negativos en positivos con la función valor absoluto, considerando que fue un error de dedo al realizar la resta de los años actuales de trabajo - años de inicio.
       -Se encontró que las personas retiradas presentaban ese valor de más de 100 años de trabajo, por lo que se modificó topando un valor de 40, considernado los años útiles de antiguedad.
       -Los valores ausentes en esta columna finalmente se sustituyeron por la mediana resultante de un filtro con "education" e "income_type".

8. Los valores ausentes en la columna "total_income" fueron sustituidos igualmente por la mediana resultante del filtro con las columnas "education" y "total_income", ya que la media resultó susceptible a los valores puntuales extremos en estas variables.
9. Se obtuvo un DataFrame de 21352 registros sin valores ausentes.
9. Se realizó clasificación por grupo en las columnas de "children", "total_income", "purpose" para analizar mejor el impacto de estas variables en la solicitud de un préstamo.

  
Comprobación de hipótesis:

¿El estado civily el número de hijos tienen impacto en el incumplimiento de pago de un préstamo?

Se encontró que a medida que se tienen más hijos, es más difícil pagar las deudas y aunque el porcentaje de solicitantes con hijos entre 1 y 2 era del 32% este renglón obtuvo el primer lugar en la clasificación de incumplimiento. No obstante, las tasas de incumplimiento para cada grupo resultaron similares entre sí, por lo que no se puede categorizar al respecto. Las solicitudes con números de hijos mayor a 5, no representan una buena población en la muestra para obtener una conclusión. La mayor cantidad de solicitantes no tenian hijos 65% y aún así se ubican en 3er lugar. En fin los solicitantes sin hijos tienen menores tasas de incumplimiento.

Similarmente, se encontró que los unmarried (no casados oficialmente) representan el 13% de la muestra de datos y la mayor tasa de incumplimiento, seguido muy de cerca por los que viven en unión, esto si como que no lo esperábamos, sin embargo, los unmarried representan el 13% de la muestra de datos. Los casados que representan el 57% de las solicitudes de créditos, reportaron una tasa de incumplimiento de 0.075, la tercera en orden descendiente, lo cual es bastante alto si se considera que es el grupo más numeroso, aunque al analizar todo el grupo se observaron resultados muy similares. Las solicitudes realizadas por divorciados o viudos son pocas (no llegan al 10% entre ambas) y representan ambas la menor tasa de incumplimiento. 


2. Evaluar la capacidad de pago.

A mayor ingreso familiar hay más posibilidad de pagar las deudas adquiridas, por eso el grupo de alto ingreso, aunque solo representa el 24% de los datos, es el que menos tasa incumplimiento tiene.
Los otros 2 grupos de salarios muestran resultados similares entre sí.

Finalmente, se encontró que los solicitantes que aspiran usar el crédito para la compra de un auto o para educación parecen ser los más riesgos, es decir, los que más pueden incumplir en el pago, sin embargo, con la similitud de los resultados obtenidos entre sí es difícil aseverar.

