# Análisis del riesgo de incumplimiento de los prestatarios



El siguiente informe pretende arrojar información relevante a la división de préstamos de un banco, para la potencial creación de una puntuación de crédito para clientes con distintos perfiles. Dicha puntuación de crédito permitirá evaluar la capacidad de un potencial prestatario para pagar su préstamo en función de distintos criterios.

**Objetivo general:**
Evaluar la capacidad de pago de los prestatarios en función de distintas variables.
    
**Objetivos específicos:**
* Evaluar la capacidad de pago de los prestatarios según su cantidad de hijos.
* Evaluar la capacidad de pago de los prestatarios según su estado civil.
* Evaluar la capacidad de pago de los prestatarios según su nivel de ingresos.
* Evaluar la capacidad de pago de los prestatarios según el propósito del préstamo.

# 1. Exploración inicial de datos

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('/datasets/credit_scoring_eng.csv')
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car



**Descripción de las columnas**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo



**Cantidad de filas y columas**


In [4]:
df.shape

(21525, 12)

**Visualización de las primeras 10 filas**


In [5]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Al visualizar los primeras filas se observan problemas tales como la existencia de números negativos en la cantidad de días de trabajo y la falta de estandarización a la hora de referirse al nivel educacional y el próposito de los créditos. Sin embargo, es necesario aún ver si existen datos ausentes en el dataframe y observar con mayor detalle cada columna. 

**Información general del dataframe**

In [134]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Se observan valores ausentes para las columnas days_employed (días trabajados) y total_income (ingreso total)

**Observación de la tabla filtrada para los valores ausentes en la columna days_employed**

In [6]:
df[df.isna().any(axis=1)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [7]:
df[['days_employed', 'total_income']].isna().sum()

days_employed    2174
total_income     2174
dtype: int64

Los valores ausentes son simétricos para las columnas days_employed y total_income. Ambas tienen 2174 datos faltantes.

**Porcentaje de datos faltantes**

In [8]:
df_filtered = df['days_employed'].isna().sum()
print(df_filtered)

print()
missing_data = df.isnull().sum()
total_rows = df.shape[0]
percent_missing = (missing_data/ total_rows) * 100
print(percent_missing)

2174

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64


**Observaciones sobre los datos faltantes**

Falta un 10% de datos para las columnas days_employed y total_income. Para conocer con mejor detalle cómo se comporta el dataframe, a continuación se muestran dos tablas, una con el total del conjunto de datos y otra en la que se eliminaron las filas con valores nulos.

In [9]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [10]:
df.dropna().describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0
mean,0.537388,63046.497661,43.255336,0.819079,0.972249,0.081184,26787.568355
std,1.371408,140827.311974,12.57917,0.550104,1.420596,0.273125,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


*Observaciones*
Una vez eliminadas las filas con valores nulos se comprueba que ambos datraframes son prácticamente iguales, por lo que probablemente los datos nulos no estén relacionados con la falta de datos en otras variables aparte de las ya identificadas. Al tratarse de variables númericas, y asumiendo que estamos trabajando con datos que se distribuyen normalmente, es posible completar estos datos mediante operaciones estadísticas como la imputación por medias o medianas. Sin embargo, para realizar esta operación con certeza, se filtraran las tablas en base a las columnas con datos faltantes.

*Valores ordenados en la columna days_employed*

In [11]:
df_sorted = df.sort_values(by='days_employed')
df_sorted

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,-18388.949901,61,secondary education,1,married,0,F,employee,0,29788.629,real estate transactions
4299,0,-17615.563266,61,secondary education,1,married,0,F,business,0,19609.719,purchase of the house
7329,0,-16593.472817,60,bachelor's degree,0,married,0,F,employee,0,19951.655,going to university
17838,0,-16264.699501,59,secondary education,1,married,0,F,employee,0,8198.235,to buy a car
16825,0,-16119.687737,64,secondary education,1,married,0,F,employee,0,14644.430,buy residential real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Valores ausentes (NaN) en la columna days_employed**

In [12]:
df.loc[pd.isna(df['days_employed'])]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


La tablas filtrada muestra que los datos ausentes en days_employed no parece tener relación con otras variables tales como la edad, el nivel educacional, el estado civil, el género, el tipo de ingresos o el propósito del crédito.

**Resumen estadístico de la distribución de los datos del dataframe**


In [13]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


En esta tabla se vuelve a comprobar que faltan datos para las columnas days_employed y total income, además, se observa que existen datos con valores negativos en las columnas children y days_employed, y que deberán ser corregidos.

# 2.Transformación de datos


## Educación

**Comprobación de valores en la columna educación**

In [14]:
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [15]:
df['education'] = df['education'].str.lower()

In [16]:
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [17]:
df['education'].isna().sum()

0

*Observaciones*:

Se cambiaron a minusculas todas los datos para la columna educación, además se volvió a comprobar que no existen datos ausentes para esta columna.

## Cantidad de hijos


**Comprobación de valores en la columna educación**

In [18]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [19]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [20]:
df['children'] = df['children'].abs()
df['children'] = df['children'].replace(20,2)

In [21]:
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

*Observaciones*:

Existen números negativos en la columna, y también un número de hijos que parece excesivo (20) y que posiblemente se deba a un error de tipeo. Para solucionar dichos problemas se transformaron todos los valores a valores absolutos y se reemplazó el número 20 por el número 2, asumiendo que el error de tipeo se debe a digitar un 0 innecesario. y sabiendo también que son pocos los datos que tienen este problema.

## Días trabajados

**Comprobación de valores en la columna días trabajados**

In [22]:
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [23]:
df['days_employed'] = df['days_employed'].abs()
df['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

*Observaciones*:

Existen números negativos. La solución consistió en transformarlos a números absolutos.

In [24]:
df['days_employed'].unique()

array([8437.67302776, 4024.80375385, 5623.42261023, ..., 2113.3468877 ,
       3112.4817052 , 1984.50758853])

*Observaciones*:

También se observan números anormalmente grandes para la cantidad de días trabajados por lo que a continuación se establecerán todos los valores mayores a 17.155 días por valores de tipo NaN. Los 17.155 días corresponden a los días de 47 años de trabajo, bajo el supuesto de que esa es la máxima cantidad de años que alguien trabajaría, desde los 18 hasta los 65 años. Los valores NaN serán tratadados más adelante en la etapa de preprocesamiento de datos.

In [69]:
df.loc[df['days_employed'] >= 17155, 'days_employed'] = df['days_employed'].replace('NaN')

In [297]:
df['days_employed'].unique()

array([8437.67302776, 4024.80375385, 5623.42261023, ..., 2113.3468877 ,
       3112.4817052 , 1984.50758853])

In [27]:
df['days_employed'].max()

18388.949900568383

In [28]:
df['days_employed']

0        8437.673028
1        4024.803754
2        5623.422610
3        4124.747207
4        2194.220567
            ...     
21520    4529.316663
21521    2194.220567
21522    2113.346888
21523    3112.481705
21524    1984.507589
Name: days_employed, Length: 21525, dtype: float64

## Edad

**Comprobación de valores en la columna edad**

In [29]:
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

In [30]:
dob_years_median = df['dob_years'].median()

df.loc[df['dob_years'] == 0, 'dob_years'] = dob_years_median

df['dob_years'] = df['dob_years'].astype(int)

In [31]:
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

*Observaciones*:

Existe una edad 0, que fue reemplazada por la mediana de las edades.

## Estado civil

**Comprobación de valores en la columna estado civil**

In [32]:
df['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

*Observaciones*:

No hay problemas con el estado civil

## Género

**Comprobación de valores en la columna género**

In [33]:
df['gender'].unique()
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

*Observaciones*:

Asumiendo que XNA corresponde a género no binario, no hay problemas con los datos. 

## Tipo de ingresos

**Comprobación de valores en la columna tipo de ingresos**

In [34]:
df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

*Observaciones*:

No hay problemas con los datos.

## Datos duplicados

In [35]:
df.duplicated().sum()

72

In [36]:
df = df.drop_duplicates().reset_index(drop=True)

In [37]:
df.duplicated().sum()

0

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21453 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


*Observaciones*:

Se perdieron 71 filas de datos, que corresponden a aquellas filas con datos duplicados. Dichas filas representaban un 0.3% de datos del conjunto de datos original.

# 3. Preprocesamiento de datos - datos ausentes

**Restaurar valores ausentes en `total_income`**

Como fue observado con anterioridad, existen datos ausentes para la columna de ingresos totales, para reemplazar dichos valores, primero se clasificarán a los prestatarios según su grupo etario, asumiendo que distintos grupos etarios tienen una distinta capacidad adquisitiva. El grupo etario será añadido como una nueva columna en el dataframe. Además, se agruparán a los prestatarios según su nivel educacional y su rango etario, ya que son variables que pueden influir en sus ingresos totales.


In [39]:
def age_group(dob_years):
    if dob_years <= 30:
        return 'young_adult'
    if dob_years <= 64:
        return 'adult'
    else:
        return 'retired'

In [40]:
age_group(70)

'retired'

In [41]:
df['age_group'] = df['dob_years'].apply(age_group)
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21449,0,2194.220567,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [165]:
df['age_group']

0          adult
1          adult
2          adult
3          adult
4          adult
          ...   
21520      adult
21521    retired
21522      adult
21523      adult
21524      adult
Name: age_group, Length: 21525, dtype: object

A continuación, se observará el dataframe sin los valores ausentes, y además las medias y medianas de distintos grupos de prestatarios según distintas variables.

**Dataframe sin valores ausentes**

In [42]:
new_df = df.dropna()
new_df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21449,0,2194.220567,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


**Medias y desviación estándar en base a factores tales como el nivel educacional el grupo etario.

In [43]:
df.groupby(['education'])['total_income'].mean()

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29045.443644
Name: total_income, dtype: float64

In [44]:
df.groupby(['education'])['total_income'].mean().std()

4548.371745455334

In [46]:
df.groupby(['age_group'])['total_income'].mean()

age_group
adult          27285.689569
retired        21542.650450
young_adult    25817.674826
Name: total_income, dtype: float64

In [47]:
df.groupby(['age_group'])['total_income'].mean().std()

2983.6610350101932

**Medianas y desviación estándar en base a factores tales como el nivel educacional el grupo etario.**

In [48]:
df.groupby(['age_group'])['total_income'].median()

age_group
adult          23546.495
retired        18471.391
young_adult    22957.185
Name: total_income, dtype: float64

In [49]:
df.groupby(['age_group'])['total_income'].median().std()

2775.6775358265204

In [50]:
df.groupby(['education'])['total_income'].median()

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25618.4640
Name: total_income, dtype: float64

In [51]:
df.groupby(['education'])['total_income'].median().std()

3628.5751872605947

*Observaciones*:

Los datos con menor dispersión corresponden a las medianas según el grupo etario de los prestatarios. Por lo tanto, se trabajará con las medianas de dicha variable para completar los datos ausentes en la columna total_income.

In [71]:
def total_income_per_age(df, category):
    medians = df.groupby('age_group')['total_income'].median()
    df.loc[df['age_group'] == category, 'total_income'] = df.loc[df['age_group'] == category, 'total_income'].fillna(medians[category])
    return df

In [72]:
total_income_per_age(df, 'young_adult')
total_income_per_age(df, 'adult')
total_income_per_age(df, 'retired')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21449,0,2194.220567,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [73]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_group         21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


**Restaurar valores ausentes en `days_employed`**

Como también fue observado con anterioridad, existen datos ausentes para la columna de días trabajados. Para reemplazar dichos valores, se observará que relación puede tener el tipo de ingresos con la cantidad de días trabajados, ya que evidentemente un estudiante tendrá una cantidad de día trabajados menor que una persona retirada, por dar un ejemplo.

**Medianas y desviación estándar en base al tipo de ingresos**

In [55]:
df.groupby(['income_type'])['days_employed'].median()

income_type
business                       1547.382223
civil servant                  2689.368353
employee                       1574.202821
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                        2194.220567
student                         578.751554
unemployed                     2194.220567
Name: days_employed, dtype: float64

In [56]:
df.groupby(['income_type'])['days_employed'].median().std()

969.5192994062373

**Medias y desviación estándar en base al tipo de ingresos**

In [57]:
df.groupby(['income_type'])['days_employed'].mean()

income_type
business                       2111.524398
civil servant                  3399.896902
employee                       2326.499216
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                        2194.220567
student                         578.751554
unemployed                     2194.220567
Name: days_employed, dtype: float64

In [58]:
df.groupby(['income_type'])['days_employed'].mean().std()

1068.7205461661283

*Observaciones:*

La desviación estándar es bastante similar para la media y las medianas. Dada la baja dispersión de los datos, se utilizará la media de cada tipo de ingresos para reeemplazar los datos ausentes en la columna days_employed.

In [67]:
def days_employed_per_income_type(df, category):
    means = df.groupby('income_type')['days_employed'].mean()
    df.loc[df['income_type'] == category, 'days_employed'] = df.loc[df['income_type'] == category, 'days_employed'].fillna(means[category])
    return df

In [60]:
days_employed_per_income_type(df, 'business')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21449,0,2194.220567,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [62]:
days_employed_per_income_type(df, 'business')
days_employed_per_income_type(df, 'civil servant')
days_employed_per_income_type(df, 'employee')
days_employed_per_income_type(df, 'entrepreneur')
days_employed_per_income_type(df, 'paternity / maternity leave')
days_employed_per_income_type(df, 'retiree')
days_employed_per_income_type(df, 'student')
days_employed_per_income_type(df, 'unemployed')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21449,0,2194.220567,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [74]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [180]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  age_group         21525 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


**Observaciones finales**

Se reeemplazarón los datos ausentes en days_employed y total_income con sus medias y medianas respectivamente. Esto nos permite trabajar con un dataframe que tiene 21454 entradas.

# 4. Clasificación de datos

**Clasificación de datos categóricos**

**Cantidad de hijos**

Para trabajar con la cantidad de hijos, se creará una variable dummy que detecte la presencia o ausencia de hijos para cada prestatario. Esta variable aparecerá en el dataframe bajo la columna 'children_range'


In [76]:
df['children'].value_counts()

0    14090
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [77]:
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [79]:
children_ref = df[['children']]

def children_range(row):
    if row['children'] == 0:
        return 'with children'
    else:
        return 'without children'

In [80]:
df['children_range'] = df.apply(children_range, axis=1)

In [184]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult


In [81]:
df['children_range'].value_counts()

with children       14090
without children     7363
Name: children_range, dtype: int64

**Existencia de deudas**

Se utilizará una variable dummy para detectar la presencia o ausencia de deudas. Esta aparecerá en el dataframe bajo la columna 'debt_existence'.

In [82]:
df['debt'].value_counts()

0    19712
1     1741
Name: debt, dtype: int64

In [83]:
def debt_existence(row):
    if row['debt'] == 0:
        return 'without debt'
    else:
        return 'with debt'

In [84]:
df['debt_existence'] = df.apply(debt_existence, axis=1)
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,children_range,debt_existence
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult,without children,without debt
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult,without children,without debt
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult,with children,without debt
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult,without children,without debt
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult,with children,without debt


**Próposito**

Al revisar los valores únicos para la columna propósito se observan distintas categorías que pueden ser resumidas en cuatro variables: matrimonio (wedding), auto, (car), inversión inmobiliaria (real estate) y estudios (education).

In [85]:
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [86]:
def purpose_summarized(row):
    purpose_category='unknow'
    
    if 'wedding' in row['purpose']:
        purpose_category='wedding'
       
    
    elif ('real' in row['purpose']) or ('state' in row['purpose']) or ('house' in row['purpose']) or ('property' in row['purpose']) or ('housing' in row['purpose']):
        purpose_category='real estate'
       
    
    elif 'car' in row['purpose']:
        purpose_category='car'
        
    elif ('education' in row['purpose']) or ('educated' in row['purpose']) or ('university' in row['purpose']):
        purpose_category='education'
    
    return purpose_category

In [87]:
df['purpose_summarized'] = df.apply(purpose_summarized, axis=1)
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,children_range,debt_existence,purpose_summarized
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult,without children,without debt,real estate
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult,without children,without debt,car
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult,with children,without debt,real estate
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult,without children,without debt,education
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult,with children,without debt,wedding


**Clasificación de datos númericos**

Los datos númericos para la variable ingreso total puede ser mejor trabajada si se resume en distintos rangos de ingresos. Debido a esto, se trabajará con cuatro rangos de ingresos definidos en orden ascendente como:

* a.less than 10000
* b. between 10000 and 20000
* c. between 20000 and 30000
* d. more than 30000

Estos rangos tienen sentido al compararlos con una descripción estadística generalizada del dataframe que muestra que los cuartiles se dividen de la siguiente manera:

25%       17219.817250
50%       23544.493000
75%       31330.237250

El rango de ingresos será añadido al dataframe bajo la columna 'income_range'.

In [88]:
df['total_income'].value_counts()

23546.495    1675
22957.185     351
18471.391      77
31791.384       2
42413.096       2
             ... 
23834.534       1
26124.613       1
28692.182       1
28477.783       1
41428.916       1
Name: total_income, Length: 19350, dtype: int64

In [89]:
df['total_income'].describe()

count     21453.000000
mean      26442.145010
std       15685.399289
min        3306.762000
25%       17219.352000
50%       23546.495000
75%       31331.009000
max      362496.645000
Name: total_income, dtype: float64

In [90]:
def income_range(row):
    if row['total_income'] < 10000:
        return 'a:less than 10000'
    elif row['total_income'] < 20000:
        return 'b:between 10000 and 20000'
    elif row['total_income'] < 30000:
        return 'c:between 20000 and 30000'
    else:
        return 'd:more than 30000'

In [91]:
df['income_range'] = df.apply(income_range, axis=1)
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,children_range,debt_existence,purpose_summarized,income_range
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult,without children,without debt,real estate,d:more than 30000
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult,without children,without debt,car,b:between 10000 and 20000
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult,with children,without debt,real estate,c:between 20000 and 30000
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult,without children,without debt,education,d:more than 30000
4,0,2194.220567,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult,with children,without debt,wedding,c:between 20000 and 30000


In [92]:
df['income_range'].value_counts()

c:between 20000 and 30000    8088
b:between 10000 and 20000    6520
d:more than 30000            5919
a:less than 10000             926
Name: income_range, dtype: int64

## 5. Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

A continuación se presenta los datos sobre los hijos y los pagos puntuales, junto con la tasa de incumplimiento en función de la cantidad de hijos.

In [93]:
df.groupby(['children', 'debt_existence'])['debt'].value_counts()

children  debt_existence  debt
0         with debt       1        1063
          without debt    0       13027
1         with debt       1         445
          without debt    0        4410
2         with debt       1         202
          without debt    0        1926
3         with debt       1          27
          without debt    0         303
4         with debt       1           4
          without debt    0          37
5         without debt    0           9
Name: debt, dtype: int64

In [94]:
no_debt_no_children =  df[(df['children'] == 0) & (df['debt'] == 0)]['children'].value_counts()
debt_no_children = df[(df['children'] == 0) & (df['debt'] == 1)]['children'].value_counts()
rate_no_children = debt_no_children.iloc[0] / (no_debt_no_children.iloc[0] + debt_no_children.iloc[0])
print('La tasa de incumplimiento para quienes no tienen hijos es de: {:.0%}'.format(rate_no_children))

no_debt_one_child = df[(df['children'] == 1) & (df['debt'] == 0)]['children'].value_counts()
debt_one_child = df[(df['children'] == 1) & (df['debt'] == 1)]['children'].value_counts()
rate_one_child = debt_one_child.iloc[0] / (no_debt_one_child.iloc[0] + debt_one_child.iloc[0])
print('La tasa de incumplimiento para quienes tienen un hijo es de: {:.0%}'.format(rate_one_child))

no_debt_two_children = df[(df['children'] == 2) & (df['debt'] == 0)]['children'].value_counts()
debt_two_children = df[(df['children'] == 2) & (df['debt'] == 1)]['children'].value_counts()
rate_two_children = debt_two_children.iloc[0] / (no_debt_two_children.iloc[0] + debt_two_children.iloc[0])
print('La tasa de incumplimiento para quienes tienen dos hijos es de: {:.0%}'.format(rate_two_children))

no_debt_three_children = df[(df['children'] == 3) & (df['debt'] == 0)]['children'].value_counts()
debt_three_children = df[(df['children'] == 3) & (df['debt'] == 1)]['children'].value_counts()
rate_three_children = debt_three_children.iloc[0] / (no_debt_three_children.iloc[0] + debt_three_children.iloc[0])
print('La tasa de incumplimiento para quienes tienen tres hijos es de: {:.0%}'.format(rate_three_children))

no_debt_four_children = df[(df['children'] == 4) & (df['debt'] == 0)]['children'].value_counts()
debt_four_children = df[(df['children'] == 4) & (df['debt'] == 1)]['children'].value_counts()
rate_four_children = debt_four_children.iloc[0] / (no_debt_four_children.iloc[0] + debt_four_children.iloc[0])
print('La tasa de incumplimiento para quienes tienen cuatro hijos es de: {:.0%}'.format(rate_four_children))

La tasa de incumplimiento para quienes no tienen hijos es de: 8%
La tasa de incumplimiento para quienes tienen un hijo es de: 9%
La tasa de incumplimiento para quienes tienen dos hijos es de: 9%
La tasa de incumplimiento para quienes tienen tres hijos es de: 8%
La tasa de incumplimiento para quienes tienen cuatro hijos es de: 10%


**Conclusión**

La tasa de incumplimiento más alta es para quienes tienen cuatro hijos, con un 10%, mientras que las más bajas son para quienes no tienen hijos y para quienes tienen tres hijos, con un 8%. No se hicieron cálculos con quienes tienen más de 5 hijos ya que si bien no tienen deudas, su presencia en el conjunto de datos es muy baja como para sacar conclusiones respecto a este grupo. No se puede afirmar tampoco que a mayor cantidad de hijos mayor es la morosidad del prestatario ya que quienes tienen tres hijos tienen una tasa menor de incumplimiento de su deuda de quienes tienen uno o dos hijos. A continuación se añade una tabla para resumir la información anterior.

In [96]:
df.pivot_table(index='children', values='debt', aggfunc=['count', 'sum', 'mean']) 

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14090,1063,0.075444
1,4855,445,0.091658
2,2128,202,0.094925
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**


A continuación se presentan los datos sobre la situación familiar y los pagos puntuales, junto con la tasa de incumplimiento en función del estado civil.

In [221]:
df.groupby(['family_status', 'debt_existence'])['debt'].value_counts()

family_status      debt_existence  debt
civil partnership  with debt       1         388
                   without debt    0        3789
divorced           with debt       1          85
                   without debt    0        1110
married            with debt       1         931
                   without debt    0       11449
unmarried          with debt       1         274
                   without debt    0        2539
widow / widower    with debt       1          63
                   without debt    0         897
Name: debt, dtype: int64

In [271]:
no_debt_married =  df[(df['family_status_id'] == 0) & (df['debt'] == 0)]['family_status_id'].value_counts()
debt_civil_partnership = df[(df['family_status_id'] == 0) & (df['debt'] == 1)]['family_status_id'].value_counts()
rate_civil_partnership = debt_civil_partnership.iloc[0] / (debt_civil_partnership.iloc[0] + no_debt_civil_partnership.iloc[0])
print('La tasa de incumplimiento para quienes están casados es de: {:.0%}'.format(rate_married))

no_debt_civil_partnership =  df[(df['family_status_id'] == 1) & (df['debt'] == 0)]['family_status_id'].value_counts()
debt_civil_partnership = df[(df['family_status_id'] == 1) & (df['debt'] == 1)]['family_status_id'].value_counts()
rate_civil_partnership = debt_civil_partnership.iloc[0] / (debt_civil_partnership.iloc[0] + no_debt_civil_partnership.iloc[0])
print('La tasa de incumplimiento para quienes tienen una unión civil es de: {:.0%}'.format(rate_civil_partnership))

no_debt_widowhood =  df[(df['family_status_id'] == 2) & (df['debt'] == 0)]['family_status_id'].value_counts()
debt_widowhood = df[(df['family_status_id'] == 2) & (df['debt'] == 1)]['family_status_id'].value_counts()
rate_widowhood = debt_widowhood.iloc[0] / (debt_widowhood.iloc[0] + no_debt_widowhood.iloc[0])
print('La tasa de incumplimiento para quienes están viudos es de: {:.0%}'.format(rate_widowhood))

no_debt_divorced =  df[(df['family_status_id'] == 3) & (df['debt'] == 0)]['family_status_id'].value_counts()
debt_divorced = df[(df['family_status_id'] == 3) & (df['debt'] == 1)]['family_status_id'].value_counts()
rate_divorced = debt_divorced.iloc[0] / (debt_divorced.iloc[0] + no_debt_divorced.iloc[0])
print('La tasa de incumplimiento para quienes están divorciados es de: {:.0%}'.format(rate_divorced))

no_debt_unmarried =  df[(df['family_status_id'] == 4) & (df['debt'] == 0)]['family_status_id'].value_counts()
debt_unmarried = df[(df['family_status_id'] == 4) & (df['debt'] == 1)]['family_status_id'].value_counts()
rate_unmarried = debt_unmarried.iloc[0] / (debt_unmarried.iloc[0] + no_debt_unmarried.iloc[0])
print('La tasa de incumplimiento para quienes no están casados es de: {:.0%}'.format(rate_unmarried))

La tasa de incumplimiento para quienes están casados es de: 8%
La tasa de incumplimiento para quienes tienen una unión civil es de: 9%
La tasa de incumplimiento para quienes están viudos es de: 7%
La tasa de incumplimiento para quienes están divorciados es de: 7%
La tasa de incumplimiento para quienes no están casados es de: 10%


**Conclusión**

La tasa de incumplimiento más baja la tienen viudos y divorciados, con un 7%. La tasa de incumplimiento más alta es para quienes no están casados, con un 10%. Es posible que el estado civil influya en la morosidad de los prestatarios, con aquellos que han estado casados alguna vez en la vida siendo más puntuales a la hora de pagar sus créditos. A continuación se añade una tabla para resumir la información anterior.

In [97]:
df.pivot_table(index='family_status', values='debt', aggfunc=['count', 'sum', 'mean']) 

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
civil partnership,4150,388,0.093494
divorced,1195,85,0.07113
married,12339,931,0.075452
unmarried,2810,274,0.097509
widow / widower,959,63,0.065693


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

A continuación se presentan los datos sobre el nivel de ingresos y la puntualidad de los pagos, junto con la tasa de incumplimiento en función del nivel de ingresos.

In [98]:
df.groupby(['income_range','debt_existence'])['debt'].value_counts()

income_range               debt_existence  debt
a:less than 10000          with debt       1         58
                           without debt    0        868
b:between 10000 and 20000  with debt       1        555
                           without debt    0       5965
c:between 20000 and 30000  with debt       1        692
                           without debt    0       7396
d:more than 30000          with debt       1        436
                           without debt    0       5483
Name: debt, dtype: int64

In [99]:
no_debt_a =  df[(df['income_range'] == 'a:less than 10000' ) & (df['debt'] == 0)]['income_range'].value_counts()
debt_a = df[(df['income_range'] == 'a:less than 10000' ) & (df['debt'] == 1)]['income_range'].value_counts()
rate_a = debt_a.iloc[0] / (no_debt_a.iloc[0] + debt_a.iloc[0])
print('La tasa de incumplimiento para quienes ganan menos de 10000 es de: {:.0%}'.format(rate_a))

no_debt_b =  df[(df['income_range'] == 'b:between 10000 and 20000' ) & (df['debt'] == 0)]['income_range'].value_counts()
debt_b = df[(df['income_range'] == 'b:between 10000 and 20000' ) & (df['debt'] == 1)]['income_range'].value_counts()
rate_b = debt_b.iloc[0] / (no_debt_b.iloc[0] + debt_b.iloc[0])
print('La tasa de incumplimiento para quienes ganan entre 10000 y 20000 es de: {:.0%}'.format(rate_b))

no_debt_c =  df[(df['income_range'] == 'c:between 20000 and 30000' ) & (df['debt'] == 0)]['income_range'].value_counts()
debt_c = df[(df['income_range'] == 'c:between 20000 and 30000') & (df['debt'] == 1)]['income_range'].value_counts()
rate_c = debt_c.iloc[0] / (no_debt_c.iloc[0] + debt_c.iloc[0])
print('La tasa de incumplimiento para quienes ganan entre 20000 y 30000 es de: {:.0%}'.format(rate_c))

no_debt_d =  df[(df['income_range'] == 'd:more than 30000' ) & (df['debt'] == 0)]['income_range'].value_counts()
debt_d = df[(df['income_range'] == 'd:more than 30000') & (df['debt'] == 1)]['income_range'].value_counts()
rate_d = debt_c.iloc[0] / (no_debt_c.iloc[0] + debt_c.iloc[0])
print('La tasa de incumplimiento para quienes ganan más de 30000 es de: {:.0%}'.format(rate_c))

La tasa de incumplimiento para quienes ganan menos de 10000 es de: 6%
La tasa de incumplimiento para quienes ganan entre 10000 y 20000 es de: 9%
La tasa de incumplimiento para quienes ganan entre 20000 y 30000 es de: 9%
La tasa de incumplimiento para quienes ganan más de 30000 es de: 9%


**Conclusión**

La tasa de incumplimiento más baja la tienen quienes ganan menos de 10000, con un 6%, mientras que la más alta está en quienes ganan entre 10000 y 20000. Es posible que exista una relación entre el nivel de ingresos y la morosidad, sin embargo, esto no significa que una persona con menores ingresos no pague sus deudas a tiempo. 

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**


A continuación se presentan los datos sobre la finalidad del crédito y los pagos puntuales, junto con la tasa de incumplimiento en función del propósito del crédito.

In [103]:
df.groupby(['purpose_summarized','debt_existence'])['debt'].value_counts()

purpose_summarized  debt_existence  debt
car                 with debt       1         403
                    without debt    0        3903
education           with debt       1         370
                    without debt    0        3643
real estate         with debt       1         782
                    without debt    0       10029
wedding             with debt       1         186
                    without debt    0        2137
Name: debt, dtype: int64

In [105]:
no_debt_car =  df[(df['purpose_summarized'] == 'car' ) & (df['debt'] == 0)]['purpose_summarized'].value_counts()
debt_car = df[(df['purpose_summarized'] == 'car' ) & (df['debt'] == 1)]['purpose_summarized'].value_counts()
rate_car = debt_car.iloc[0] / (no_debt_car.iloc[0] + debt_car.iloc[0])
print('La tasa de incumplimiento para quienes piden crédito para solventar un auto es de: {:.0%}'.format(rate_car))

no_debt_education =  df[(df['purpose_summarized'] == 'education' ) & (df['debt'] == 0)]['purpose_summarized'].value_counts()
debt_education = df[(df['purpose_summarized'] == 'education' ) & (df['debt'] == 1)]['purpose_summarized'].value_counts()
rate_education = debt_education.iloc[0] / (no_debt_education.iloc[0] + debt_education.iloc[0])
print('La tasa de incumplimiento para quienes piden crédito para solventar estudios es de: {:.0%}'.format(rate_education))

no_debt_wedding =  df[(df['purpose_summarized'] == 'wedding' ) & (df['debt'] == 0)]['purpose_summarized'].value_counts()
debt_wedding = df[(df['purpose_summarized'] == 'wedding' ) & (df['debt'] == 1)]['purpose_summarized'].value_counts()
rate_wedding = debt_wedding.iloc[0] / (no_debt_wedding.iloc[0] + debt_wedding.iloc[0])
print('La tasa de incumplimiento para quienes piden crédito para solventar un matrimonio es de: {:.0%}'.format(rate_wedding))

no_debt_real_estate =  df[(df['purpose_summarized'] == 'real estate' ) & (df['debt'] == 0)]['purpose_summarized'].value_counts()
debt_real_estate = df[(df['purpose_summarized'] == 'real estate' ) & (df['debt'] == 1)]['purpose_summarized'].value_counts()
rate_real_estate = debt_real_estate.iloc[0] / (no_debt_real_estate.iloc[0] + debt_real_estate.iloc[0])
print('La tasa de incumplimiento para quienes piden crédito para solventar inversiones inmobiliarias es de: {:.0%}'.format(rate_real_estate))




La tasa de incumplimiento para quienes piden crédito para solventar un auto es de: 9%
La tasa de incumplimiento para quienes piden crédito para solventar estudios es de: 9%
La tasa de incumplimiento para quienes piden crédito para solventar un matrimonio es de: 8%
La tasa de incumplimiento para quienes piden crédito para solventar inversiones inmobiliarias es de: 7%


**Conclusión**

La tasa de incumplimiento más baja la tienen quienes piden un crédito para solventar inversiones de tipo inmobiliario y un matrimonio, con un 7%, mientras que quienes tienen las tasas más altas corresponden a quienes piden un crédito para solventar un auto y estudios con un 9% ambos. A continuación

In [106]:
df.pivot_table(index='purpose_summarized', values='debt', aggfunc=['count', 'sum', 'mean']) 

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_summarized,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
car,4306,403,0.09359
education,4013,370,0.0922
real estate,10811,782,0.072334
wedding,2323,186,0.080069


# Conclusión general 


Este informe recopila información de 21454 prestatarios. Para algunos de ellos, cierta información debió ser imputada mediante medias y medianas para no perder un 10% de los datos. Tambien se tuvo que realizar un preprocesamiento de datos y clasificación para poder trabajar con ellos más cómodamente y con mayor precisión. Algunos métodos utilizados para preprocesar los datos fueron el convertir todos los datos a minúsculas, la conversión de valores negativos a valores absolutos y la eliminación de datos duplicados.

Tanto datos catégoricos como datos númericos fueron clasificados. Los datos categóricos se convirtieron a datos que muestran la ausencia o presencia de un atributo tales como los hijos o las deudas, Los datos númericos fueron organizados según rangos, específicamente, el rango etario de los prestatarios y el rango de sus ingresos. Adicionalmente, se resumieron los propósitos de los créditos en cuatro categorías: matrimonio, estudios, auto e inversión inmobliliaria.

Los datos muestran que quienes son más morosos son quienes no están casados con un 10% de tasa de incumplimiento, mientras que la tasa de incumplimiento más baja la tienen quienes perciben ingresos de menos de 10000, con un 6%, por lo que el nivel de ingresos puede ser una variable importante a la hora de determinar el potencial de un futuro prestatario. A su vez, el estado civil también parece cumplir un rol en el potencial de un futuro prestatario. En específico, quienes ha estado casados alguna vez y hoy en día están en situación de viudez o divorcio tienen una tasa de incumplimiento del 7%.

Respecto al próposito de los créditos, quienes buscan solventar algún tipo de inversión inmboliaria o un matrimonio representan el menor riesgo para el banco, en comparación con otros propósitos.

No se observan grandes diferencias en la tasa de incumplimiento según el total de hijos, por lo que como variable se descarta que exista una relación entre la cantidad de hijos y la morosidad.

A futuro, sería recomendable explorar la relación entre la variable género y la morosidad.