# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

En el siguiente informe se analizará el riesgo de incumplimiento de los prestarios de un banco. Para esto, se evaluará si el estado civil y la cantidad de hijos de los clientes tinen incidencia en el incumplimiento del pago de los préstamos. Además, se evaluará la capacidad de los clientes para pagar sus préstamos por medio de un sistema de puncuación de crédito.

## Abrrir el archivo de datos y observar la información general.


In [None]:
# Cargar todas las librerías
import pandas as pd


In [None]:
# Carga los datos
df = pd.read_csv('/datasets/credit_scoring_eng.csv')


## 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [None]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.shape


(21525, 12)

In [None]:
# vamos a mostrar las primeras filas N
df.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


El primer problema que podemos notar es que hay valores ausentes en la columna 'days_employed' y 'total_income'. También podemos ver que en la columna 'education' hay valores duplicados y, además, que en la columna 'days_employed' hay valores negativos.



In [None]:
# Obtener información sobre los datos
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Al obtener la información sobre los datos, podemos comprobar que hay la misma cantidad de valores nulos para las columnas 'days_employed' y 'total_income', y solo en estas columnas.

In [None]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

df["days_employed"].isnull().sum()

2174

Los valores ausentes parecen simétricos, para estar seguros de esto mostraremos el número de valores ausentes de ambas columnas. También mostraremos el número de filas de la tabla que contienen valores ausentes.

In [None]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

# Las siguientes variables nos arrojarán el total de valores ausentes de las columnas 'days_employed' y 'total_income'.
days_emp_isna = df["days_employed"].isnull().sum()
total_income_isna = df["total_income"].isnull().sum()

print(f'Valores ausentes de la columna "days_employed": {days_emp_isna}')
print(f'Valores ausentes de la columna "total_income": {total_income_isna}')
print()

# Además filtraremos la tabla para obtener el total de filas que contienen valores ausentes.
filas_isna = df.isnull().any(axis=1).sum()
print(f'El total de filas que contienen valores ausentes es: {filas_isna}')




Valores ausentes de la columna "days_employed": 2174
Valores ausentes de la columna "total_income": 2174

El total de filas que contienen valores ausentes es: 2174


**Conclusión intermedia**

El número de valores ausentes de la tabla filtrada coincice con el número de valores ausentes de ambas columnas. Con esto podemo concluir que los valores ausentes son simétricos y que estos se encuentran en la misma ubicación en ambas columnas.

A continuación calcularemos el porcentaje de valores ausentes y comprobaremos la distribución, para saber qué acciones tomar respecto a estos valores.

In [None]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

# Calculamos el porcentaje de los valores ausentes en comparación con el conjunto de datos completo.**
per_days_emp = df["days_employed"].isna().mean()
per_total_income = df["total_income"].isna().mean()

print(f'El porcentaje de valores ausentes respecto al número total de valores en "days_employed": {per_days_emp:.0%}')
print(f'El porcentaje de valores ausentes respecto al número total de valores en "total_income": {per_total_income:.0%}')


El porcentaje de valores ausentes respecto al número total de valores en "days_employed": 10%
El porcentaje de valores ausentes respecto al número total de valores en "total_income": 10%


In [None]:
# Comprobación de la distribución en 'days_employed'.
df.days_employed.value_counts(dropna=False)

 NaN            2174
-1580.622577       1
-4122.460569       1
-2828.237691       1
-2636.090517       1
                ... 
-7120.517564       1
-2146.884040       1
-881.454684        1
-794.666350        1
-3382.113891       1
Name: days_employed, Length: 19352, dtype: int64

In [None]:
# Comprobación de la distribución en 'total_income'.
df.total_income.value_counts(dropna=False)

NaN          2174
17312.717       2
31791.384       2
42413.096       2
22435.069       1
             ... 
23834.534       1
26124.613       1
28692.182       1
28477.783       1
41428.916       1
Name: total_income, Length: 19349, dtype: int64

Como se puede apreciar, ambas columbas poseen 2174 valores ausentes, esto equivale al 10% en ambas columnas examinadas. Si bien la porción de datos ausentes no es grande, reemplazaremos estos valores por otros para que no alteren los resultados de nuestra investigación.

**Posibles razones por las que hay valores ausentes en los datos**

Una posible razón es que los clientes tengan trabajos más informales en los que no se registran estos tipos de dato, otra posible razón podría ser errores técnicos o de sistema. Además los valos ausentes en "days_employed" tiene incidencia en los valores ausentes de "total_income". Se entiende que al no haber días de trabajo registrado, no se puede calcular el total de ingresos del cliente.


In [None]:
# Comprobando la distribución en el conjunto de datos entero
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Conclusión intermedia**

La distribución tanto la tabla filtrada como en el conjunto datos es la misma. De acuerdo a la información de la celda de arriba todas las columnas poseen la misma cantidad de valores, a excepción de las columnas ya estudiadas que contienen 2174 datos ausentes.

In [None]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
df[df.isna().any(axis=1)]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusión intermedia**

En la celda de arriba podemos ver la tabla filtrada por valores ausentes, donde podemos confirmar que por cada valor ausente en "days_employed" hay un valor ausente en "total_income".

In [None]:
# Comprobación de otros patrones: explica cuáles

**Conclusiones**

En conclusión, la cantidad de valores ausentes en las columnas examinadas anteriormente son la misma y se encuentran en las mismas filas, es decir son simétricos.

Para abordar los valores ausentes, se calculará la media o mediana de "days_employed" y "total_income" para poder reemplaarlos.

A continuación abordaremos diferentes tipos de problemas tales como: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.


## Transformación de datos

Ahora repasaremos cada columna para ver qué problemas podemos encontrar en ellas. En primer lugar analizaremos la columna "education", aliminaremos sus duplicados y lo que sea necesario corregir.



In [None]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df.education.value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

A continuación mormalizamos los valores.

In [None]:
# Corregir registros
df["education"] = df.education.str.lower()


In [None]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
df.education.value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

A continuación comprobaremos los datos de la columna "children".

In [None]:
# Veamos la distribución de los valores en la columna `children`
df.children.value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

El primer factor extraño que podemos notar es que hay 47 elementos en negativo, que en este caso sería el número de hijos. Otro factor curioso es que hay 76 clientes con una cantidad de 20 hijos, lo que probablemente se trate de un error de tipeo en el que se incluyó un 0 demás.

In [None]:
# Ahora calcularemos el porcentaje de error de los valores negativos.
df_neg = df["children"] == -1
child_neg = df[df_neg]
por_child_neg = (len(child_neg) / len(df["children"]))*100
print(f'Porcentaje de datos edades negativas: {por_child_neg}%')


Porcentaje de datos edades negativas: 0.2183507549361208%


In [None]:
# Y el porcentaje de error de la cantidad de 20 hijos.
df_excess = df["children"] == 20
child_excess = df[df_excess]
por_child_excess = (len(child_excess) / len(df["children"]))*100
print(f'Porcentaje de error 20 hijos: {por_child_excess}%')


Porcentaje de error 20 hijos: 0.3530778164924506%


El porcentaje de edades negativas es de 0.21% y del extraño valor es de 20 hijos es 0.35%.

Al parecer son errores de tipeo, dejaremos los valores negativos en positivos y los 20 los reemplazaremos por 2.

In [None]:
# Corregir los valores negativos
df["children"] = df["children"].abs()

In [None]:
#reemplazamos 20 por 2
df.children = df.children.replace(20, 2)


In [None]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado.
df.children.value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

A continuación comprobaremos los datos de la columna 'days_employed'.

In [None]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje.
df.days_employed.value_counts(dropna=False)


 NaN            2174
-1580.622577       1
-4122.460569       1
-2828.237691       1
-2636.090517       1
                ... 
-7120.517564       1
-2146.884040       1
-881.454684        1
-794.666350        1
-3382.113891       1
Name: days_employed, Length: 19352, dtype: int64

In [None]:
df_days_neg = (df["days_employed"] < 0).mean()
print(f'Porcentaje de datos problemáticos: {df_days_neg}%')

Porcentaje de datos problemáticos: 0.7389547038327526%


Como mencionamos anteriormente, en esta columna hay valores ausentes, que abordaremos más adelante en el informe. Por otro lado, nos encontramos con que el 74% de los días laborales están en números negativos, que es un porcentaje alto. Con esto podemos deducir que esto debió suceder por problemas técnicos. De este modo, dejaremos los valores en positivo.

In [None]:
# Corregir valores negativos en "days_employed".
df["days_employed"] = df.days_employed.abs()

In [None]:
# Comprueba el resultado - nos aseguramos de que esté arreglado       FALTA CORREGIR
print(df.days_employed.value_counts(dropna=False))
print()
print(df.days_employed.describe())

NaN              2174
5849.845620         1
2539.534295         1
390574.985524       1
891.505415          1
                 ... 
2325.720832         1
4086.407828         1
1259.497032         1
985.798488          1
1636.419775         1
Name: days_employed, Length: 19352, dtype: int64

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64


Ahora que hemos eliminado los valores negativos, también podemos notar que existen valores anormalmente altos que deberemos abordar. Probablemente fue un error de tipeo al igual que los otros errores que vimos.

In [None]:
dias_max = (df["dob_years"].max()-18)*335

dias_max #el número máximo debería ser este, no 401755.400475 por lo que

dias_mean = df["dob_years"].mean()

En este caso se decide multiplicar por 335 la edad de las personas -18, considerando que la edad de trabajo legal es desde los 18. Utilizamos 335 debido a que representa aproximadamente la cantidad de días laborales por año

In [None]:
# Aquí abordaremos los valores anormalmente altos
df.loc[(df['days_employed'] > dias_max) & (df['dob_years'] != 0), 'days_employed'] = (df['dob_years'])*335
df.loc[df['dob_years'] == 0, 'days_employed'] = dias_mean

In [None]:
# Comprobamos que esté arreglado
print(df['days_employed'])
print()
print(df.days_employed.describe())

0         8437.673028
1         4024.803754
2         5623.422610
3         4124.747207
4        17755.000000
             ...     
21520     4529.316663
21521    22445.000000
21522     2113.346888
21523     3112.481705
21524     1984.507589
Name: days_employed, Length: 21525, dtype: float64

count    19361.000000
mean      5449.258367
std       7080.604967
min         24.141633
25%        913.510675
50%       2177.391045
75%       5504.936976
max      24790.000000
Name: days_employed, dtype: float64


Ahora analizaremos las edades de los clientes en la columna 'dob_years', para ver si hay valores extraños.

In [None]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
df["dob_years"].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [None]:
# Porcentaje de valores extraños
dob = (101 / df["dob_years"].value_counts().sum())

print(f'Porcentaje de valores extraños: {dob:%}')

Porcentaje de valores extraños: 0.469222%


De acuerdo a la tabla, hay 101 clientes con una edad de 0, que corresponde a un 0.46% de valores extraños. Debido a que no hay valores atípicos importantes en la columna, reemplazaremos estos valores extraños por la mediana de las edades como el indicador adecuado, de modo que no altere los resultados de nuestra investigación.

In [None]:
# Resuelve los problemas en la columna `dob_years`, si existen
# Aquí reemplazamos las edades de 0 por la mediana
years_median = df.dob_years.median().astype(int)
df.dob_years = df.dob_years.replace([0], [years_median])


In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(df.dob_years.value_counts())
print()
print(df.dob_years.describe())

42    698
35    617
40    609
41    607
34    603
38    598
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

count    21525.000000
mean        43.490453
std         12.218595
min         19.000000
25%         34.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64


Ahora echaremos un vistazo a la columna 'family_status'.

In [None]:
# Veamos los valores de la columna
df["family_status"].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [None]:
#Aquí reemplazaremos los espacios de los valores con 'snake_case'

df["family_status"] = df["family_status"].replace('civil partnership', 'civil_partnership')
df["family_status"] = df["family_status"].replace('widow / widower', 'widow_or_widower')
print(df.family_status.unique())

['married' 'civil_partnership' 'widow_or_widower' 'divorced' 'unmarried']


En esta columna se eliminaron los espacios de los valores "civil partnership" y "widow / widower". Por otra parte no encontramos más problemas.

A contiuación analizaremos la columna 'gender'.

In [None]:
# Veamos los valores en la columna
df.gender.value_counts()


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

En esta columna solo hay 1 género desconocido, al ser una porción minúscula de los datos, la eliminaremos, además no tenemos ningún indicio de qué género podría ser. Esto no afectará al resultado de nuestra investigación.

In [None]:
# Resuelve los problemas en la columna `gender`, si existen
df.drop(df.index[df["gender"] == "XNA"],axis=0,inplace=True)

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado
df.gender.value_counts()

F    14236
M     7288
Name: gender, dtype: int64

Ahora veremos si hay datos extraños en la columna 'income_type'.

In [None]:
# Veamos los valores en la columna
df["income_type"].value_counts()


employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

En esta columna tampoco hemos encontramos valores extraños, más allá de algunos valores poco comunes pero posibles.

A continuación veremos si hay duplicados en los datos.

In [None]:
# Comprobar los duplicados
df.duplicated().sum()

71

In [None]:
# Aborda los duplicados, si existen
## también reseteamos los índices para mantener el orden
df = df.drop_duplicates().reset_index()

<div class="alert alert-info">
<h1> Comentarios del estudiante</h1>
Listo!
</div>

In [None]:
# Última comprobación para ver si tenemos duplicados
df.duplicated().sum()

0

In [None]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.shape

(21453, 13)

In [None]:
dup = (71/21525)*100
print(f"Porcentaje de datos duplicados: {dup}%")

Porcentaje de datos duplicados: 0.32984901277584205%


Ahora nuesta tabla consiste en 21454 filas y 12 columnas, el porcentaje de datos duplicados eliminados fue de 0.33%. Esta es una porción minúscula de los datos totales por lo que no afectará en nuestra investigación.

# Trabajar con valores ausentes

Ahora trabajaremos con con los diccionarios de las columnas 'education_id' y 'family_status_id, ya que proporcionan IDs que nos podrían ayudar a acelerar nuestro trabajo.

In [None]:
# Encuentra los diccionarios
## Diccionario de 'education'
education_dict = zip(df.education, df.education_id)
education_dict = list(education_dict)
education_dict = dict(education_dict)
education_dict



{"bachelor's degree": 0,
 'secondary education': 1,
 'some college': 2,
 'primary education': 3,
 'graduate degree': 4}

In [None]:
## Diccionario de 'family_status'
family_status_dict = zip(df.family_status, df.family_status_id)
family_status_dict = list(family_status_dict)
family_status_dict = dict(family_status_dict)
family_status_dict

{'married': 0,
 'civil_partnership': 1,
 'widow_or_widower': 2,
 'divorced': 3,
 'unmarried': 4}

### Restaurar valores ausentes en `total_income`

A continuación abordaremos las columnas con valores ausentes 'day_employed' y 'total_income'.

Primero abordaremos la columna 'total_income'. Para esto crearemos una nueva columna con categorías de las edades de los clientes, lo que nos podría ayudar a calcular los valores ausentes de 'total_income'.


In [None]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(age):
    if 19 <= age <= 30:
        return '19_to_30'
    if 31 <= age <= 40:
        return '31_to_40'
    if 41 <= age <= 50:
        return '41_to_50'
    if 51 <= age <= 60:
        return '51_to_60'
    if 61 <= age <= 70:
        return '61_to_70'
    if 71 <= age <= 80:
        return '71_to_80'
    else:
        return 'unknown'

In [None]:
# Prueba si la función funciona bien
print(age_group(19))
print(age_group(58))
print(age_group(71))

19_to_30
51_to_60
71_to_80


In [None]:
# Crear una nueva columna basada en la función
df["age_group"] = df["dob_years"].apply(age_group)

In [None]:
# Comprobar cómo los valores en la nueva columna
df.age_group.head()


0    41_to_50
1    31_to_40
2    31_to_40
3    31_to_40
4    51_to_60
Name: age_group, dtype: object

Sin duda algunos de los factores que afectan a los ingresos totales son: 'education', 'dob_years', 'income_type' y 'gender'. Por otro lado, para definir si utilizaremos la media o mediana al reemplazar los valores ausentes, veremos la distribución de los factores que pueden tener impacto en los ingresos totales.


A continuación crearemos una tabla sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.

In [None]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
df_notnull = df[df['total_income'].notnull()]
df_notnull.head(15)


Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41_to_50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31_to_40
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31_to_40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31_to_40
4,4,0,17755.0,53,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,51_to_60
5,5,0,926.185831,27,bachelor's degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,19_to_30
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41_to_50
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41_to_50
8,8,2,6929.865299,35,bachelor's degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,31_to_40
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41_to_50


Ahora examinaremos los valores medios y medianos en función a los factores identificados.

## Comenzaremos con 'education', ya que el nivel de educación en la mayoría de veces tiene una incidencia directa en los ingresos de las personas.

In [None]:
# Examina los valores medios y medianos de los ingresos en función de los factores que identificaste
## Valores medios y medianos en función a 'education'
education_mean_median = df_notnull.groupby('education').agg({'total_income' : ['mean', 'median']})
education_mean_median


Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,mean,median
education,Unnamed: 1_level_2,Unnamed: 2_level_2
bachelor's degree,33142.802434,28054.531
graduate degree,27960.024667,25161.5835
primary education,21144.882211,18741.976
secondary education,24594.503037,21836.583
some college,29040.13299,25608.7945


Claramente, entre un empresario y una persona retirada habrán diferencias significativas de ingresos, 'income_type' también es un factor importante.

In [None]:
## Valores medios y medianos en función a 'income_type'
income_type_mean_median = df_notnull.groupby('income_type').agg({'total_income' : ['mean', 'median']})
income_type_mean_median

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,mean,median
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
business,32386.741818,27571.0825
civil servant,27343.729582,24071.6695
employee,25820.841683,22815.1035
entrepreneur,79866.103,79866.103
paternity / maternity leave,8612.661,8612.661
retiree,21940.394503,18962.318
student,15712.26,15712.26
unemployed,21014.3605,21014.3605


Una mayor edad significa más experiencia laboral y más tiempo de trabajo, por lo que 'dob_years' será otro factor a considerar.

In [None]:
## Valores medios y medianos en función a 'dob_years'
dob_years_mean_median = df_notnull.groupby('dob_years').agg({'total_income' : ['mean', 'median']})
dob_years_mean_median

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,mean,median
dob_years,Unnamed: 1_level_2,Unnamed: 2_level_2
19,16993.942462,14934.901
20,20318.927348,17520.329
21,22980.76314,20522.515
22,22374.508572,19839.341
23,22154.104601,19706.0455
24,24036.031306,22461.0545
25,25211.566611,22899.099
26,25272.935834,23273.136
27,28337.6784,24708.679
28,26349.61137,23946.094


El género de los clientes también es un factor diferenciador en sus ingresos.

In [None]:
## Valores medios y medianos en función a 'gender'
gender_mean_median = df_notnull.groupby('gender').agg({'total_income' : ['mean', 'median']})
gender_mean_median

Unnamed: 0_level_0,total_income,total_income
Unnamed: 0_level_1,mean,median
gender,Unnamed: 1_level_2,Unnamed: 2_level_2
F,24655.604757,21464.845
M,30907.144369,26834.295


En la columna 'total_income' existen ingresos signiticativamente distintos, es decir, son valores atípicos. Debido a esto utilizaremos la mediana para rellenar los valores ausentes de 'total_income'. Para rellenar los valores ausentes utilizaremos la mediana de 'total_income' en función a los valores de la columna 'education'.


In [None]:
#  Escribe una función que usaremos para completar los valores ausentes

def fillna_by_other_column(df, target_column, column_to_replace, agg = "mean"):
    grouped = df.groupby(column_to_replace).agg({target_column: ["mean","median"]})

    for index in grouped.index:
        df.loc[df[target_column].isna() & (df[column_to_replace] == index),  target_column] = grouped.loc[index,(target_column, agg)]

    return df


In [None]:
# Comprueba si funciona
fillna_by_other_column(df, "total_income", "education", agg = "median")

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41_to_50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31_to_40
2,2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31_to_40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31_to_40
4,4,0,17755.000000,53,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,51_to_60
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,21520,1,4529.316663,43,secondary education,1,civil_partnership,1,F,business,0,35966.698,housing transactions,41_to_50
21449,21521,0,22445.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,61_to_70
21450,21522,1,2113.346888,38,secondary education,1,civil_partnership,1,M,employee,1,14347.610,property,31_to_40
21451,21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,31_to_40


In [None]:
# Aplícalo a cada fila
df = fillna_by_other_column(df, "total_income", "education", agg = "median")

In [None]:
# Comprueba si tenemos algún error
df.isna().sum()

index                  0
children               0
days_employed       2093
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
dtype: int64

Como podemos observar, se han reemplazado exitosamente los valores ausentes de 'total_income'.

In [None]:
# Comprobar el número de entradas en las columnas
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             21453 non-null  int64  
 1   children          21453 non-null  int64  
 2   days_employed     19360 non-null  float64
 3   dob_years         21453 non-null  int64  
 4   education         21453 non-null  object 
 5   education_id      21453 non-null  int64  
 6   family_status     21453 non-null  object 
 7   family_status_id  21453 non-null  int64  
 8   gender            21453 non-null  object 
 9   income_type       21453 non-null  object 
 10  debt              21453 non-null  int64  
 11  total_income      21453 non-null  float64
 12  purpose           21453 non-null  object 
 13  age_group         21453 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.3+ MB


###  Restaurar valores en `days_employed`

A continuación restauraremos los valores ausentes en 'days_employed', para esto nos podrían ser útiles los parámetros 'age_group' y 'dob_years'.

In [None]:
# Distribución de las medianas y medias de `days_employed` en función de los parámetros identificados
## Valores medios y medianos en función a 'age_group'
age_group_mean_median = df_notnull.groupby('age_group').agg({'days_employed' : ['mean', 'median']})
age_group_mean_median

Unnamed: 0_level_0,days_employed,days_employed
Unnamed: 0_level_1,mean,median
age_group,Unnamed: 1_level_2,Unnamed: 2_level_2
19_to_30,1294.918571,1045.752744
31_to_40,2164.087084,1630.193189
41_to_50,3250.138183,2130.417977
51_to_60,9788.152002,6481.039027
61_to_70,17826.350842,21105.0
71_to_80,21532.007652,23785.0


In [None]:
## Valores medios y medianos en función a 'dob_years'
dob_year_mean_median = df_notnull.groupby('dob_years').agg({'days_employed' : ['mean', 'median']})
dob_year_mean_median

Unnamed: 0_level_0,days_employed,days_employed
Unnamed: 0_level_1,mean,median
dob_years,Unnamed: 1_level_2,Unnamed: 2_level_2
19,633.678086,724.49261
20,684.944308,674.838979
21,709.44093,618.733817
22,821.067277,703.310078
23,827.309437,690.204208
24,1020.900547,942.390603
25,1088.406453,919.199388
26,1240.554604,1083.658132
27,1408.614178,1166.21216
28,1415.570447,1141.70545


Ahora reemplazaremos los valores ausentes de 'days_employed'. Para esto utilizaremos la mediana de 'days_employed' en función a 'dob_years', es decir, se calculará la mediana de días trabajados en función a las edades de los clientes. Se utilizará la mediana debido a que los valores son atípicos.

In [None]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def fillna_by_other_column(df, target_column, column_to_replace, agg = "mean"):
    grouped = df.groupby(column_to_replace).agg({target_column: ["mean","median"]})

    for index in grouped.index:
        df.loc[df[target_column].isna() & (df[column_to_replace] == index),  target_column] = grouped.loc[index,(target_column, agg)]

    return df

In [None]:
# Comprueba que la función funciona
fillna_by_other_column(df, "days_employed", "dob_years", agg = "median")


Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41_to_50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31_to_40
2,2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31_to_40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31_to_40
4,4,0,17755.000000,53,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,51_to_60
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,21520,1,4529.316663,43,secondary education,1,civil_partnership,1,F,business,0,35966.698,housing transactions,41_to_50
21449,21521,0,22445.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,61_to_70
21450,21522,1,2113.346888,38,secondary education,1,civil_partnership,1,M,employee,1,14347.610,property,31_to_40
21451,21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,31_to_40


In [None]:
# Aplicar la función al income_type
alternate_df = fillna_by_other_column(df, "days_employed", "income_type", agg = "median")

In [None]:
# Comprueba si la función funcionó
alternate_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             21453 non-null  int64  
 1   children          21453 non-null  int64  
 2   days_employed     21453 non-null  float64
 3   dob_years         21453 non-null  int64  
 4   education         21453 non-null  object 
 5   education_id      21453 non-null  int64  
 6   family_status     21453 non-null  object 
 7   family_status_id  21453 non-null  int64  
 8   gender            21453 non-null  object 
 9   income_type       21453 non-null  object 
 10  debt              21453 non-null  int64  
 11  total_income      21453 non-null  float64
 12  purpose           21453 non-null  object 
 13  age_group         21453 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.3+ MB


In [None]:
# Reemplazar valores ausentes
df = fillna_by_other_column(df, "days_employed", "dob_years", agg = "median")


In [None]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             21453 non-null  int64  
 1   children          21453 non-null  int64  
 2   days_employed     21453 non-null  float64
 3   dob_years         21453 non-null  int64  
 4   education         21453 non-null  object 
 5   education_id      21453 non-null  int64  
 6   family_status     21453 non-null  object 
 7   family_status_id  21453 non-null  int64  
 8   gender            21453 non-null  object 
 9   income_type       21453 non-null  object 
 10  debt              21453 non-null  int64  
 11  total_income      21453 non-null  float64
 12  purpose           21453 non-null  object 
 13  age_group         21453 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.3+ MB


Al aplicar la función, podemos comprobar que el número total de entradas para cada columna coinciden.

## Clasificación de datos

A continuación clasificaremos las columnas 'children', 'family_status', 'total_income' y 'purpose', en relación a 'debt', para analizar cómo afectan estos factores en los pagos de los prestamos. Primero procesaremos los datos de texto, luego los datos numéricos.


In [None]:
# Muestra los valores de los datos seleccionados para la clasificación
## Valores de 'children'
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [None]:
## Valores de 'family_status'
df['family_status'].unique()

array(['married', 'civil_partnership', 'widow_or_widower', 'divorced',
       'unmarried'], dtype=object)

In [None]:
## Valores de 'total_income'
df['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

In [None]:
## Valores de 'purpose'
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Ahora comprobaremos los valores únicos en los datos seleccionados.

In [None]:
# Comprobar los valores únicos
## Comprobar los valores únicos de 'children'
df['children'].value_counts()

0    14090
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [None]:
## Comprobar los valores únicos de 'family_status'
df['family_status'].value_counts()

married              12339
civil_partnership     4150
unmarried             2810
divorced              1195
widow_or_widower       959
Name: family_status, dtype: int64

In [None]:
## Comprobar los valores únicos de 'total_income'
df['total_income'].value_counts()

21836.5830    1480
28054.5310     534
25608.7945      69
18741.9760      22
17312.7170       2
              ... 
45484.1090       1
27715.4580       1
23834.5340       1
26124.6130       1
41428.9160       1
Name: total_income, Length: 19349, dtype: int64

In [None]:
## Comprobar los valores únicos de 'purpose'
df['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
housing                                     646
purchase of the house                       646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
purchase of my own house                    620
buy real estate                             620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

A continuación clasificaremos las columnas seleccionadas ("children", "family_status", "total_income", "purpose") en relación a clientes con deudas de la columna "debt", comenzando por los datos de texto.


In [None]:
# Escribamos una función para clasificar los datos en función de temas comunes
def clasificar_datos(col1):
    clasify = (df.debt == 1)
    return df.loc[clasify].groupby([col1]).debt.count()


A continuación simplificaremos la columna "purpose" para facilitar su clasificación.

In [None]:
#simplificar columna "purpose" para facilitar su clasificación.

def purpose_simplified(row):
    purpose = row['purpose']
    if 'education' in purpose or 'university' in purpose or 'educated' in purpose:
        return 'education'
    elif 'wedding' in purpose:
        return 'wedding'
    elif 'real' in purpose:
        return 'real_estate'
    elif 'house' in purpose:
        return 'house'
    elif 'property' in purpose:
        return 'property'
    elif 'car' in purpose or 'cars' in purpose:
        return 'car'
    else:
        return 'another_purpose'


In [None]:
#reemplazamos los valores de la columna 'purpose' para simplificarla

df["purpose"] = df.apply(purpose_simplified, axis=1)

In [None]:
#comprobamos sus valores únicos

df.purpose.unique()

array(['house', 'car', 'education', 'wedding', 'another_purpose',
       'real_estate', 'property'], dtype=object)

In [None]:
# Crea una columna con las categorías y cuenta los valores en ellas

##Clasificar categorías de "purpose" respecto a "debt"
clasificar_datos("purpose").sort_values(ascending=False)

purpose
car                403
education          370
real_estate        336
property           190
wedding            186
another_purpose    129
house              127
Name: debt, dtype: int64

Algunos de los principales motivos de clientes que no han pagado sus prestamos son: casas, autos y educación.

In [None]:
##Clasificar categorías de "family_status" respecto a "debt"
clasificar_datos("family_status").sort_values(ascending=False)

family_status
married              931
civil_partnership    388
unmarried            274
divorced              85
widow_or_widower      63
Name: debt, dtype: int64

Aquí podemos observar que la mayor parte de los clientes deudores están casados.

A continuación clasificaremos los datos numéricos.

Ahora segmentaremos "total_income" por rangos de valores para poder clasificar y visualizar sus valores respecto a "debt" con mayor claridad.

In [None]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

##función para clasificar "total_income" por rangos.
def ti_range(ti):
    if ti <= 20000:
        return '0_to_20000'
    elif 20001 <= ti <= 40000:
        return '20000_to_40000'
    elif 40001 <= ti <= 60000:
        return '40000_to_60000'
    elif 60001 <= ti <= 80000:
        return '60000_to_80000'
    elif 80001 <= ti <= 100000:
        return '80000_to_100000'
    elif 100001 <= ti <=2000000:
        return '100000_to_200000'
    else:
        return '200000_plus'


In [None]:
# Crear una columna con categorías

##creamos una nueva columna de "total_income" clasificada por rangos llamada "ti_group"
df["ti_group"] = df["total_income"].apply(ti_range)

In [None]:
##Clasificar categorías de "ti_group" respecto a "debt"
clasificar_datos("ti_group").sort_values(ascending=False)

ti_group
20000_to_40000      936
0_to_20000          611
40000_to_60000      156
60000_to_80000       24
80000_to_100000       8
100000_to_200000      6
Name: debt, dtype: int64

Aquí podemos ver la mayoría de clientes que no han pagado el prestamo tienen los ingresos menores

In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación

##Clasificar categorías de "children" respecto a "debt"
clasificar_datos("children").sort_values(ascending=False)

children
0    1063
1     445
2     202
3      27
4       4
Name: debt, dtype: int64

In [None]:
# Contar los valores de cada categoría para ver la distribución

##distribución de clasificación de "purpose" respecto a "debt"
clasificar_datos("purpose").value_counts()


336    1
129    1
370    1
403    1
186    1
190    1
127    1
Name: debt, dtype: int64

In [None]:
##distribución de clasificación de "family_status" respecto a "debt"
clasificar_datos("family_status").value_counts()

274    1
931    1
388    1
85     1
63     1
Name: debt, dtype: int64

In [None]:
##distribución de clasificación de "total_income" respecto a "debt"
clasificar_datos("ti_group").value_counts()

936    1
8      1
611    1
156    1
24     1
6      1
Name: debt, dtype: int64

In [None]:
##distribución de clasificación de "family_status" respecto a "debt"
clasificar_datos("children").value_counts()

202     1
27      1
4       1
445     1
1063    1
Name: debt, dtype: int64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
# Comprueba los datos sobre los hijos y los pagos puntuales
pivot_t_kids_vs_debt = df.pivot_table(index=['gender'], columns=('children'), values=['debt'], aggfunc='sum')

pivot_t_kids_vs_debt

# Calcular la tasa de incumplimiento en función del número de hijos
children_debt = df.groupby('children').agg({'debt': ['count', 'sum']})

children_debt['default_rate'] = children_debt['debt']['sum'] / children_debt['debt']['count']

print(pivot_t_kids_vs_debt)
print()
print(children_debt)

         debt                    
children    0    1    2   3  4  5
gender                           
F         592  246  138  17  1  0
M         471  199   64  10  3  0

           debt       default_rate
          count   sum             
children                          
0         14090  1063     0.075444
1          4855   445     0.091658
2          2128   202     0.094925
3           330    27     0.081818
4            41     4     0.097561
5             9     0     0.000000


**Conclusión**

Como se puede apreciar en los datos, el número de hijos no afecta en gran medida en la taza de incumplimiento de los clientes. Sin embargo, podemos observar que la taza de incumplimiento de quienes tienen hijos (9,1%) es ligeramente mayor a la de quienes no tienen hijos(7,5%).

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Comprueba los datos del estado familiar y los pagos a tiempo
pivot_t_familystatus_vs_debt = df.pivot_table(index=['gender'], columns=('family_status'), values=['debt'], aggfunc='sum')

pivot_t_familystatus_vs_debt

# Calcular la tasa de incumplimiento basada en el estado familiar

familystatus_debt = df.groupby('family_status').agg({'debt': ['count', 'sum']})

familystatus_debt['default_rate'] = familystatus_debt['debt']['sum'] / familystatus_debt['debt']['count']

print(pivot_t_familystatus_vs_debt)
print()
print(familystatus_debt)

                           debt                                            
family_status civil_partnership divorced married unmarried widow_or_widower
gender                                                                     
F                           233       61     530       118               52
M                           155       24     401       156               11

                    debt      default_rate
                   count  sum             
family_status                             
civil_partnership   4150  388     0.093494
divorced            1195   85     0.071130
married            12339  931     0.075452
unmarried           2810  274     0.097509
widow_or_widower     959   63     0.065693


**Conclusión**

Como se puede observar, los estados civiles 'civil partnership' y 'unmarried' tienen los porcentajes de imcumplimiento más altos. Luego le siguen 'divorced' y 'married', y por último 'widow / widower' con la tasa de incuplimiento más baja.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
pivot_t_tincome_vs_debt = df.pivot_table(index=['education'], columns=('debt'), values=['total_income'], aggfunc=('min', 'mean', 'max'))

pivot_t_tincome_vs_debt



Unnamed: 0_level_0,total_income,total_income,total_income,total_income,total_income,total_income
Unnamed: 0_level_1,max,max,mean,mean,min,min
debt,0,1,0,1,0,1
education,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
bachelor's degree,362496.645,352136.354,32672.798028,31774.906608,5148.514,6689.661
graduate degree,42945.794,,27960.024667,,15800.399,
primary education,78410.774,45488.263,20851.751127,21890.523226,4049.374,11755.443
secondary education,276204.162,164943.868,24335.818661,24222.765597,3392.845,3306.762
some college,153349.533,131588.163,28176.265065,34133.493184,5514.581,8154.029


In [None]:
# Calcular la tasa de incumplimiento basada en el nivel de ingresos
##Aquí utilizaremos la columna 'ti_group', que es la columna 'total_income' segmentada en rangos de valores, para facilitar su visualización

total_income_debt = df.groupby('ti_group').agg({'debt': ['count', 'sum']})

total_income_debt['default_rate'] = total_income_debt['debt']['sum'] / total_income_debt['debt']['count']

print(total_income_debt)

                   debt      default_rate
                  count  sum             
ti_group                                 
0_to_20000         7390  611     0.082679
100000_to_200000     99    6     0.060606
200000_plus           1    0     0.000000
20000_to_40000    11250  936     0.083200
40000_to_60000     2140  156     0.072897
60000_to_80000      450   24     0.053333
80000_to_100000     123    8     0.065041


**Conclusión**

De acuerdo a los resultados que nos muestra la tabla, los grupos con menor ingresos '0_to_20000' y '20000_to_40000' son quienes poseen las mayores tasas de incumplimiento. Podemos observar que mientras mayores sean los ingresos, menor es la tasa de incumplimiento, lo que tiene lógica.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
pivot_table_purpose_and_debt = df.pivot_table(index=['purpose'], values=['debt'], aggfunc=['mean'])
pivot_table_purpose_and_debt

Unnamed: 0_level_0,mean
Unnamed: 0_level_1,debt
purpose,Unnamed: 1_level_2
another_purpose,0.067717
car,0.09359
education,0.0922
house,0.066702
property,0.074862
real_estate,0.075286
wedding,0.080034


**Conclusión**

Aquí podemos ver que algunos de los motivos más importantes en la tasa de incumplimiento son 'car' y 'education', mientras que 'house' y 'other_purpose' tienen las tasas de incumplimiento más bajas.




# Conclusión general

Al comenzar esta investigación se nos entregó un dataframe de 12.25 líneas y 12 columnas que, además, contaba con 2174 valores ausentes en la columna 'total_income' y '2174' valores ausentes en la columna'days_employed'. El resto de columnas contaba con algunos problemas que presentaremos a continuación.

1.-'education': en esta columna encontramos valores duplicados, escritos en mayúsculas y minúsculas, lo que fue corregido.

2.-'children': en esta columna nos encontramos valores negativos probablemente por errores de tipeo, lo que fue corregido. Además encontramos 76 clientes con una cantidad de 20 hijos, que si bien es extraño, puede ser una posibilidad. Dado que no tenemos mayor contexto sobre esto, no manipulamos estos datos.

3.-'days_employed': en esta columna también encontramos valores negativos, probablemente debido a errores humanos o de sistema, que dejamos en positivo. Además encontramos 2174 valores ausentes que fueron reemplazados por la mediana de los valores de 'days_employed'.

4.-'don_years': aquí encontramos 101 clientes con una edad de 0. Debido a que no había valores atípicos importantes en la columna, reemplazamos estos valores extraños por la media de las edades, de modo que no alterase los resultados de nuestra investigación.

5.-'family_status': en esta columna no se encontraron problemas, por lo que no hubo cambios.

6.-'gender': en esta columna solo había 1 género desconocido, al ser una porción minúscula de los datos, eliminamos esta fila, ya que esto no afectará al resultado de nuestra investigación.

7.-'income_type': En esta columna tampoco hemos encontramos valores extraños, más allá de algunos valores poco comunes pero posibles.

8.-'purpose': en esta columna se redujo los atributos para facilitar la lectura de los valores.

9.-'total_income': En esta columna habían 2174 valores ausentes, que fueron reemplazados por la mediana de los datos, debido a que eran valores significativamente distintos.

Para saber si existe una conexión entre el tener hijos, el estado civil, el nivel de ingresos y los propósito de los prestamos,  con el pago a tiempo de las deudas, se determinó lo siguiente.

De acuerdo a los datos que pudimos reunir, la tasa de incumplimiento de las personas que tienen hijos es mayor a la tasa de incumplimiento de quienes no los tienen.

Además, los estados civiles 'civil partnership' y 'unmarried' tienen los porcentajes de imcumplimiento más altos. Luego le siguen 'divorced' y 'married', y por último 'widow / widower' con la tasa de incuplimiento más baja.

Respecto a al nivel de ingresos, se determinó que la tasa de imcumplimiento de las personas con ingresos mayores es menor respecto a la tasa de incumplimiento de personas con ingresos menores.

Finalmente, se determinó que los propósitos 'education' y 'cars' tienen la tasa de incumplimiento más alta, mientras que 'house' tiene la tasa de incumplimiento más baja.

