# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

Este proyecto tiene como propósito poder discernir si existe una relación significativa entre el estado familiar de un cliente y su historial crediticio (lo que permite reducir riesgos y hallar oportunidades de acción para la empresa). Para lo anterior se proponen cuatro hipótesis de trabajo que se evaluaran:
    
1. Un menor número de hijos conlleva a mayor propensión a incumplimiento: menor seriedad de parte del cliente, no es lo mismo tener familia que no tenerla.
2. Las personas casadas tendrán una mejor puntuación: igual, formar vida de pareja implica más seriedad y menos gastos innecesarios (e incosteables).
3. Las personas con mayor ingreso suelen incurrir en menor incumplimiento de pago.
4. El propósito para obtener el préstamo incide en el cumplimiento: un préstamo para comprar una casa o un carro (el cual no implica un ingreso nuevo como lo sería, por ejemplo, un negocio) aumenta la probabilidad de incumplimiento.


## Abre el archivo de datos y mira la información general. 

En esta sección se carga la librería Pandas y se importa el dataset original. También se carga numpy, el cual se usara varios pasos después.

In [313]:
# Cargar todas las librerías
import pandas as pd
import numpy as np


In [314]:
# Carga los datos
df_original = pd.read_csv("/datasets/credit_scoring_eng.csv")
#print(pd.__version__)

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [315]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df_original.shape

(21525, 12)

In [316]:
# vamos a mostrar las primeras diez filas, las últimas diez y un muestreo random para poder tener un vistazo general
# de nuestro dataset. También no usamos decimales pues solo es para un vistazo general.

with pd.option_context("display.precision", 0):
    print("Head")
    display(df_original.head(10))
    print("\nTail")
    display(df_original.tail(10))
    print("\nSample")
    display(df_original.sample(n=10, random_state=1))



Head


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8438,42,bachelor's degree,0,married,0,F,employee,0,40620,purchase of the house
1,1,-4025,36,secondary education,1,married,0,F,employee,0,17933,car purchase
2,0,-5623,33,Secondary Education,1,married,0,M,employee,0,23342,purchase of the house
3,3,-4125,32,secondary education,1,married,0,M,employee,0,42821,supplementary education
4,0,340266,53,secondary education,1,civil partnership,1,F,retiree,0,25379,to have a wedding
5,0,-926,27,bachelor's degree,0,civil partnership,1,M,business,0,40922,purchase of the house
6,0,-2879,43,bachelor's degree,0,married,0,F,business,0,38484,housing transactions
7,0,-153,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21732,education
8,2,-6930,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337,having a wedding
9,0,-2189,41,secondary education,1,married,0,M,employee,0,23108,purchase of the house for my family



Tail


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-468,28,secondary education,1,married,0,F,employee,1,17518,to become educated
21516,0,-914,42,bachelor's degree,0,married,0,F,business,0,51649,purchase of my own house
21517,0,-405,42,bachelor's degree,0,civil partnership,1,F,business,0,28490,buying my own car
21518,0,373996,59,SECONDARY EDUCATION,1,married,0,F,retiree,0,24618,purchase of a car
21519,1,-2351,37,graduate degree,4,divorced,3,M,employee,0,18552,buy commercial real estate
21520,1,-4529,43,secondary education,1,civil partnership,1,F,business,0,35967,housing transactions
21521,0,343937,67,secondary education,1,married,0,F,retiree,0,24960,purchase of a car
21522,1,-2113,38,secondary education,1,civil partnership,1,M,employee,1,14348,property
21523,3,-3112,38,secondary education,1,married,0,M,employee,1,39055,buying my own car
21524,2,-1985,40,secondary education,1,married,0,F,employee,0,13128,to buy a car



Sample


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
1383,0,353803.0,37,secondary education,1,widow / widower,2,F,retiree,0,34632.0,building a property
300,1,-359.0,33,SECONDARY EDUCATION,1,civil partnership,1,M,employee,0,35680.0,having a wedding
6565,2,-1065.0,35,secondary education,1,civil partnership,1,F,business,0,26175.0,wedding ceremony
17027,0,,48,bachelor's degree,0,civil partnership,1,F,employee,0,,housing transactions
4077,0,-7059.0,45,bachelor's degree,0,civil partnership,1,F,business,1,31171.0,to have a wedding
10437,0,-2258.0,50,secondary education,1,married,0,F,employee,0,23483.0,transactions with commercial real estate
9631,1,-1046.0,23,secondary education,1,married,0,M,employee,0,13078.0,transactions with commercial real estate
19867,0,,39,secondary education,1,married,0,M,employee,0,,supplementary education
9124,0,-282.0,48,secondary education,1,divorced,3,F,business,0,45484.0,building a real estate
19634,0,-1320.0,46,secondary education,1,married,0,F,business,0,29531.0,cars


Es obvio que hay que hacer una limpieza de los datos: se aprecia que en la columna _days_employed_ hay valores negativos o NaN, que _education_ tienen diferentes cases para los valores (como si se hubieran escrito manualmente), y que en la columna _total_income_ hay valores NaN.

In [317]:
# Obtener información sobre los datos
# Recordemos que tenemos 21525 rows
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


_days_employed_ y _total_income_ tienen valores ausentes, al menos en el caso de la primera también tiene valores negativos (sin sentido en este caso).

In [318]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
df_original[df_original.days_employed.isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


De la información de celda anterior a esta, podemos notar que las columnas _days_employed_ y _total_income_ tienen el mismo número de records, y que aparentemente según la salida anterior son ambos NaN. Podemos revisar un poco más en la siguiente celda, en especial las intersecciones entre ellas.

In [319]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
print(
    f"Número de celdas NaN en days_employed: {len(df_original.query('days_employed.isna()'))}"
)
print(
    f"Número de celdas NaN en total_income: {len(df_original.query('total_income.isna()'))}"
)

print(
    f"Número de celdas NaN en ambas: {len(df_original.query('days_employed.isna() & total_income.isna()'))}"
)

print(
    f"Número de celdas NaN en days_employed y no NaN en total_income: {len(df_original.query('days_employed.isna() & not total_income.isna()'))}"
)

print(
    f"Número de celdas no NaN en days_employed y NaN en total_income: {len(df_original.query('not days_employed.isna() & total_income.isna()'))}"
)


Número de celdas NaN en days_employed: 2174
Número de celdas NaN en total_income: 2174
Número de celdas NaN en ambas: 2174
Número de celdas NaN en days_employed y no NaN en total_income: 0
Número de celdas no NaN en days_employed y NaN en total_income: 0


**Conclusión intermedia**

De los cuatro resultados que se calcularon anteriormente es posible asegurar a cabalidad que sí existe un valor NaN en _days_employed_, también es NaN en _total_income_ (podría ser el caso que fuera NaN en uno, pero no en otro, pero los dos resultados finales marcan lo contrario): los valores faltan al mismo nivel. En otras palabras, un NaN en una columna indica un NaN **obligatoriamente** en la otra.

Los valores NaN son 2174 de un total de 21524, o sea apróximadamente 10% de todos los datos; no son pocos datos, por lo que será necesario buscar una manera de reemplazarlos. A primer vistazo no se observa una relación de porque sucede esto con los valores, uno podría pensar que algo tiene que ver el `income_type` o `family_status`(tal vez alguien que este en paternidad no se contabilizó o si esta retirado); para poder tomar una decisión de como proceder con la limpieza de datos, estudiaremos las distribuciones de datos enfocandónos en esa columnas. Para esto crearemos un dataframe solo con los datos nulos y uno sin ellos, y compararemos.

In [320]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

# definimos aquí los df que usaremos, sin na y solo na
df_na_removed = df_original.dropna()
df_na_only = df_original.query('days_employed.isna()')                       

# mostremos un poco de info para poder verificar que todo se ve bien en ambos df's
df_na_removed.info()
print()
df_na_only.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------   

In [321]:
# Comprobación de la distribución
# Hagamos la prueba, pero con los porcentajes para ver como se distribuyen los valores: no podemos comparar solo por el conteo
# ya que van a tener diferentes órdenes de magnitud.

print("DF NA only")
display(
    df_na_only.income_type.value_counts()/len(df_na_only)
)

print("DF sin NA")
display(
    df_na_removed.income_type.value_counts()/len(df_na_removed)
)


DF NA only


employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64

DF sin NA


employee                       0.517493
business                       0.236525
retiree                        0.177924
civil servant                  0.067800
unemployed                     0.000103
paternity / maternity leave    0.000052
entrepreneur                   0.000052
student                        0.000052
Name: income_type, dtype: float64

Es obvio que la mayoría de los elementos que tienen NaN son empleados, lo que es contraintuitivo ya que deberían de tener un income distinto de cero; lo más extraño es que el dataframe que solo tiene valores no nulos tiene una distribución muy similar por lo que da pie a pensar que no hay relación con el income_type.

**Posibles razones por las que hay valores ausentes en los datos**

No parece que haya un patrón al menos con este variable, puede ser un error en los datos, o tal vez los clientes no quisieron contestar. Necesitamos probar que sucede con los valores originales completos para poder dar una respuesta más educada.


In [322]:
# Comprobando la distribución en el conjunto de datos entero
print("DF completo")
display(
    df_original.income_type.value_counts()/len(df_original)
)


DF completo


employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unemployed                     0.000093
entrepreneur                   0.000093
paternity / maternity leave    0.000046
student                        0.000046
Name: income_type, dtype: float64

**Conclusión intermedia**
Pues igual que con la tabla que solo tiene valores no NaN, no se aprecia una diferencia entre la distribución de los datos. Probablemente la variable importante a estudiar no es el _income_type_, intentaremos con _family_status_ haciendo los mismos procedimientos.

In [323]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
print("DF NA only")
display(
    df_na_only.family_status.value_counts()/len(df_na_only)
)

print("DF sin NA")
display(
    df_na_removed.family_status.value_counts()/len(df_na_removed)
)

print("DF completo")
display(
    df_original.family_status.value_counts()/len(df_original)
)


DF NA only


married              0.568997
civil partnership    0.203312
unmarried            0.132475
divorced             0.051518
widow / widower      0.043698
Name: family_status, dtype: float64

DF sin NA


married              0.575836
civil partnership    0.193013
unmarried            0.130484
divorced             0.055966
widow / widower      0.044701
Name: family_status, dtype: float64

DF completo


married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

**Conclusión intermedia**

Es la misma historia, no parece que haya un patrón o relación entre los valores NaN y estas dos columnas. Por otro lado, si uno observa los tipos de valores únicos para _income_type_ en las tablas originales y en la que solo tiene NaN, uno observa algo curioso:

In [324]:
# Comprobación de otros patrones: explica cuáles

print("Valores únicos para solo NaN")
print(df_na_only.income_type.unique())
print()
print("Valores únicos para la tabla completa")
print(df_original.income_type.unique())


Valores únicos para solo NaN
['retiree' 'civil servant' 'business' 'employee' 'entrepreneur']

Valores únicos para la tabla completa
['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']


Note algo muy interesante, unemployed no se encuentra en los valores con NaN (uno esperaría que este row no tuviera un valor al ser desempleado pero no es el caso), por lo que con esto y lo anterior podemos decir con bastante confianza que estos valores NaN deben ser errores de ingreso o que son así desde la fuente (tal vez no quisieron responder).

**Conclusiones**

Para recapitular, tenemos ~10% de valores con nulos, los cuales no podemos encontrar un patrón de porque faltan ya que no existe una correlación clara con otras variables. No podemos removerlos debido a que son bastantes, pero podemos hacer imputación de los datos: para hacer esto tendríamos que reemplazar los valores faltantes dependiendo del resto de variables, por ejemplo, para el siguiente registro:

In [325]:
display(df_na_only.iloc[[1]])

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education


Tendríamos que reemplazarlo con otros registros similares, que tenga el mismo _family_status_, _income_type_, étc. Pero antes de esto, sería mejor trabajar con los datos duplicados, limpiar valores mal escritos, étc y poder concentrarnos en esto.

## Transformación de datos

Empecemos a transformar los datos que hemos explorado previamente. Empezaremos con la columna `education` la cual al ser de tipo texto parece tener problemas en la escritura, posteriormente revisaremos si los valores de `children` hacen sentido, volveremos a `days_employed` para imputar como habíamos mencionado, veremos si `dob_years` son edades válidas, `gender` esta bien clasificado y finalmente `income_type` tiene los valores correctos.

Empecemos con una inspección de `education`.

### Columna `education`

In [326]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df_original.education.unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [327]:
# Arregla los registros si es necesario
# Como empezaremos a limpiar nuestro dataframe, declararemos uno nuevo llamado df_cleaned en donde iremos haciendo los
# cambios pertinentes.

df_cleaned = df_original.copy()
df_cleaned.education = df_cleaned.education.str.lower()


In [328]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido

df_cleaned.education.unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Hagamos un value_counts sobre la serie de children para poder ver que valores existen.

### Columna `children`

In [329]:
# Veamos la distribución de los valores en la columna `children`
df_cleaned.children.value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Cosa curiosa, tenemos algunos valores de _children_ -1 (niños cuánticos), lo que debemos de limpiar de alguna manera. Echemos un vistazo a esas filas problemáticas.

In [330]:
# Mostremos los valores problemáticos con children == -1
df_cleaned_negative_children = df_cleaned.query("children==-1")

print("Mostremos un vistazo de los valores que dan lata")

with pd.option_context("display.precision", 0):
    display(df_cleaned_negative_children.sample(n=10, random_state=1))

print()
print(f"La proporción de valores problemáticos es {len(df_cleaned_negative_children)/len(df_original)}")

#df_cleaned.query("children==-1")[["education", "family_status", "dob_years", "gender", "income_type"]].value_counts()

Mostremos un vistazo de los valores que dan lata


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10177,-1,-1744,37,secondary education,1,married,0,M,employee,0,49659,getting an education
9565,-1,-2897,34,bachelor's degree,0,married,0,M,employee,0,20281,real estate transactions
17657,-1,-4572,41,secondary education,1,married,0,F,employee,0,19537,transactions with my real estate
16129,-1,-458,33,secondary education,1,married,0,F,employee,1,23943,car
742,-1,-3174,57,secondary education,1,married,0,F,employee,0,10283,supplementary education
800,-1,349988,54,secondary education,1,unmarried,4,F,retiree,0,13807,supplementary education
11617,-1,-371,27,secondary education,1,married,0,F,business,0,26335,buying property for renting out
14357,-1,-268,23,secondary education,1,divorced,3,F,business,0,14761,buy residential real estate
20717,-1,-662,32,bachelor's degree,0,married,0,F,employee,0,21985,buy residential real estate
10918,-1,340499,50,secondary education,1,married,0,M,retiree,0,27322,purchase of my own house



La proporción de valores problemáticos es 0.002183507549361208


Aquí es hora de tomar una decisión, ya que la proporción de valores es muy pequeña (menos del 1%) podríamos simplemente quitarlos, pero para no perder estos registros podemos reemplazarlos por la mediana de todos los elementos sin problemas (o sea que _children_ no es -1): usamos la mediana porque hay unos outliers muy curiosos que tienen hasta 20 hijos.

In [331]:
# Calculemos la mediana y reemplacemos los valores en df_cleaned

parents_children_median = df_cleaned.query("children!=-1").children.median()

df_cleaned.loc[df_cleaned.children==-1, "children"] = parents_children_median

In [332]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

df_cleaned.children.value_counts()

0.0     14196
1.0      4818
2.0      2055
3.0       330
20.0       76
4.0        41
5.0         9
Name: children, dtype: int64

Ya no tenemos problemas en la columna children. Ahora vayamos con `days_employed`, la cual parece tener valores negativos. Echemos un vistazo y filtremos según el signo. Solo checaremos aquellos que no son NaN.

### Columna `days_employed`

In [333]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje

df_days_ge_zero = df_cleaned.query("not days_employed.isna() and days_employed >= 0")
df_days_lt_zero = df_cleaned.query("not days_employed.isna() and days_employed < 0")

print(f"Greater equal than zero | Proporción {len(df_days_ge_zero)/len(df_original)}")
display(df_days_ge_zero.sample(n=5, random_state=1))


print(f"Lower than zero | Proporción {len(df_days_lt_zero)/len(df_original)}")
display(df_days_lt_zero.sample(n=5, random_state=1))

Greater equal than zero | Proporción 0.16004645760743322


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
7661,0.0,341279.567523,65,secondary education,1,civil partnership,1,F,retiree,0,8064.835,buying my own car
2497,0.0,375752.826034,60,secondary education,1,civil partnership,1,F,retiree,0,23296.556,purchase of the house
14783,0.0,328795.726728,62,bachelor's degree,0,married,0,F,retiree,0,12790.431,buying my own car
3555,0.0,395662.090486,52,some college,2,widow / widower,2,F,retiree,0,11651.993,housing renovation
1087,0.0,374879.39709,56,bachelor's degree,0,married,0,M,retiree,0,22465.195,to become educated


Lower than zero | Proporción 0.7389547038327526


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21366,0.0,-830.805472,34,secondary education,1,civil partnership,1,F,employee,0,10755.57,to have a wedding
17573,2.0,-994.122781,36,secondary education,1,married,0,M,employee,0,28868.149,buy real estate
802,0.0,-1099.736344,35,bachelor's degree,0,married,0,F,civil servant,0,21087.446,getting an education
19066,0.0,-4421.729375,50,bachelor's degree,0,married,0,F,business,0,25960.932,going to university
15923,1.0,-406.427479,42,secondary education,1,divorced,3,F,employee,0,28348.107,real estate transactions


Podemos mencionar algunas cosas: los datos con NaN son ligeramente más del 10% (como se mostró hace algunas secciones), del restante, los campos positivos son 16% del total y los negativos 74% del total; también, la muestra aleatoria del primer dataframe muestra solo _retirees_, algo curioso. Estamos en un caso complicado porque son demasiados valores conflictivos, por lo que podemos aventurarnos a decir que hay algo problemático en la manera en la que se capturan los datos. Para continuar, tomemos un describe de los dos dataframes previos para ver una imágen general de los datos.


In [334]:
# Aborda los valores problemáticos, si existen.
print("Greater equal than zero")
print(
    df_days_ge_zero.days_employed.describe()
)

print()

print("Lower than zero")
print(
    df_days_lt_zero.days_employed.describe()
)

Greater equal than zero
count      3445.000000
mean     365004.309916
std       21075.016396
min      328728.720605
25%      346639.413916
50%      365213.306266
75%      383246.444219
max      401755.400475
Name: days_employed, dtype: float64

Lower than zero
count    15906.000000
mean     -2353.015932
std       2304.243851
min     -18388.949901
25%      -3157.480084
50%      -1630.019381
75%       -756.371964
max        -24.141633
Name: days_employed, dtype: float64


Note algo bien curioso: los valores mayores a cero que uno esperaría que fueran más realistas, tienen valores increíblemente grandes: para muestra el valor mínimo es 328728, ¡que corresponde a más de 900 años! No podemos usar estos valores, tenemos que reemplazarlos por el promedio o la media.

Por otro lado, el caso de los menores a cero son un poco más realistas, pero pareciera que tienen el signo mal. El valor de 18388 se corresponde a cincuenta años, entonces habría que esperar alguien que fuera cercano a los 65 años.

Primero corregiremos los valores menores a ceros para poder calcular su mediana e imputarla dentro de los valores negativos; echemos otro vistazo en ellos enfocándonos en edad y los días empleados: 

In [335]:
df_days_lt_zero[["dob_years", "days_employed"]].sort_values("days_employed")

Unnamed: 0,dob_years,days_employed
16335,61,-18388.949901
4299,61,-17615.563266
7329,60,-16593.472817
17838,59,-16264.699501
16825,64,-16119.687737
...,...,...
2127,31,-34.701045
9683,43,-33.520665
6157,47,-30.195337
8336,32,-24.240695


Es un resultado bien interesante, alguien que tiene ~50 años trabajando (empezando desde los 11 años). No es imposible (las legislaciones de trabajo infantil han evolucionado **mucho**), solo lo erróneo es el signo de `days_employed`. No sabemos como se calculó `days_employed`, pero podemos aventurarnos a decir que es la resta de dos fechas (por ejemplo, hoy menos la del inicio de labores), si las fechas se invierten, el resultado es negativo y tenemos algo similar a los de la columna. Para poder corregir esto, basta con una llamada a _abs()_ en la tabla limpiada e invertir el signo.

In [336]:
# Pasemos abs() reemplazando la columna
df_cleaned.days_employed = df_cleaned.days_employed.abs()

In [337]:
# Echemos un vistazo a los datos limpios con un describe
df_cleaned.days_employed.describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

Ahora, hemos reemplazado los valores negativos, pero los positivos muy grandes todavía siguen, echemos un vistazo a ellos:

In [338]:
# Mostremos el value_counts de aquellos mucho más grandes que cero
df_days_ge_zero.income_type.value_counts()

retiree       3443
unemployed       2
Name: income_type, dtype: int64

Cosa interesante, estos valores problemáticos solo son de _retirees_ y de _unemployed_, lo que podría indicar que hubo un error en el input de datos considerando que ambos no trabajan. Viendo esto, podemos plantearnos una pregunta: si alguien esta desempleado o retirado, ¿por qué habría de considerarse su tiempo empleado? No hace sentido. Probablemente hay un error asociado a estos datos que no tienen un empleo fijo, tenemos que reemplazarlos pero tenemos que decidir **con qué**. Podríamos reemplazarlo por NaN, pero para poder trabajar con ellos lo que haremos será reemplazarlos con la mediana de los valores que si tenían sentido.

Calculemos la media y la mediana de los valores que no eran mayores a cero (o sea que no son tan grandes y recién corregimos con abs()).

In [339]:
median_days_employed_imputation = df_cleaned[~df_cleaned.index.isin(df_days_ge_zero.index)].days_employed.median()
mean_days_employed_imputation = df_cleaned[~df_cleaned.index.isin(df_days_ge_zero.index)].days_employed.mean()

print(
    f"La mediana: {median_days_employed_imputation}, la media: {mean_days_employed_imputation}"
)

La mediana: 1630.0193809778218, la media: 2353.0159319988766


Usemos la mediana porque la dispersión de valores es grande:

In [340]:
# Reemplacemos los valores demasiado grandes que no tienen sentido

df_cleaned.loc[df_cleaned.index.isin(df_days_ge_zero.index), "days_employed"] = median_days_employed_imputation

Echemos un ojo a los datos limpios para ver si se reemplazaron correctamente.

In [341]:
# Mostremos un sample de los datos y también un describe de days_employed para verificar que no hay valores positivos
# gigantescos como antes
display(
    df_cleaned.query("income_type == 'retiree' or income_type == 'unemployed'").sample(n=10, random_state=1)
)

df_cleaned.days_employed.describe()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6245,0.0,1630.019381,58,secondary education,1,married,0,M,retiree,0,6528.385,building a real estate
10293,0.0,1630.019381,62,bachelor's degree,0,widow / widower,2,F,retiree,0,39901.187,real estate transactions
13820,0.0,1630.019381,57,bachelor's degree,0,married,0,F,retiree,0,38679.588,to own a car
5362,20.0,1630.019381,69,secondary education,1,married,0,M,retiree,0,22172.653,cars
578,0.0,1630.019381,0,secondary education,1,married,0,F,retiree,0,15619.31,construction of own property
7544,0.0,,61,bachelor's degree,0,civil partnership,1,F,retiree,0,,wedding ceremony
21415,0.0,,54,secondary education,1,married,0,F,retiree,0,,housing transactions
19439,0.0,1630.019381,26,bachelor's degree,0,married,0,F,retiree,0,34394.128,buy real estate
10518,0.0,1630.019381,54,secondary education,1,married,0,F,retiree,0,8810.593,cars
6454,0.0,1630.019381,62,bachelor's degree,0,married,0,F,retiree,0,30056.248,building a real estate


count    19351.000000
mean      2224.303043
std       2107.307642
min         24.141633
25%        927.009265
50%       1630.019381
75%       2747.423625
max      18388.949901
Name: days_employed, dtype: float64

Parece que todo esta en órden por aquí, solo nos quedan los NaNs por imputar posteriormente.

Echemos un vistazo a la edad de los clientes, buscando valores negativos.

### Columna `dob_years`

In [342]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje

print(
    df_cleaned.dob_years.describe()
)

df_cleaned.dob_years.value_counts().sort_index()

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64


0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Viendo todo el rango de valores, se nota que el único problema parece ser que hay valores de edad cero (no parece ser una porción muy grande). Tenemos que reemplazarlos. Para poder imputarlos correctamente, chequemos la media y la mediana:

In [343]:
print(
    f"La media es {df_cleaned.dob_years.mean()} y la mediana es {df_cleaned.dob_years.median()}"
)
print(
    f"Los valores que son cero representan {len(df_cleaned.query('dob_years==0'))/len(df_cleaned) * 100:.2f}% del total"
)


La media es 43.29337979094077 y la mediana es 42.0
Los valores que son cero representan 0.47% del total


Tenemos muy pocos valores problemáticos, podríamos quitarlos, pero mejor los imputamos con la mediana. 

In [344]:
# Resuelve los problemas en la columna `dob_years`, si existen
dob_years_median = df_cleaned.dob_years.median()

df_cleaned.dob_years = df_cleaned.dob_years.replace(0, dob_years_median)

In [345]:
# Comprueba el resultado - asegúrate de que esté arreglado

df_cleaned.dob_years.describe()

count    21525.000000
mean        43.490453
std         12.218595
min         19.000000
25%         34.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

### Columna `family_status`

Ahora revisemos la columna `family_status`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar.

In [346]:
# Veamos los valores de la columna

df_cleaned.family_status.unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

No se ve ningún problema por aquí, pero podemos revisar rápidamente que los pares _family_status_ y _family_status_id_ esten bien relacionados. Usemos group by para eso.

In [347]:
# Hagamos un groupby y size para ver los pares de las dos columnas.
df_cleaned.groupby(["family_status_id", "family_status"]).size()

family_status_id  family_status    
0                 married              12380
1                 civil partnership     4177
2                 widow / widower        960
3                 divorced              1195
4                 unmarried             2813
dtype: int64

No parece haber problemas que tratar por acá: los pares estan bien asignados y los nombres no tiene errores: vayamos a la tabla gender, primero echemos un ojo general.

### Columna `gender`

In [348]:
# Veamos los valores en la columna

df_cleaned.gender.unique()

array(['F', 'M', 'XNA'], dtype=object)

Nótese que tenemos tres valores, F (para Female), M (para Male) y XNA, el cual podría estar asociado con no querer decir o un tercer valor no determinado (e.g no binario, trasgénero, étc), echemos un ojo a estas entradas y cuántas son.

In [349]:
df_cleaned.query("gender == 'XNA'")

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0.0,2358.600502,24.0,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


Nada más tenemos una sola entrada, no es grave y no tenemos que hacer nada más al respecto.

Ahora revisemos la columna `income_type` y veamos que sucede. Empecemos con un _value_counts_ para ver que valores únicos hay y como se distribuyen.
[Ahora vamos a revisar la columna `income_type`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

### Columna `income_type`

In [350]:
# Veamos los valores en la columna

df_cleaned.income_type.value_counts()


employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

No parecen haber muchos problemas, los valores no estan mal escritos y parece que estan correctos.

Para continuar tenemos que empezar a buscar duplicados entre nuestros datos. 

In [351]:
df_cleaned[df_cleaned.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0.0,,41.0,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0.0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1.0,,34.0,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0.0,,60.0,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0.0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0.0,,64.0,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0.0,,60.0,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0.0,,47.0,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1.0,,30.0,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


Considerando brevemente la tabla de arriba, nos surge una duda: ¿es posible hablar de duplicados con la poca información que tenemos? ¿Podemos estar seguro de tener **realmente** un duplicado si vemos dos entradas con valores idénticos? Como no tenemos nombres, ni direcciones, o algo que nos pueda establecer claramente y sin lugar a dudas que tenemos duplicados (y que no es simplemente que hay dos personas con la misma edad, estado civil y demás que requieren un préstamo) optamos por no removerlos. Afortunadamente, 72 filas de 21525 son mucho menos del 1% del total y no tendría un impacto significativo. Mostremos de nuevo información del _dataframe_ actual.

In [352]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(4), int64(3), object(5)
memory usage: 2.0+ MB


No hemos eliminado ningún record, no ha habido necesidad, hemos limpiado los datos pero todavía tenemos que ir corrigiendo las cosas para los valores ausentes, de los cuales tenemos más que al principio: no hay que alarmarse, esto se debe a que los valores de retirees y de unemployed para `days_employed` los imputamos como NaN ya que no hace sentido que tengan un valor al no tener un trabajo activo.

# Trabajar con valores ausentes

### Restaurar valores ausentes en `total_income`

Actualmente tenemos valores ausentes en las columnas `total_income` y `days_employed`. Tenemos que echar un ojo a los valores de ambas: para la primera, podríamos hacer imputación según el rango de edad y algun otra columna (como el `income_type`); por el caso de `days_employed` hay que recordar que tenemos ausentes que debemos imputar por valores influenciados con la edad.

Primero, crearemos una función que reagrupara las edades por grupos de diez años desde los 25 hasta los 65+.

In [354]:
# Vamos a escribir una función que calcule la categoría de edad

def recategorize_age(var_dob):
    if var_dob < 25:
        return "-25"
    elif var_dob < 35:
        return "25-34"
    elif var_dob < 45:
        return "35-44"
    elif var_dob < 55:
        return "45-54"
    elif var_dob < 65:
        return "55-64"
    elif var_dob < 120:
        return "65+"
    else:
        return "Error"

In [355]:
# Prueba si la función funciona bien

for item in [19, 24, 34, 67, 58, 0, float("nan"), 90]:
    print(recategorize_age(item))


-25
-25
25-34
65+
55-64
-25
Error
65+


In [356]:
# Crear una nueva columna basada en la función

df_cleaned["dob_category"] = df_cleaned.dob_years.apply(recategorize_age)

In [357]:
# Comprobar cómo se encuentran los valores en la nueva columna

display(
    df_cleaned[["dob_years", "dob_category"]].sample(n=10, random_state = 5)
)

df_cleaned.dob_category.value_counts()


Unnamed: 0,dob_years,dob_category
18850,36.0,35-44
1000,35.0,35-44
13840,28.0,25-34
16470,35.0,35-44
16111,41.0,35-44
3546,45.0,45-54
5061,47.0,45-54
9977,46.0,45-54
9578,61.0,55-64
18381,65.0,65+


35-44    5854
25-34    5100
45-54    4882
55-64    3913
65+       899
-25       877
Name: dob_category, dtype: int64

Los ingresos deben depender de la edad (una persona con mayor edad y con más experiencia debe tener -esperamos- un mejor salario), y del tipo de trabajo (es bastante obvio que cada rubro tiene su propio salario). Haremos una tabla pivote para mostrar estos datos, considerando solo los valores no nulos.

Creemos primero la tabla sin valores ausentes, ya que la usaremos varias veces.

In [358]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien

df_cleaned_total_income_not_na = df_cleaned.query("not total_income.isna()")

display(
    df_cleaned_total_income_not_na[["income_type", "dob_years", "dob_category", "total_income"]].sample(n=10, random_state=1)
)

print()

df_cleaned_total_income_not_na.info()


Unnamed: 0,income_type,dob_years,dob_category,total_income
4526,employee,33.0,25-34,58621.129
8706,employee,28.0,25-34,39381.295
8862,retiree,58.0,55-64,24682.074
9200,employee,34.0,25-34,23034.289
5584,employee,42.0,35-44,20898.498
717,retiree,51.0,45-54,17233.022
17929,business,50.0,45-54,32827.75
3113,employee,48.0,45-54,36503.76
16247,retiree,62.0,55-64,46718.789
1951,employee,61.0,55-64,18499.024



<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  float64
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  float64
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
 12  dob_category      19351 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


Ahora veamos nuestros datos en una tabla pivote para revisar la mediana en términos de los dos párametros, y hagamos un describe para ver como se comportan los mínimos y máximos.

In [359]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
print("Tabla pivote")
display(
    df_cleaned_total_income_not_na.pivot_table(
        index="dob_category", columns="income_type", aggfunc="mean",
    ).total_income.round(2)
)

print("Describe")
df_cleaned_total_income_not_na.groupby(["dob_category", "income_type"]).describe().loc[:, ("total_income", ["count","mean","min","max"])]

Tabla pivote


income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
-25,25475.6,23548.82,21288.65,,,14298.98,15712.26,
25-34,31233.95,27026.16,25621.58,79866.1,,19271.65,,9593.12
35-44,33941.96,27775.14,26475.96,,8612.66,23089.13,,
45-54,33433.37,27896.87,25610.93,,,23115.77,,32435.6
55-64,31748.81,26707.73,27104.67,,,22101.57,,
65+,31668.01,26921.81,26139.5,,,20448.87,,


Describe


Unnamed: 0_level_0,Unnamed: 1_level_0,total_income,total_income,total_income,total_income
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,min,max
dob_category,income_type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
-25,business,243.0,25475.599868,8453.127,105400.683
-25,civil servant,43.0,23548.82293,8154.029,65449.92
-25,employee,491.0,21288.65401,5220.544,63547.011
-25,retiree,1.0,14298.976,14298.976,14298.976
-25,student,1.0,15712.26,15712.26,15712.26
25-34,business,1329.0,31233.954871,6242.321,159522.288
25-34,civil servant,370.0,27026.159686,6264.665,109855.748
25-34,employee,2904.0,25621.575071,4494.861,187593.573
25-34,entrepreneur,1.0,79866.103,79866.103,79866.103
25-34,retiree,14.0,19271.650143,8155.094,47686.626


Aquí podemos apreciar la relación que hay entre el `total_income`, `income_type` y `dob_category`. Si vemos las columnas de manera general, en la mayoría de los `income_types` los salarios son bastante similares en todos los grupos de edad (no pareciera que aumentara mucho por la edad, incluso parece que tiene un pico entre 35-64). En los `incomes_types` donde no se aprecia esto parece ser más por el hecho de que no hay personas para ese tipo de ingreso en todos los rangos de edad.

Ahora, revisando la tabla obtenida con describe, nos damos cuenta que el _min_ y el _max_ pueden variar muchísimo de la media, lo que indica que hay una dispersión considerable de los datos presentes y tal vez la media no sea la mejor métrica para hacer imputación de los datos.

Hagamos lo anterior, pero para la mediana.

In [360]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste

print("Tabla pivote")
display(
    df_cleaned_total_income_not_na.pivot_table(
        index="dob_category", columns="income_type", aggfunc="median"
    ).total_income.round(2)

)

print("Describe")
df_cleaned_total_income_not_na.groupby(["dob_category", "income_type"]).describe().loc[:, ("total_income", ["count","50%","min","max"])]

Tabla pivote


income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,retiree,student,unemployed
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
-25,22289.68,21361.73,19670.1,,,14298.98,15712.26,
25-34,27219.73,24436.24,22722.27,79866.1,,15378.56,,9593.12
35-44,28500.68,23683.46,23231.34,,8612.66,19831.63,,
45-54,28648.36,23857.96,22573.35,,,19904.21,,32435.6
55-64,27706.77,23333.3,23361.51,,,19411.7,,
65+,26948.74,26089.69,24660.9,,,17645.51,,


Describe


Unnamed: 0_level_0,Unnamed: 1_level_0,total_income,total_income,total_income,total_income
Unnamed: 0_level_1,Unnamed: 1_level_1,count,50%,min,max
dob_category,income_type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
-25,business,243.0,22289.676,8453.127,105400.683
-25,civil servant,43.0,21361.73,8154.029,65449.92
-25,employee,491.0,19670.104,5220.544,63547.011
-25,retiree,1.0,14298.976,14298.976,14298.976
-25,student,1.0,15712.26,15712.26,15712.26
25-34,business,1329.0,27219.732,6242.321,159522.288
25-34,civil servant,370.0,24436.24,6264.665,109855.748
25-34,employee,2904.0,22722.2705,4494.861,187593.573
25-34,entrepreneur,1.0,79866.103,79866.103,79866.103
25-34,retiree,14.0,15378.5635,8155.094,47686.626


Podemos mencionar algo muy similar a lo que pasaba anteriormente en la media, pero nótese que el describe nos permite ver que como los mínimos y máximos son muy dispersos, la mediana parece ser mejor indicar para utilizar como valor de imputación. Tendremos que reemplazar los valores según el rango de edad y el tipo de ingreso (esto es, reemplazar un valor ausente con la mediana de otros que tengan estos dos en la misma categoría).

Para continuar, crearemos una función que tomara estos dos párametros y reemplazara con el correspondiente.

In [361]:
# Primero definamos una tabla pivot que usaremos para no tener que estar calculando los valores cada vez que se necesite
total_income_median_pivot = df_cleaned_total_income_not_na.pivot_table(
        index="dob_category", columns="income_type", aggfunc="median"
    ).total_income

# Escribe una función que usaremos para completar los valores ausentes
def total_income_imputator(row):
    '''
    NOTA: no pude encontrar una manera fácil de *solo* modificar los records que quiero en la función usando el apply,
    por lo que la función se aplica sobre todos los valores (no solo los que tienen NaN), eso obliga a que en el caso default
    regrese el valor original row["total_income"]
    '''
    if np.isnan(row["total_income"]):
        return total_income_median_pivot[row['income_type']][row["dob_category"]]
    
    return row["total_income"]

In [362]:
# Comprobemos si funciona en un pequeño sample de df_cleaned
display(df_cleaned.sample(n=5, random_state=1))

df_cleaned.sample(n=5, random_state=1).apply(total_income_imputator, axis=1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
1383,0.0,1630.019381,37.0,secondary education,1,widow / widower,2,F,retiree,0,34632.356,building a property,35-44
300,1.0,359.193975,33.0,secondary education,1,civil partnership,1,M,employee,0,35680.26,having a wedding,25-34
6565,2.0,1064.854333,35.0,secondary education,1,civil partnership,1,F,business,0,26174.593,wedding ceremony,35-44
17027,0.0,,48.0,bachelor's degree,0,civil partnership,1,F,employee,0,,housing transactions,45-54
4077,0.0,7059.10022,45.0,bachelor's degree,0,civil partnership,1,F,business,1,31171.23,to have a wedding,45-54


1383     34632.356
300      35680.260
6565     26174.593
17027    22573.353
4077     31171.230
dtype: float64

In [363]:
# Aplícalo a cada fila
df_cleaned.total_income = df_cleaned.apply(total_income_imputator, axis=1)

In [364]:
# Comprueba si tenemos algún error
display(
    df_cleaned.loc[25:30]
)

display(
    df_cleaned.info()
)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
25,0.0,1630.019381,67.0,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate,65+
26,0.0,,41.0,secondary education,1,married,0,M,civil servant,0,23683.462,education,35-44
27,0.0,529.191635,28.0,bachelor's degree,0,married,0,M,employee,0,49415.837,construction of own property,25-34
28,1.0,717.274324,26.0,bachelor's degree,0,married,0,F,employee,0,30058.118,construction of own property,25-34
29,0.0,,63.0,secondary education,1,unmarried,4,F,retiree,0,19411.701,building a real estate,55-64
30,1.0,1630.019381,62.0,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate,55-64


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21525 non-null  object 
 12  dob_category      21525 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


None

Parece que casi todo está en orden en `total_income`, a excepción de un valor (tenemos 21524 no nulos de 21525). Debe haber alguna razón especial para esto, echémosle un ojo.


In [365]:
# Mostremos el valor ausente
display(
    df_cleaned.loc[df_cleaned.total_income.isna()]
)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
5936,0.0,,58.0,bachelor's degree,0,married,0,M,entrepreneur,0,,buy residential real estate,55-64


Tal vez el problema este relacionado con _entrepreneur_, no habían muchos datos de estos para empezar; veamos cuales tenemos en la tabla:

In [366]:
display(
    df_cleaned.query("income_type == 'entrepreneur'")
)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
5936,0.0,,58.0,bachelor's degree,0,married,0,M,entrepreneur,0,,buy residential real estate,55-64
18697,0.0,520.848083,27.0,bachelor's degree,0,civil partnership,1,F,entrepreneur,0,79866.103,having a wedding,25-34


Esto explica, como solo tenemos un valor para _entrepreneur_ la fórmula no pudo imputar el valor. Podríamos intentar imputar este valor, pero como solo tenemos dos valores para este `income_type` esto alteraría de manera sensible cualquier cálculo que hagamos solo para _entrepeneur_. Imputaremos usando la mediana de todos los valores para ese rango de edad, pero debemos tener presente que si quisieramos obtener _insights_ de como afecta ser _entrepeneur_  al crédito, no sería muy útil (afortunadamente no es el caso, y con solo dos entradas tampoco deberíamos intentarlo en un principio).

In [367]:
# Reemplazar los valores ausentes si hay algún error

df_cleaned.loc[5936, "total_income"] = total_income_median_pivot.loc["55-64"].median()


Veamos de nuevo la info de nuestro dataframe.

In [368]:
# Comprobar el número de entradas en las columnas
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  dob_category      21525 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


Excelente, parece que hemos limpiado estas entradas.

###  Restaurar valores en `days_employed`

Los dos parámetros que podrían ser útiles para esta labor son la edad (la gente más grande obviamente puede haber trabajado más tiempo) y la escolaridad (si uno tiene mayor grado de estudios, probablemente no haya trabajado tanto tiempo al estar en la escuela). Necesitamos echar un vistazo a esta información y usaremos una tabla pivote para esto. Empecemos con las medianas.

In [369]:
# Crearemos una tabla sin valores ausentes y mostraremos algunas de las filas

df_cleaned_days_employed_not_na = df_cleaned.query("not days_employed.isna()")

display(
    df_cleaned_days_employed_not_na[["days_employed", "dob_years", "dob_category", "education"]].sample(n=10, random_state=1)
)

print()

df_cleaned_days_employed_not_na.info()


Unnamed: 0,days_employed,dob_years,dob_category,education
4526,351.992921,33.0,25-34,secondary education
8706,1591.68839,28.0,25-34,secondary education
8862,1630.019381,58.0,55-64,secondary education
9200,1961.350469,34.0,25-34,secondary education
5584,4882.686633,42.0,35-44,secondary education
717,1630.019381,51.0,45-54,secondary education
17929,578.823578,50.0,45-54,bachelor's degree
3113,2673.642235,48.0,45-54,secondary education
16247,1630.019381,62.0,55-64,secondary education
1951,6094.471895,61.0,55-64,bachelor's degree



<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  float64
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  float64
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
 12  dob_category      19351 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


In [370]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados

display(
    df_cleaned_days_employed_not_na.pivot_table(
        index="dob_category", columns="education", aggfunc="median", margins=True
    ).days_employed.round(2)
)

education,bachelor's degree,graduate degree,primary education,secondary education,some college,All
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-25,664.35,,949.71,769.76,728.39,744.54
25-34,1284.12,,1181.99,1317.34,1046.44,1292.22
35-44,1900.27,4159.75,1081.67,1775.67,1478.63,1777.81
45-54,1786.85,409.2,1630.02,1770.97,1808.09,1768.89
55-64,1630.02,3491.03,1630.02,1630.02,1630.02,1630.02
65+,1630.02,1630.02,1630.02,1630.02,1630.02,1630.02
All,1630.02,1990.73,1630.02,1630.02,1209.13,1630.02


In [371]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados

display(
    df_cleaned_days_employed_not_na.pivot_table(
        index="dob_category", columns="education", aggfunc="mean", margins=True
    ).days_employed.round(2)
)

education,bachelor's degree,graduate degree,primary education,secondary education,some college,All
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-25,812.21,,819.14,881.56,816.08,855.01
25-34,1559.81,,1519.65,1624.35,1375.37,1587.09
35-44,2485.73,4159.75,1854.45,2392.4,2002.64,2398.11
45-54,2767.95,409.2,2146.42,2873.83,2321.91,2835.91
55-64,2703.7,3491.03,1953.07,2350.19,2163.13,2403.51
65+,2429.72,1630.02,1740.3,1879.01,2320.09,1970.5
All,2206.25,2890.13,1829.98,2270.17,1566.58,2224.3


Note que como se esperaba, la tendencia es que a mayor la categoría de edad, mayor es el número de días empleados (solo parece haber una excepción bien clara cuando se esta entre _45-54_ con _graduate_degree_). Por otro lado, nuestra idea de que a mayor grado educativo menor es el número de días empleado no parece corresponderse con los datos. Para poder decidir si usaremos medias o medianas mostremos las tablas pivote pero calculando mínimo y máximo:

In [372]:
print("Mínimos")
display(
    df_cleaned_days_employed_not_na.pivot_table(
        index="dob_category", columns="education", aggfunc="min", margins=True
    ).days_employed.round(2)
)

print("Máximos")
display(
    df_cleaned_days_employed_not_na.pivot_table(
        index="dob_category", columns="education", aggfunc="max", margins=True
    ).days_employed.round(2)
)

Mínimos


education,bachelor's degree,graduate degree,primary education,secondary education,some college,All
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-25,98.811203,,206.929282,70.09171,51.496885,51.496885
25-34,24.240695,,62.108487,24.141633,72.95782,24.141633
35-44,73.989891,2351.431934,102.842797,33.520665,91.894242,33.520665
45-54,47.10984,409.200149,156.184338,30.195337,109.349654,30.195337
55-64,93.746886,1630.019381,204.289415,81.571681,159.143455,81.571681
65+,331.925746,1630.019381,1630.019381,114.047745,589.421058,114.047745
All,24.240695,409.200149,62.108487,24.141633,51.496885,24.141633


Máximos


education,bachelor's degree,graduate degree,primary education,secondary education,some college,All
dob_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-25,2753.908868,,1331.017371,3385.118897,2358.600502,3385.118897
25-34,6387.195972,,6670.000568,6712.720029,6387.136079,6712.720029
35-44,10048.68686,5968.075884,8063.327159,11037.198423,8746.765779,11037.198423
45-54,13724.223884,409.200149,11761.802558,14240.9324,11504.366484,14240.9324
55-64,16593.472817,5352.03818,10071.500123,18388.949901,13264.142143,18388.949901
65+,15410.040779,1630.019381,5159.125702,14747.887934,8244.304591,15410.040779
All,16593.472817,5968.075884,11761.802558,18388.949901,13264.142143,18388.949901


Haciendo una inspección de las tablas notamos que los _outliers_ son muy grandes, por lo que usar la media no sería el valor más apropiado. Usaremos mejor las medianas para poder imputar los valores, y reemplazaremos con valores que coincidan tanto en educación con edad.

In [373]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado

# Primero definamos una tabla pivot que usaremos para no tener que estar calculando los valores cada vez que se necesite

total_days_median_pivot = df_cleaned_days_employed_not_na.pivot_table(
        index="dob_category", columns="education", aggfunc="median"
    ).days_employed

# Escribe una función que usaremos para completar los valores ausentes
def total_days_imputator(row):
    '''
    NOTA: no pude encontrar una manera fácil de *solo* modificar los records que quiero en la función usando el apply,
    por lo que la función se aplica sobre todos los valores (no solo los que tienen NaN), eso obliga a que en el caso default
    regrese el valor original. Ahora, recuerde que como mencionamos anteriormente, queremos dejar como NaN aquellos valores que
    correspondan a retirees y unemployeds, por lo que tendremos esas condiciones adicionales.
    '''
    if np.isnan(row["days_employed"]) and (row["income_type"] not in ["retiree", "unemployed"]):
        return total_days_median_pivot[row['education']][row["dob_category"]]
    
    return row["days_employed"]

In [374]:
# Comprobemos si funciona en un pequeño subset de df_cleaned para verlo aplicado a diferentes tipos de income_type

#df_cleaned_days_selected = df_cleaned.query("days_employed.isna()").loc[[13773, 5358, 16259, 7330, 26, 65]]
df_cleaned_days_selected = df_cleaned.query("days_employed.isna()").sample(n=5, random_state=2)

display(df_cleaned_days_selected)

df_cleaned_days_selected.apply(total_days_imputator, axis=1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
14280,1.0,,29.0,bachelor's degree,0,married,0,F,employee,0,22722.2705,profile education,25-34
9530,0.0,,58.0,secondary education,1,married,0,M,civil servant,0,23333.3,building a property,55-64
9253,1.0,,52.0,bachelor's degree,0,married,0,F,employee,0,22573.353,real estate transactions,45-54
3862,1.0,,41.0,secondary education,1,married,0,F,employee,0,23231.3375,purchase of the house for my family,35-44
10863,2.0,,43.0,bachelor's degree,0,married,0,M,employee,0,23231.3375,purchase of my own house,35-44


14280    1284.124715
9530     1630.019381
9253     1786.851812
3862     1775.667402
10863    1900.271070
dtype: float64

Parece que esta funcionando en este pequeño subset, apliquemoslo.

In [375]:
# Aplicar la función al days_employed

df_cleaned.days_employed = df_cleaned.apply(total_days_imputator, axis=1)

In [376]:
# Comprueba si la función funcionó

df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     21112 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  dob_category      21525 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


Hemos arreglado la mayoría de valores, pero no todos, veamos que sucede:

In [377]:
# Hagamos un pequeño sample
df_cleaned.query("days_employed.isna()").sample(n=5, random_state=1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
10652,0.0,,51.0,secondary education,1,widow / widower,2,F,retiree,0,19904.212,transactions with my real estate,45-54
2045,0.0,,65.0,secondary education,1,married,0,F,retiree,0,17645.506,construction of own property,65+
6086,0.0,,53.0,secondary education,1,married,0,F,retiree,0,19904.212,transactions with my real estate,45-54
21305,0.0,,59.0,secondary education,1,unmarried,4,F,retiree,0,19411.701,construction of own property,55-64
9884,0.0,,55.0,secondary education,1,civil partnership,1,F,retiree,1,19411.701,having a wedding,55-64


Esto hace sentido, no teníamos suficiente información para _retirees_, por lo que la función no logra imputar aquí. Veamos que sucede si mostramos solo la información de _retirees_ NaN o no:

In [378]:
# Mostremos que sucede con los retirees NaN
df_cleaned.query("income_type == 'retiree'").sample(n=10, random_state=1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category
20537,0.0,1630.019381,54.0,bachelor's degree,0,unmarried,4,F,retiree,0,70001.666,purchase of the house,45-54
14306,0.0,1630.019381,67.0,secondary education,1,widow / widower,2,F,retiree,0,11218.224,buying a second-hand car,65+
8644,0.0,1630.019381,62.0,secondary education,1,unmarried,4,M,retiree,0,25210.629,building a property,55-64
21041,0.0,1630.019381,60.0,secondary education,1,married,0,F,retiree,0,38167.059,purchase of my own house,55-64
15425,0.0,1630.019381,60.0,secondary education,1,married,0,F,retiree,0,8867.08,getting higher education,55-64
17744,1.0,1630.019381,53.0,secondary education,1,married,0,F,retiree,0,26268.501,to own a car,45-54
16790,0.0,1630.019381,57.0,bachelor's degree,0,civil partnership,1,F,retiree,0,12558.835,to have a wedding,55-64
15229,0.0,,54.0,secondary education,1,widow / widower,2,F,retiree,0,19904.212,transactions with my real estate,45-54
5383,0.0,,61.0,secondary education,1,widow / widower,2,F,retiree,0,19411.701,building a property,55-64
16923,0.0,,60.0,secondary education,1,married,0,F,retiree,0,19411.701,purchase of the house for my family,55-64


Parece ser que solo tenemos valores de la mediana que imputamos en esa columna previamente, como ese fue el caso, imputaremos mejor los valores de _retirees_ que estan NaN con el valor que usamos para imputar antes:

In [379]:
# Imputamos con la mediana y mostramos. Usamos un mask para facilidad de lectura
df_mask = (df_cleaned["income_type"] == "retiree") & (df_cleaned["days_employed"].isna())

df_cleaned.loc[df_mask, "days_employed"] = median_days_employed_imputation

df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  float64
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  dob_category      21525 non-null  object 
dtypes: float64(4), int64(3), object(6)
memory usage: 2.1+ MB


Hemos limpiado y completado todos los datos, pero lamentablemente como hemos tenido que trabajar tanto en los valores de retirees para `days_employed`, no podemos utilizar esa categoría si quisieramos hacer una interpretación de la deuda posteriormente ya que todos ellos carecían de ese valor o estaba mal (excesivamente grande). Afortunadamente, como hemos dicho varias veces, no usaremos ese campo para nuestro análisis.

## Clasificación de datos

Uno de los datos que nos van a resultar importantes es el próposito del préstamo, el cual parece ser un campo de texto libre: tenemos que buscar algún patrón para poder clasificarlos. También sería útil acomodar en grupos el ingreso, ya que queremos revisar si hay algún patrón en la distribución.

In [380]:
# Muestra los valores de los datos seleccionados para la clasificación
df_cleaned.purpose.sample(n=10, random_state=1)

1383                          building a property
300                              having a wedding
6565                             wedding ceremony
17027                        housing transactions
4077                            to have a wedding
10437    transactions with commercial real estate
9631     transactions with commercial real estate
19867                     supplementary education
9124                       building a real estate
19634                                        cars
Name: purpose, dtype: object

Vamos a comprobar los valores únicos.

In [381]:
# Comprobar los valores únicos
df_cleaned.purpose.unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Nótese que tenemos duplicados implícitos en `purpose`, podemos observar que hay cuatro grandes grupos: _wedding_, _property_, _cars_, y _education_. Creemos una nueva columna llamada `purpose_category` y apliquemos una fórmula para que se poble con valores dependiendo de lo que tengamos aquí.

In [382]:
# Escribamos una función para clasificar los datos en función de temas comunes

def recategorize_purpose(var_purpose):
    if "wedding" in var_purpose:
        return "wedding"
    elif any(
        current_item in var_purpose for current_item in ["real estate", "property", "housing", "house"]
    ):
        return "property"
    elif any(current_item in var_purpose for current_item in ["education", "university", "educated"]):
        return "education"
    elif "car" in var_purpose:
        return "car"
    else:
        return var_purpose

In [383]:
# Crea una columna con las categorías y cuenta los valores en ellas
    
df_cleaned["purpose_category"] = df_cleaned.purpose.apply(recategorize_purpose)

# Veamos que obtenemos tras ordenar
df_cleaned.purpose_category.value_counts()

property     10840
car           4315
education     4022
wedding       2348
Name: purpose_category, dtype: int64

Ahora, hagamos las categorías necesarias para la clasificación del `total_income`. Primero revisemos un poco la data:

In [384]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
df_cleaned.total_income

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21525, dtype: float64

In [385]:
# Obtener estadísticas resumidas para la columna
df_cleaned.total_income.describe()

count     21525.000000
mean      26437.286564
std       15685.412724
min        3306.762000
25%       17244.810000
50%       23212.390000
75%       31286.979000
max      362496.645000
Name: total_income, dtype: float64

De la tabla podemos ver que el máximo es un outlier muy alejado del resto, podemos intentar dividir la información en deciles para tener las clases:

In [386]:
# Calculemos los deciles
decil = df_cleaned.total_income.quantile([0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1])

In [387]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def recategorize_income(income):
    if income < decil[0.1]:
        return "1 decil"
    elif income < decil[0.2]:
        return "2 decil"
    elif income < decil[0.3]:
        return "3 decil"
    elif income < decil[0.4]:
        return "4 decil"
    elif income < decil[0.5]:
        return "5 decil"
    elif income < decil[0.6]:
        return "6 decil"
    elif income < decil[0.7]:
        return "7 decil"
    elif income < decil[0.8]:
        return "8 decil"
    elif income < decil[0.9]:
        return "9 decil"
    elif income <= decil[1]:
        return "10 decil"
    else:
        return "Error"

In [388]:
# Crear una columna con categorías y echemos un ojo para ver que todo quedo en órden
df_cleaned["total_income_category"] = df_cleaned.total_income.apply(recategorize_income)

df_cleaned.sample(n=5, random_state=2)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_category,purpose_category,total_income_category
15242,0.0,1630.019381,61.0,secondary education,1,married,0,F,retiree,0,19411.701,going to university,55-64,education,4 decil
4235,0.0,1654.812567,41.0,secondary education,1,married,0,F,employee,0,14775.491,to buy a car,35-44,car,2 decil
20835,1.0,126.869645,47.0,secondary education,1,married,0,F,business,0,50156.736,construction of own property,45-54,property,10 decil
1442,0.0,1630.019381,66.0,secondary education,1,married,0,M,retiree,0,16963.629,building a real estate,65+,property,3 decil
17777,0.0,1770.974352,47.0,secondary education,1,married,0,F,employee,0,22573.353,purchase of the house,45-54,property,5 decil


In [389]:
# Contar los valores de cada categoría para ver la distribución

df_cleaned.total_income_category.value_counts()

3 decil     2153
1 decil     2153
8 decil     2153
6 decil     2153
10 decil    2153
2 decil     2152
7 decil     2152
4 decil     2152
5 decil     2152
9 decil     2152
Name: total_income_category, dtype: int64

## Comprobación de las hipótesis


In [390]:
# Definamos unos dataframes que usaremos en los cálculos
df_no_debt = df_cleaned.query("debt == 0")
df_debt = df_cleaned.query("debt == 1")

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [391]:
# Comprueba los datos sobre los hijos y los pagos puntuales

print("Datos totales de deuda")
display(
    df_no_debt.groupby("children").debt.count()
)

# Calcular la tasa de incumplimiento en función del número de hijos

print("Tasa de incumplimiento")
display(
    df_debt.groupby("children").debt.count() / df_cleaned.groupby("children").debt.count()
)

print("Tasa de cumplimiento")
display(
    df_no_debt.groupby("children").debt.count() / df_cleaned.groupby("children").debt.count()
)

Datos totales de deuda


children
0.0     13132
1.0      4374
2.0      1861
3.0       303
4.0        37
5.0         9
20.0       68
Name: debt, dtype: int64

Tasa de incumplimiento


children
0.0     0.074951
1.0     0.092154
2.0     0.094404
3.0     0.081818
4.0     0.097561
5.0          NaN
20.0    0.105263
Name: debt, dtype: float64

Tasa de cumplimiento


children
0.0     0.925049
1.0     0.907846
2.0     0.905596
3.0     0.918182
4.0     0.902439
5.0     1.000000
20.0    0.894737
Name: debt, dtype: float64

**Conclusión**

Podemos ver que no parece haber una relación importante entre el número de hijos y la tasa de cumplimiento/incumplimiento: en el caso de tener 20 hijos la tasa de incumplimiento es ~10%, mientrás que de tener cero es de ~7.5%, por lo que no se puede considerar que tener muchos o pocos hijos sea determinante en si se pagará o no un crédito. El simple hecho de tener un hijo, sin importar el número, aumenta la tasa de incumplimiento (note que la diferencia con gente sin hijos es de 2.5%, un cambio importante), esto debe ser por el aumento de gastos.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [392]:
# Comprueba los datos del estado familiar y los pagos a tiempo

print("Datos totales de deuda")
display(
    df_no_debt.groupby("family_status").debt.count()
)

# Calcular la tasa de incumplimiento basada en el estado familiar

print("Tasa de incumplimiento")
display(
    df_debt.groupby("family_status").debt.count() / df_cleaned.groupby("family_status").debt.count()
)

print("Tasa de cumplimiento")
display(
    df_no_debt.groupby("family_status").debt.count() / df_cleaned.groupby("family_status").debt.count()
)


Datos totales de deuda


family_status
civil partnership     3789
divorced              1110
married              11449
unmarried             2539
widow / widower        897
Name: debt, dtype: int64

Tasa de incumplimiento


family_status
civil partnership    0.092890
divorced             0.071130
married              0.075202
unmarried            0.097405
widow / widower      0.065625
Name: debt, dtype: float64

Tasa de cumplimiento


family_status
civil partnership    0.907110
divorced             0.928870
married              0.924798
unmarried            0.902595
widow / widower      0.934375
Name: debt, dtype: float64

**Conclusión**

Podemos mencionar algo similar a lo que sucede con el número de hijos, las diferencias son pequeñas, pero se nota que el estar soltero es un indicador de probable incumplimiento (casi del ~10%), curioso que ser divorciado no lo sea (uno esperaría que en esta situación los ingresos disminuyan).

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [393]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

print("Datos totales de deuda")
display(
    df_no_debt.groupby("total_income_category").debt.count()
)

# Calcular la tasa de incumplimiento basada en el nivel de ingresos

print("Tasa de incumplimiento")
display(
    df_debt.groupby("total_income_category").debt.count() / df_cleaned.groupby("total_income_category").debt.count()
)

print("Tasa de cumplimiento")
display(
    df_no_debt.groupby("total_income_category").debt.count() / df_cleaned.groupby("total_income_category").debt.count()
)


Datos totales de deuda


total_income_category
1 decil     1995
10 decil    2002
2 decil     1965
3 decil     1974
4 decil     1976
5 decil     1947
6 decil     1977
7 decil     1975
8 decil     1973
9 decil     2000
Name: debt, dtype: int64

Tasa de incumplimiento


total_income_category
1 decil     0.073386
10 decil    0.070135
2 decil     0.086896
3 decil     0.083140
4 decil     0.081784
5 decil     0.095260
6 decil     0.081746
7 decil     0.082249
8 decil     0.083604
9 decil     0.070632
Name: debt, dtype: float64

Tasa de cumplimiento


total_income_category
1 decil     0.926614
10 decil    0.929865
2 decil     0.913104
3 decil     0.916860
4 decil     0.918216
5 decil     0.904740
6 decil     0.918254
7 decil     0.917751
8 decil     0.916396
9 decil     0.929368
Name: debt, dtype: float64

**Conclusión**
Se puede ver que no existen diferencias muy significativas en el caso del `total_income`, parece que no necesariamente un mayor ingreso implica menor capacidad de pago (probablemente a mayor capacidad de pago, mayor es el préstamo en primer instancia).

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [394]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

print("Datos totales de deuda")
display(
    df_no_debt.groupby("purpose_category").debt.count()
)

# Calcular la tasa de incumplimiento basada en el nivel de ingresos

print("Tasa de incumplimiento")
display(
    df_debt.groupby("purpose_category").debt.count() / df_cleaned.groupby("purpose_category").debt.count()
)

print("Tasa de cumplimiento")
display(
    df_no_debt.groupby("purpose_category").debt.count() / df_cleaned.groupby("purpose_category").debt.count()
)


Datos totales de deuda


purpose_category
car           3912
education     3652
property     10058
wedding       2162
Name: debt, dtype: int64

Tasa de incumplimiento


purpose_category
car          0.093395
education    0.091994
property     0.072140
wedding      0.079216
Name: debt, dtype: float64

Tasa de cumplimiento


purpose_category
car          0.906605
education    0.908006
property     0.927860
wedding      0.920784
Name: debt, dtype: float64

**Conclusión**
Aquí si podemos ver una diferencia algo más notable: la tasa de inclumpimiento es mayor si se trata de educación y comprar automóviles (no tienen una tasa de retorno tan rápida, uno puede estudiar y tardar en recuperar los costos). El caso de propiedades y bodas son tasas de cumplimiento bastante altas, parece que esta es la métrica que por si sola es más significativa.


# Conclusión general 

Hemos pasado de tener un dataset con imperfecciones a un dataset más pulcro: no se ha eliminado ningún registro, aun en situaciones donde pudo haber sido más fácil. Tampoco se removieron los posibles duplicados ya que no tenemos manera de asegurar lo sean. Un cambio importante fue la observación de que el número de días empleados para los retirados y desempleados tenía problemas (era NaN): probablemente hay un error de entrada para esos valores en la captura original, y lo corregimos por aquí usando la mediana:

Se plantearon cuatro hipótesis al principio de este Notebook:

1. Un menor número de hijos conlleva a mayor propensión a incumplimiento: menor seriedad de parte del cliente, no es lo mismo tener familia que no tenerla.

    **Falso** 
    De hecho el resultado es más interesante: si no se tienen hijos, la tasa de incumplimiento es menor. No existe una diferencia sustancial entre tener uno, dos o más hijos.


2. Las personas casadas tendrán una mejor puntuación: igual, formar vida de pareja implica más seriedad y menos gastos innecesarios (e incosteables).

    **Parcialmente cierto**
    Se aprecia que el ser soltero implica mayor propensión a incurrir en deuda, pero los clientes casados tienen tasas similares a estar divorciado, y el estar en unión libre tampoco es un buen indicador de cumplimiento.
    
    
3. Las personas con mayor ingreso suelen incurrir en menor incumplimiento de pago.
    
    **Falso**
    No se aprecia realmente una diferencia por aquí, probablemente sea porque la gente de mayor ingresos obtiene préstamos más alto y que igual cuesta pagar. En todo caso, lo que se podría decir es que los que más incumplen son los que estan en el medio: los de menor ingreso y los del más alto no son propensos a la deuda como los demás.


4. El propósito para obtener el préstamo incide en el cumplimiento: un préstamo para comprar una casa o un carro (el cual no implica un ingreso nuevo como lo sería, por ejemplo, un negocio) aumenta la probabilidad de incumplimiento.

    **Cierto**
    No todos los propósitos son iguales: los que implican propiedades y bodas parecen ser menos propensos a la deuda, probablemente porque implican una situación más estable por la vida en pareja.


Para finalizar, pareciera que no existe una sola razón determinante: los cambios entre una y otra categoría son de uno o dos porciento, pero podríamos aventurarnos a plantear que una persona que busca un préstamo para una casa, sin hijos y que este en el decil más alto/bajo de ingreso podría ser un candidato ideal a un préstamo. Sin embargo, hay que hacer mayor análisis porque solo estamos viendo una variable a la vez: puede ser que algunas de estas variables se contrarresten en un cálculo multivariable (el cual obviamente escapa a esta sección).
