# Contents

* [Introducción.](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Ejercicio 1. Exploracón de datos.](#excercise1)
    * [Conclusiones](#conclusions)
* [Etapa 2. Transformación de datos.](#transform)
    * [Estilo de la columna educación](#education)
    * [Columna del número de hijos](#children)
    * [Columna de días trabajados](#days_employed)
    * [Edad de los clientes](#age)
    * [Columna de situación familiar](#family_status)
    * [Columna de género](#gender)
    * [Columna de tipo de ingresos](#income_type)
    * [Duplicados](#duplicates)
* [Etapa 3. Trabajar con valores ausentes](#null_values)
    * [Restaurar valores ausentes en `total_income`](#rest_total_income)
    * [Restaurar valores en `days_employed`](#rest_days_employed)
* [Etapa 4. Clasificación de datos y prueba de hipótesis](#hypotheses)
    * [Comprobación de las hipótests](#hypotheses_check)
* [Conclusión general](#end)

## Introducción. <a id='intro'></a>

### Análisis del riesgo de incumplimiento de los prestatarios 

Este proyecto consiste en preparar un informe para la división de préstamos de un banco. Se trata de averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


### Objetivo
Probar tres hipótesis:
1. El número de hijos afecta negativamente al cumplimiento de los pagos del préstamo.
2. Los clientes casados no suelen fallar a la hora de pagar una cuota del préstamo.
3. El nivel de ingresos afecta positivamente si un cliente cumplirá con los pagos.
4. El propósito del crédito puede tener relevancia en el incumplimiento de los pagos.

### Etapas
El proyecto se divide en tres etapas en las que se mostrará información sobre los datos obtenidos, se procesarán los datos para obtener información y describir el aporte de los mismos, extrayendo conclusiones a traves de las cuales se contrastarán con las hipótesis formuladas.

Las etapas serán las siguientes:
 1. Descripción de los datos.
 2. Procesamiento de los datos.
 3. Trabajar con valores ausentes.
 3. Clasificación de los datos y prueba de hipótesis.

## Etapa 1. Descripción de los datos. <a id='data_review'></a>

El análisis de los datos se realizará haciendo uso de la librería `pandas`.

El fichero con los datos se llama `credit_scoring_eng.csv`.


In [2]:
# Cargar todas las librerías
import pandas as pd

In [3]:
# Carga los datos
try:
    credit_scoring = pd.read_csv('credit_scoring_eng.csv')
except:
    credit_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv')

### Ejercicio 1. Exploración de datos. <a id='excercise1'></a>

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

A continuación, obtendremos datas generales de la tabla, como el número de filas y columnas e información sobre los datos. También se imprimirán las primeras 15 filas de la tabla. 

In [311]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
credit_scoring.shape


(21525, 12)

In [312]:
# vamos a mostrar las primeras 15 filas 
credit_scoring.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


En la columna de días trabajados (`days_employed`), aparecen mayotitariamente números negativos, por lo que habría que investigar que tipo de métrica sigue esa medida. Ademas se observa que en esa misma columna encontramos algún dato ausente, lo que indica que podría haber más.

Por otro lado, se observa que en la columna `education` tenemos algunas celdas con datos en mayúsculas, lo cual podría interferferir a la hora de hacer un filtrado.


In [313]:
# Obtener información sobre los datos
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 21525 entries, 0 to 21524

Data columns (total 12 columns):

 #   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

 0   children          21525 non-null  int64  

 1   days_employed     19351 non-null  float64

 2   dob_years         21525 non-null  int64  

 3   education         21525 non-null  object 

 4   education_id      21525 non-null  int64  

 5   family_status     21525 non-null  object 

 6   family_status_id  21525 non-null  int64  

 7   gender            21525 non-null  object 

 8   income_type       21525 non-null  object 

 9   debt              21525 non-null  int64  

 10  total_income      19351 non-null  float64

 11  purpose           21525 non-null  object 

dtypes: float64(2), int64(5), object(5)

memory usage: 2.0+ MB


Se observa que en las columnas `days_employed` y `total_income` hay datos ausentes. También se observa que el número de celdas con datos válidos son el mismo.

Realizaremos un filtrado de valores ausentes para comprobar si éstos siguen algún patrón.


In [314]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit_scoring_filtered = credit_scoring.dropna(subset=['days_employed'])
credit_scoring_filtered.info()


<class 'pandas.core.frame.DataFrame'>

Int64Index: 19351 entries, 0 to 21524

Data columns (total 12 columns):

 #   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

 0   children          19351 non-null  int64  

 1   days_employed     19351 non-null  float64

 2   dob_years         19351 non-null  int64  

 3   education         19351 non-null  object 

 4   education_id      19351 non-null  int64  

 5   family_status     19351 non-null  object 

 6   family_status_id  19351 non-null  int64  

 7   gender            19351 non-null  object 

 8   income_type       19351 non-null  object 

 9   debt              19351 non-null  int64  

 10  total_income      19351 non-null  float64

 11  purpose           19351 non-null  object 

dtypes: float64(2), int64(5), object(5)

memory usage: 1.9+ MB


Tras filtrar la tabla por los valores ausentes de la columna `days_employed` se puede ver que los valores ausentes parecen simétricos, ya que al quitarlos, tenemos el mismo número de filas con valores válidos en toda la tabla. 

Aún así, tras hacer un único filtrado no podemos estar seguros de que se esté dando un patrón, ya que podría ser mera casualidad. Por ello vamos a probar a filtrar la tabla por la columna `total_income` para comprobar si el número de filas con datos ausentes fuera el mismo.


In [315]:
income_filtered = credit_scoring.dropna(subset=['total_income']) # Aplicamos otras condiciones para filtrar datos y vemos el número de filas en la tabla filtrada.
income_filtered.info()
print()

null_days_employed = credit_scoring_filtered['total_income'].isna().sum() # Contamos el número de valores ausentes en el primer filtrado
print(f'El número de datos nulos en la columna total_imcome en el primer filtrado es: {null_days_employed}')
print()

null_income = income_filtered['days_employed'].isna().sum() #Contamos el número de valores ausentes en el segundo filtrado
print(f'El número de datos nulos en la columna days_employed en el segundo filtrado es: {null_days_employed}')


<class 'pandas.core.frame.DataFrame'>

Int64Index: 19351 entries, 0 to 21524

Data columns (total 12 columns):

 #   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

 0   children          19351 non-null  int64  

 1   days_employed     19351 non-null  float64

 2   dob_years         19351 non-null  int64  

 3   education         19351 non-null  object 

 4   education_id      19351 non-null  int64  

 5   family_status     19351 non-null  object 

 6   family_status_id  19351 non-null  int64  

 7   gender            19351 non-null  object 

 8   income_type       19351 non-null  object 

 9   debt              19351 non-null  int64  

 10  total_income      19351 non-null  float64

 11  purpose           19351 non-null  object 

dtypes: float64(2), int64(5), object(5)

memory usage: 1.9+ MB



El número de datos nulos en la columna total_imcome en el primer filtrado es: 0



El número de datos nulos en la columna days_employed en el segundo 

**Conclusión intermedia**

Para asegurar la conclusión anterior hemos filtrado la tabla por la columna `total_income` y hemmos obtenido el mismo resultado que antes. Además hemos contado el número de datos ausentes en cada filtrado para asegurar que no fuera una coincidencia.

Podemos concluir que los clientes que tienen un valor ausente en la celda de `days_employed` tienen por consecuencia un valor ausente en la celda `total_income`.

Para comprobar que esto es cierto, vamos a comprobar que caracteriza a los clientes que tienen valores ausentes. Por otro lado calcularemos que porcentaje de valores ausentes hay en comparación con todo el cojunto de datos completo para determinar si son una cantidad importante a tener en cuenta para nuestro estudio.


In [316]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
credit_scoring_null_values = credit_scoring.fillna('null') # Cambia el valor ausente por la cadena 'null'
credit_scoring_null_values = credit_scoring_null_values[credit_scoring_null_values['total_income'] == 'null'] # Filtra por valores 'null'
credit_scoring_null_values['income_type'].value_counts() # Comprobación de la distribución



employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [317]:
# Comprobación del porcentaje de datos austentes
null_sum = credit_scoring['days_employed'].isna().sum() # Sumamos el número de ausentes
customer_total_count = credit_scoring['gender'].count() # Contamos el número de clientes mediante una columna sin valores ausentes
print(f'Porcentaje de datos ausentes: {round((null_sum/customer_total_count)*100, 3)} %')


Porcentaje de datos ausentes: 10.1 %


Describe aquí tus hallazgos.]

Un 10% de los datos tienen valores ausentes, y los clientes con valores ausentes en los campos `days_employed` y `total_income` tienen algun tipo de ocupación.

**Posibles razones por las que hay valores ausentes en los datos**

Es posible que el sistema del banco para registrar los datos no permita la entrada de datos en el campo `total_income` si no se introduce un dato en el campo `days_employed`.

Aún no se puede determinar que exista un patrón para los datos ausentes. Para asegurar, comprobaremos la distribución de datos sobre la columna `income_type` en el conjunto de datos entero sin los valores ausentes.

In [318]:
# Comprobando la distribución en el conjunto de datos entero
print(round(credit_scoring['income_type'].value_counts(normalize=True, dropna=True)*100, 2))


employee                       51.66

business                       23.62

retiree                        17.91

civil servant                   6.78

entrepreneur                    0.01

unemployed                      0.01

paternity / maternity leave     0.00

student                         0.00

Name: income_type, dtype: float64


**Conclusión intermedia**

Se observa que los datos son similares a los que encontramos en la tabla filtrada solo con datos ausentes. Esto descarta que exista un patrón en base al tipo de ingresos del cliente.

Por otro lado, solo hemos comprobado la relación en base a una única métrica, tal vez si investigamos con los datos de otras columnas podemos encontrar algún tipo de patrón. 
Empezaremos por comprobar si se relacionan los datos ausentes con tener alguna cuota del préstamo sin pagar.

In [319]:
# Comprueba la distribución en base a cuotas sin pagar
print(round(credit_scoring_null_values['debt'].value_counts(normalize=True, dropna=True)*100, 2))


0    92.18

1     7.82

Name: debt, dtype: float64


**Conclusión intermedia**

Observamos que la mayoría de clientes con datos ausentes llevan sus pagos al día. Se descarta la posibilidad de que tuviera relación la falta de datos con los impagos.

Por último vamos a comprobar la distribución de nivel de estudios y situación familiar de los clientes con datos ausentes. Quizá exista algún patrón en base a estos parámetros.

In [320]:
# Comprobación de otros patrones: distribución por nivel de estudios.
print('Distribución de datos ausentes por nivel de estudios:\n')
print(round(credit_scoring_null_values['education_id'].value_counts(normalize=True)*100, 2))
print()
print('Distribución de datos ausentes por situación familiar:\n')
print(round(credit_scoring_null_values['family_status_id'].value_counts(normalize=True)*100, 2))

Distribución de datos ausentes por nivel de estudios:



1    70.84

0    25.02

2     3.17

3     0.97

Name: education_id, dtype: float64



Distribución de datos ausentes por situación familiar:



0    56.90

1    20.33

4    13.25

3     5.15

2     4.37

Name: family_status_id, dtype: float64


### Conclusiones

Observamos que la mayoría de clientes con datos ausentes tienen un nivel de estudios de secundaria y, por otro lado, la mayoría de clientes están casados. Quizá esta información nos pudiera servir más adelante, pero ahora mismo no nos indica ningún tipo de patron, ya que la distribución es normal debido a la frecuencia en la que se presentan dichos valores que son más probables de aparecer.

Dado que los datos ausentes son una métrica importante a la hora de una puntuación crediticia, no se pueden rellenar libremente. Trataremos de rellenarlos con un valor medio con respecto a al resto de clientes con la misma condición de ocupación.


## Estapa 2. Transformación de datos. <a id='transform'></a>

En la etapa anterior nos hemos topado con algunos errores en varias columnas, por lo tanto, en un conjunto de datos tan grande no se puede descartar que haya mas errores. En esta etapa nos centraremos en corregir los errores del conjunto de datos para poder procesarlo más fácilmente.


### Estilo de la columna educación. <a id='education'></a>
Comenzaremos por la columna `education` que antes vimos que tenia problemas con las mayúsculas.


In [321]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Podemos ver que hay distintas formas para escribir los mismos datos. Lo arreglaremos pasándolo todo a minúsculas.

In [322]:
# Pasando los valores a minúsculas
credit_scoring['education'] = credit_scoring['education'].str.lower()

In [323]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
credit_scoring['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Ahora ya tenemos un estilo unificado para esta columna. Será más fácil clasificar a los clientes por nivel de estudios.

### Columna de número de hijos. <a id='children'></a>

A continuación comprobaremos los datos en la columna `children` para comprobar que no haya artefactos extraños en los datos.

In [324]:
# Veamos la distribución de los valores en la columna `children`
credit_scoring['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

En esta columna se puede observar que hay 76 personas con 20 hijos y filas con un número negativo de hijos, cosa imposible. 

No se podría descartar que existiera algún cliente con 20 hijos, pero parece un dato que no cuadra con el rango normal del conjunto de datos y hay muchas filas con este error. Lo mas probable es que sea un error en el que el 0 no debería estar y el dato real es 2.

Por otro lado las filas con un número negativo se corresponda con un error similar en el que se haya escrito el signo "-" inintencionadamente al introducir los datos. Por lo que corregiremos este dato por un 1.


In [325]:
# Corregimos los datos
credit_scoring['children'] = credit_scoring['children'].replace(-1, 1)
credit_scoring['children'] = credit_scoring['children'].replace(20, 2)

In [326]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
credit_scoring['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Columna de días trabajados. <a id='days_employed'></a>

En esta columna ya observamos al principio que había muchos valores que eran negativos. Veamos cual puede ser la causa de este error.

Em primer lugar contaremos el número de filas que contienen valores negativos para el valor de días trabajados.

In [327]:
# Cuenta el número de valores negativos en `days_employed`
neg_values_count = credit_scoring[credit_scoring['days_employed'] < 0]['days_employed'].count()
neg_values_count

15906

El número de filas con valor negativo en `days_employed` es muy elevado, por lo que no se debe a un simple error de introducción de datos, sino que puede deberse a un problema técnico de la forma de contar los días trabajados de cada cliente.

En la primera vista de los datos, al principio del documento, se observó que el único cliente que tenía un valor positivo en esta columna tenia la condición de "retirado" en la columna `income_type`. Por lo que comprobaremos que condición de ocupación tienen los clientes con valores positivos.

In [328]:
pos_values_group = credit_scoring[credit_scoring['days_employed'] >= 0] # Filtra por valores positivos en "days_employed"
print(pos_values_group['income_type'].value_counts())
pos_values_group.head(10)

retiree       3443

unemployed       2

Name: income_type, dtype: int64


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
30,1,335581.668515,62,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate
35,0,394021.072184,68,secondary education,1,civil partnership,1,M,retiree,0,12448.908,having a wedding
50,0,353731.432338,63,secondary education,1,married,0,F,retiree,0,14774.837,cars
56,0,370145.087237,64,secondary education,1,widow / widower,2,F,retiree,0,23862.567,education
71,0,338113.529892,62,secondary education,1,married,0,F,retiree,0,7028.751,cars
78,0,359722.945074,61,bachelor's degree,0,married,0,M,retiree,0,28020.423,purchase of a car


Observamos que los clientes cuyos valores en la columna de días trabajados están retirados o desempleados. También se ha mostrado parte de la tabla filtrada para comprobar los valores, que se puede apreciar que son desorbitados. Se puede comprobar si la dividimos entre 365 días, para ver los años que llevan trabajados. 

In [329]:
years_employed = pos_values_group['days_employed']

years_employed = years_employed/365 # Calcula el número de años totales trabajados
years_employed.head()

4      932.235814
18    1096.660649
24     927.539597
25     996.023258
30     919.401832
Name: days_employed, dtype: float64

Tras pasar de días a años se puede ver que habrían estado trabajando más de 900 años, lo que nos indica que haya habido algún error técnico a la hora de introducir los datos.

Por lo tanto, nos encontramos con dos problemas:
 1. Tenemos valores negativos.
 2. Los clientes que no tienen ocupación tienen un valor desorbitado.
 
El primer problema se puede solucionar obteniendo el valor absoluto de los valores de la columna. De esta forma los valores negativos pasarán a ser positivos y los valores positivos no se verán afectados cuando apliquemos el método a toda la columna.

El segundo problema no hay forma de tratarlo de modo 100% objetivo, ya que cada cliente puede haber tenido una situación diferente. Si nos encontramos con este caso lo idóneo será reportar este error para que revisen el motivo del error y por qué se han introducido así los datos. Para nuestro estudio, trataremos estos datos como si fueran ausentes y los sustituiremos por una media en función de la edad de los clientes mediante una función que definamos expresamente para ello.

In [330]:
# Aborda los valores problemáticos, si existen.
credit_scoring['days_employed'] = credit_scoring['days_employed'].abs()

In [331]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


### Edad de los clientes. <a id='age'></a>

En la columna de edad ya vimos antes que había algunas celdas en las que aparecía que la edad del cliente eran 0 años. Revisemos la columna `dob_years` en busca de errores, es decir, datos que no pueden ser la edad de alguien.


In [332]:
# Revisa `dob_years` en busca de valores sospechosos
print(credit_scoring['dob_years'].value_counts())

# Calcula el porcentaje
age_zero = credit_scoring[credit_scoring['dob_years']== 0]['dob_years'].count()
age_sum = credit_scoring['dob_years'].value_counts().sum()
print(f'\nPorcentaje de clientes con "0" años: {round((age_zero/age_sum)*100, 2)} %')


35    617

40    609

41    607

34    603

38    598

42    597

33    581

39    573

31    560

36    555

44    547

29    545

30    540

48    538

37    537

50    514

43    513

32    510

49    508

28    503

45    497

27    493

56    487

52    484

47    480

54    479

46    475

58    461

57    460

53    459

51    448

59    444

55    443

26    408

60    377

25    357

61    355

62    352

63    269

64    265

24    264

23    254

65    194

66    183

22    183

67    167

21    111

0     101

68     99

69     85

70     65

71     58

20     51

72     33

19     14

73      8

74      6

75      1

Name: dob_years, dtype: int64



Porcentaje de clientes con "0" años: 0.47 %


El único valor extraño que encontramos son las filas en las que la edad del cliente la señala como 0, y además supone un porcentaje muy bajo del conjunto de datos. Esto lo podemos sustituir por la mediana de las edades de todos los clientes, de esta forma no afectarán tanto aquellos clientes con edades más avanzadas.


In [333]:
# Resuelve los problemas en la columna `dob_years`, si existen
credit_scoring_mean = credit_scoring[credit_scoring['dob_years']!=0]['dob_years'].median()
credit_scoring_mean

43.0

In [334]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_scoring['dob_years'] = credit_scoring['dob_years'].replace(0, credit_scoring_mean)
credit_scoring['dob_years'].value_counts()

35.0    617
43.0    614
40.0    609
41.0    607
34.0    603
38.0    598
42.0    597
33.0    581
39.0    573
31.0    560
36.0    555
44.0    547
29.0    545
30.0    540
48.0    538
37.0    537
50.0    514
32.0    510
49.0    508
28.0    503
45.0    497
27.0    493
56.0    487
52.0    484
47.0    480
54.0    479
46.0    475
58.0    461
57.0    460
53.0    459
51.0    448
59.0    444
55.0    443
26.0    408
60.0    377
25.0    357
61.0    355
62.0    352
63.0    269
64.0    265
24.0    264
23.0    254
65.0    194
66.0    183
22.0    183
67.0    167
21.0    111
68.0     99
69.0     85
70.0     65
71.0     58
20.0     51
72.0     33
19.0     14
73.0      8
74.0      6
75.0      1
Name: dob_years, dtype: int64

### Columna de situación familiar. <a id='family_status'></a>

Pasamos a comprobar la columna de `family_status` en busca de errores. Esta columna, como hemos visto al principio, es de clase objeto, por lo que existe la posibilidad de tener los mismos problemas que la columna `education`.

Vamos a ver un recuento de datos únicos en esta columna.


In [335]:
# Veamos los valores de la columna
credit_scoring['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

El estilo está bien, no hay errores ortográficos ni duplicados. Esta columna no tiene problemas, no es necesario aplicarle ningún cambio.


### Columna de género. <a id='gender'></a>

Revisamos ahora la columna género.

In [336]:
# Veamos los valores en la columna
credit_scoring['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

No encontramos errores que puedan afectar a nuestro análisis, pero si que podemos cambiar el término "XNA" por <b>"PNS"</b> que significa _Prefer Not to Say_ en inglés. Se puede considerar como más intuitivo.

In [337]:
# Aborda los valores problemáticos, si existen
credit_scoring['gender'] = credit_scoring['gender'].replace('XNA', 'PNS')

In [338]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_scoring['gender'].unique()


array(['F', 'M', 'PNS'], dtype=object)

### Columna de tipo de ingresos. <a id='income_type'></a>

Comprobamos también la columna `income_type` por la misma razón que hemos comprobado las otras columnas de tipo _objeto_. Puede que nos encontremos con errores de estilo u ortográficos.


In [339]:
# Veamos los valores en la columna
credit_scoring['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

En esta columna tampoco encontramos valores extraños que deban ser corregidos.

### Duplicados. <a id='duplicates'></a>

Ahora que no tenemos errores en los datos, es momento de comprobar si tenemos datos duplicados.


In [340]:
# Comprobar los duplicados
show_duplicated = credit_scoring[credit_scoring.duplicated()]
show_duplicated

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41.0,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34.0,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60.0,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64.0,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60.0,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47.0,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30.0,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


Tenemos 72 duplicados explícitos en nuestro conjunto de datos. Vamos a eliminarlos para que no nos afecten en nuestro estudio.

In [341]:
# Elimina los duplicados explícitos 
credit_scoring = credit_scoring.drop_duplicates().reset_index(drop=True)

In [342]:
# Comprueba que se hayan eliminado los duplicados
show_duplicated = credit_scoring[credit_scoring.duplicated()]
show_duplicated

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Hemos eliminado los duplicados explícitos de nuestro conjunto. Con esto ya hemos procesado los datos de nuestro conjunto a falta de rellenar los datos ausentes y sustituir los artefactos en la columna `days_employed`. 

Continuamos en la siguiente etapa del proyecto.

## Etapa 3. Trabajar con valores ausentes. <a id='null_values'></a>

Para acelerar el trabajo con algunos datos, utilizaremos diccionarios para algunos valores, en los que se proporcionan IDs.

Utilizaremos dos diccionarios: uno con los valores de `education` y sus IDs y otro con los valores de `family_status` y sus IDs. Serán útiles a la hora de crear funciones.

In [343]:
# Encuentra los diccionarios
education_ref = credit_scoring[['education', 'education_id']]
education_ref = education_ref.drop_duplicates().reset_index(drop=True)
education_ref

Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
2,some college,2
3,primary education,3
4,graduate degree,4


In [344]:
family_ref = credit_scoring[['family_status', 'family_status_id']]
family_ref = family_ref.drop_duplicates().reset_index(drop=True)
family_ref

Unnamed: 0,family_status,family_status_id
0,married,0
1,civil partnership,1
2,widow / widower,2
3,divorced,3
4,unmarried,4


### Restaurar valores ausentes en `total_income`. <a id='rest_total_income'></a>

Las columnas con valores ausentes ya hemos visto que son las columnas de `days_employed` y `total_income`. 
Para poder rellenar los valores de `total_income` vamos a utilizar un valor medio o mediano de ingesos de los clientes en función de la edad y algún parámetro que consideremos que afecte más a este valor.

Empezaremos por definir una función que asigne una categoría de edad a cada cliente y coloque este valor en una nueva columna.


In [345]:
# Vamos a escribir una función que calcule la categoría de edad
def age_category(age):
    if 17 < age < 25:
        return '18-24'
    elif age < 40:
        return '25-39'
    elif age < 55:
        return '40-54'
    elif age < 70:
        return '55-69'
    elif age >= 70:
        return '70+'
    

In [346]:
# Prueba si la función funciona bien
print(age_category(25))
print(age_category(35))
print(age_category(75))

25-39

25-39

70+


In [347]:
# Crear una nueva columna basada en la función
credit_scoring['age_category'] = credit_scoring['dob_years'].apply(age_category)

In [348]:
# Comprobar cómo los valores en la nueva columna
credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-54
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-39
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-39
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-54
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,25-39
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-54
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,40-54
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,25-39
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-54


Ya tenemos una nueva columna en la que se identifica a cada cliente dentro de un grupo de edad. Ahora lo que nos interesa saber es qué factor influye más en los ingresos de un cliente para poder rellenar el valor `total_income`.

Normalmente, los ingresos suelen depender del nivel de estudios de la persona, o bien tambien pueden depender de la ocupación de la persona.

Vamos a realizar un análisis en función de esos factores, con valores medios y valores medianos para ver que factor sería mejor utilizar.


Primero vamos a crear una tabla sin valores ausentes para aplicarle el valor medio o mediano. Después creamos una tabla agrupada por el factor determinante que hemos escogido y el grupo de edad.
Estos datos serán los que utilizaremos para restaurar los valores ausentes.


In [349]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
non_null_table = credit_scoring.dropna()

In [350]:
# Examina los valores medios de los ingresos en función del nivel de estudios del cliente
education_pivot_mean = non_null_table.pivot_table(
    index='education',
    columns='age_category',
    values='total_income',
    aggfunc='mean'
)

education_pivot_mean

age_category,18-24,25-39,40-54,55-69,70+
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,25445.309825,32877.95136,35624.939997,30556.685109,26173.068696
graduate degree,,18187.3015,31771.321,33204.741333,
primary education,24467.9724,23461.973557,22266.533088,18123.078172,18892.886
secondary education,21570.6356,25260.917878,25517.72025,22826.526372,19245.043953
some college,23150.092523,30029.412075,31926.236148,30505.919915,13917.989667


In [351]:
# Examina los valores medianos de los ingresos en función del nivel de estudios del cliente
education_pivot_median = non_null_table.pivot_table(
    index='education',
    columns='age_category',
    values='total_income',
    aggfunc='median'
)

education_pivot_median

age_category,18-24,25-39,40-54,55-69,70+
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,22725.186,28209.807,29843.026,25782.3145,25497.392
graduate degree,,18187.3015,31771.321,40868.031,
primary education,25488.916,19904.2755,20992.275,16922.625,15013.505
secondary education,19386.26,22678.982,22498.708,19948.15,18508.577
some college,21262.872,26663.782,27560.645,27143.465,14479.193


Acabamos de examinar la agrupación en función del nivel de estudios. Generalmente cuánto mayor es el nivel de estudios de una persona, suele tener mejores ingresos. En las tablas se puede ver de forma general que esto se cumple, donde los clientes con nivel de estudios primarios tienen unos ingresos menores que aquellos con una licenciatura o grado universitario.

Se ve también que los valores medianos son más parecidos entre si que los valores medios, esto se debe a que haciendo la media, hay clientes con valores inusuales al resto.

Vamos a hacer el mismo procedimiento para el tipo de ocupación de los clientes.


In [352]:
# Examina los valores medios de los ingresos en función de la ocupación laboral del cliente
income_type_pivot_mean = non_null_table.pivot_table(
    index='income_type', 
    columns='age_category', 
    values='total_income', 
    aggfunc='mean'
)

income_type_pivot_mean

age_category,18-24,25-39,40-54,55-69,70+
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,25475.599868,32211.426074,33650.565443,31839.137931,27766.3072
civil servant,23548.82293,27221.795822,27929.791225,26615.590374,32189.795667
employee,21288.65401,25888.235144,26005.308786,27046.063733,26672.382429
entrepreneur,,79866.103,,,
paternity / maternity leave,,8612.661,,,
retiree,14298.976,21728.004943,23103.973987,21827.933863,18994.044264
student,15712.26,,,,
unemployed,,9593.119,32435.602,,


In [353]:
# Examina los valores medianos de los ingresos en función de la ocupación laboral del cliente
income_type_pivot_median = non_null_table.pivot_table(
    index='income_type',
    columns='age_category',
    values='total_income',
    aggfunc='median'
)

income_type_pivot_median

age_category,18-24,25-39,40-54,55-69,70+
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,22289.676,27814.895,28295.412,27476.8095,28138.895
civil servant,21361.73,24184.26,24109.506,23452.215,24525.224
employee,19670.104,22983.456,22897.997,23410.977,24660.901
entrepreneur,,79866.103,,,
paternity / maternity leave,,8612.661,,,
retiree,14298.976,18454.428,20028.725,18834.61,17650.466
student,15712.26,,,,
unemployed,,9593.119,32435.602,,


Tras ver la tabla podemos observar que hay rangos de ingresos distintos en función del tipo de ocupación del cliente, pero hay ocupaciones con muy pocas muestras y éstas se separan mucho de las otras, por lo que no determina fielmente un valor medio real.

Si se ve que las personas que tienen un negocio tienen mas ingresos que aquellas que son empleados por cuenta ajena o funcionarios.


Asi qué como he mencionado en primera instancia, estos valores no serían del todo acertados para sustituirlos, por lo tanto prefiero utilizar rellenar los valores ausentes con los valores medianos de la agrupación por el factor de nivel de educación.

Vamos ahora a definir la función para rellenar los datos ausentes.


In [354]:
#  Escribe una función que usaremos para completar los valores ausentes
def complete_income(row): # Nota: antes de usar la función se deben hacer 0 los valores ausentes
    
    age = row['age_category']
    education = row['education_id']
    total_income = row['total_income']
    income_type = row['income_type']
    income_mean1 = 0
    income_mean2 = 0
    
    if row['total_income'] == 0:
        
        # Si el valor de tipo de ingresos es "negocio", "empleado" o "funcionario", 
        # toma los dos valores y hace la media.
        
        if ((row['income_type'] == 'business') or (row['income_type'] == 'employee')) or (row['income_type'] == 'civil servant'):
            
            income_mean1 = non_null_table[(non_null_table['income_type']== income_type)&
                                             (non_null_table['age_category']== age)]['total_income'].median()
            
            income_mean2 = non_null_table[(non_null_table['education_id']== education)&
                                             (non_null_table['age_category']== age)]['total_income'].median()

            row['total_income'] = (income_mean1 + income_mean2)/2
            
            return row['total_income']
        
        # Si es el valor de tipo de ingresos es otro, toma directamente la mediana de esos valores, 
        # porque son valores que se salen de las medias.
        
        else:
            
            row['total_income'] = non_null_table[(non_null_table['income_type']== income_type)&
                                             (non_null_table['age_category']== age)]['total_income'].median()
            
            return row['total_income']

    else:
        return total_income

La función utiliza los valores de la tabla `non_null_table` que creamos antes para obtener valores de `total_income` según distintos factores.


In [383]:
# Comprueba si funciona

row_values = [1, '25-39', 'employee', 0] # El valor 1 corresponde a "secondary education"
row_columns = ['education_id', 'age_category', 'income_type', 'total_income']
row = pd.Series(data=row_values, index=row_columns)

print(complete_income(row))

22831.219


Si comprobamos la tabla de medianas en función del nivel de estudios y la edad, vemos que el valor de "secondary education" en la columna "25-39" es _22678.9820_ y, por otro lado, si comprobamos la tabla de medianas en función del tipo de ingresos, vemos que el valor de "employee" en la columna "25-39" es _22983.456_. Si sumamos ambos y los dividimos entre 2, nos da como resultado _22831.219_. Lo podemos demostrar en el siguiente cuadro:

In [385]:
# Demostración
value = 22678.9820 + 22983.456
print(f'La suma es: {value}\n')
print(f'La media es: {value/2}')

La suma es: 45662.437999999995



La media es: 22831.218999999997


In [386]:
# Aplícalo a cada fila
df_test = credit_scoring # Hago la prueba con un df de prueba para no alterar el df original
df_test['total_income']=df_test['total_income'].fillna(0)

df_test['total_income'] = df_test.apply(complete_income_test, axis=1)

In [387]:
# Comprueba si tenemos algún error
df_test.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,purpose_category,income_rank
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-54,property,35000-49999
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-39,car,10000-24999
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-39,property,10000-24999
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-39,education,35000-49999
4,0,2762.813,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-54,wedding,25000-34999
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,25-39,property,35000-49999
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-54,property,35000-49999
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,40-54,education,10000-24999
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,25-39,wedding,10000-24999
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-54,property,10000-24999


Probamos a mostrar las 50 primeras filas en busca de algún error, pero viendo algunas filas que tienen el valor `days_employed` nulo, se puede ver que el valor de `total_income` se ha rellenado adecuadamente.

Ahora que no hay errores, igualo el df de prueba con el conjunto de datos original para rellenar los valores ausentes de `total_income`


In [358]:
# Pasamos los datos al df original
credit_scoring = df_test


Finalmente, comprobamos el número de entradas en la columna `total_income` con el fin de que coincida con el del resto de columnas.


In [359]:
# Comprobar el número de entradas en las columnas
credit_scoring.info()


<class 'pandas.core.frame.DataFrame'>

RangeIndex: 21454 entries, 0 to 21453

Data columns (total 13 columns):

 #   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

 0   children          21454 non-null  int64  

 1   days_employed     19351 non-null  float64

 2   dob_years         21454 non-null  float64

 3   education         21454 non-null  object 

 4   education_id      21454 non-null  int64  

 5   family_status     21454 non-null  object 

 6   family_status_id  21454 non-null  int64  

 7   gender            21454 non-null  object 

 8   income_type       21454 non-null  object 

 9   debt              21454 non-null  int64  

 10  total_income      21453 non-null  float64

 11  purpose           21454 non-null  object 

 12  age_category      21454 non-null  object 

dtypes: float64(3), int64(4), object(6)

memory usage: 2.1+ MB


###  Restaurar valores en `days_employed`. <a id='rest_days_employed'></a>

Ahora que ya tenemos los valores rellenos en la columna `total_income` es el turno de la columna `days_employed`. Generalmente el número de días trabajados será directamente proporcional a la edad del cliente, sin embargo, considero que los clientes con mayor número de hijos tendrán más estabilidad en el empleo y tambien es posible que el estado civil de la persona pueda influir en los días trabajados totales.

Tenemos que tener en cuenta que los clientes jubilados y dos datos de clientes desempleados tienen un valor desorbitado de días trabajados, que seguramente sea un error, por lo que haremos el cálculo de las métricas con los datos de días menores a 18250 días, que se correspondería con 50 años trabajados.

In [360]:
# Distribución de las medianas de `days_employed` en función del número de hijos
children_pivot_median = non_null_table[non_null_table['days_employed'] < 18250].pivot_table(
    index='children',
    columns='age_category',
    values='days_employed',
    aggfunc='median'
)

children_pivot_median

age_category,18-24,25-39,40-54,55-69,70+
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,711.86956,1354.576679,2105.881071,2454.611916,2598.981129
1,815.788985,1421.482409,1941.899252,2425.545642,4249.475971
2,896.691308,1532.507022,1994.384468,2837.232311,
3,1289.006087,1669.454217,2097.877948,1687.300565,
4,1126.226131,1866.426406,2924.266611,,
5,,773.124856,,1690.018117,


In [361]:
# Distribución de las medias de `days_employed` en función del número de hijos
children_pivot_mean = non_null_table[non_null_table['days_employed'] < 18250].pivot_table(
    index='children',
    columns='age_category',
    values='days_employed',
    aggfunc='mean'
)

children_pivot_mean

age_category,18-24,25-39,40-54,55-69,70+
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,828.271656,1744.762825,2917.200982,3551.631814,4176.043649
1,894.34635,1859.065867,2650.002929,3755.971074,4514.47881
2,1104.871022,1917.855959,2681.93481,3869.656664,
3,1289.006087,2106.764846,2371.524953,1687.300565,
4,1126.226131,2139.974101,2722.926744,,
5,,1395.53867,,1690.018117,


Acabamos de encontrar la distribución de las medianas y las medias en función del número de hijos. Vamos a comprobar tambien la misma distribución en función del estado civil para decidir que métrica se corresponde mejor para rellenar los datos.


In [362]:
# Distribución de las medianas de `days_employed` en función del estado civil

children_pivot_median = non_null_table[non_null_table['days_employed'] < 18250].pivot_table(
    index='family_status',
    columns='age_category',
    values='days_employed',
    aggfunc='median'
)

children_pivot_median

age_category,18-24,25-39,40-54,55-69,70+
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
civil partnership,706.061626,1358.725817,1916.158562,2212.693768,4640.924471
divorced,681.749429,1198.181228,2013.540265,2601.319227,4673.19524
married,845.856785,1532.335471,2129.430666,2521.577498,1899.257071
unmarried,699.485368,1166.395654,1882.84212,2247.461723,10093.858479
widow / widower,223.547018,1612.392933,2331.334484,2600.622585,2964.222871


In [363]:
# Distribución de las medias de `days_employed` en función del estado civil

children_pivot_mean = non_null_table[non_null_table['days_employed'] < 18250].pivot_table(
    index='family_status',
    columns='age_category',
    values='days_employed',
    aggfunc='mean'
)

children_pivot_mean

age_category,18-24,25-39,40-54,55-69,70+
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
civil partnership,846.489624,1784.78706,2762.812798,3466.034779,4289.131785
divorced,638.378198,1767.495103,2754.693203,3282.683355,4673.19524
married,930.185206,1924.517907,2894.229989,3639.82077,3892.055722
unmarried,811.467584,1522.838015,2583.835386,3619.616555,10093.858479
widow / widower,223.547018,1976.848704,2938.826962,3494.146676,3227.725215


La distribución en función del número de hijos no nos arroja la información que esperaba, mientras que la distribución en función del estado familiar si es más acertada, ya que los clientes que están casados tienen de media una acumulación de días trabajados que aquellos en otro estado civil. Por lo tanto, utilizaremos esta métrica, y utilizaremos los valores medios ya que los valores medianos están muy distantes unos de otros y no consideros que representen una información más acertada.

In [364]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def complete_days_employed(row): # Nota: antes de usar la función se deben hacer 0 los valores ausentes
    
    age = row['age_category']
    family_status_id = row['family_status_id']
    days_employed = row['days_employed']
    
    if (row['days_employed'] == 0) or (row['days_employed']>18250):
        
        
        if family_status_id == 0:
            row['days_employed'] = non_null_table[((non_null_table['family_status_id']==0)&
                                                 (non_null_table['age_category']==age))&
                                                   (non_null_table['days_employed']<18250)]['days_employed'].mean()
            return round(row['days_employed'], 3)
    
        elif family_status_id == 1:
            row['days_employed'] = non_null_table[((non_null_table['family_status_id']==1)&
                                                 (non_null_table['age_category']==age))&
                                                   (non_null_table['days_employed']<18250)]['days_employed'].mean()
            return round(row['days_employed'], 3)
    
        elif family_status_id == 2:
            row['days_employed'] = non_null_table[((non_null_table['family_status_id']==2)&
                                                 (non_null_table['age_category']==age))&
                                                   (non_null_table['days_employed']<18250)]['days_employed'].mean()
            return round(row['days_employed'], 3)
    
        elif family_status_id == 3:
            row['days_employed'] = non_null_table[((non_null_table['family_status_id']==3)&
                                                 (non_null_table['age_category']==age))&
                                                   (non_null_table['days_employed']<18250)]['days_employed'].mean()
            return round(row['days_employed'], 3)
    
        elif family_status_id == 4:
            row['days_employed'] = non_null_table[((non_null_table['family_status_id']==4)&
                                                 (non_null_table['age_category']==age))&
                                                   (non_null_table['days_employed']<18250)]['days_employed'].mean()
            return round(row['days_employed'], 3)
    else:
        return days_employed

In [365]:
# Comprueba que la función funciona
row2_values = [0, '40-49', 0] # El valor 0 corresponde a "married"
row2_columns = ['family_status_id', 'age_category', 'days_employed']
row2 = pd.Series(data=row2_values, index=row2_columns)

print(complete_days_employed(row2))


nan


In [366]:
# Aplicar la función a cada fila
df_test2 = credit_scoring
df_test2['days_employed'] = df_test2['days_employed'].fillna(0)

df_test2['days_employed'] = df_test2.apply(complete_days_employed, axis=1)


In [367]:
# Comprueba si la función funcionó
df_test2.head(50)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-54
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-39
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-39
4,0,2762.813,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-54
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,25-39
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-54
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,40-54
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,25-39
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-54


In [368]:
# Reemplazar valores ausentes
credit_scoring = df_test2


Hemos repetido el proceso que utilizamos para sustituir los valores ausentes en la columna `total_income` siguiendo los mismos pasos.

Las función que hemos utilizado tiene practicamente la misma estructura, cambiando las variables a reemplazar y la forma de indexar el valor que necesitamos. Después hemos probado la función con un objeto Series de prueba, y finalmente a un conjunto de datos de prueba, para que en caso de aparecer errores, no afectase al conjunto original. 

Después se ha copiado en el conjunto de datos original y por último vamos a comprobar con el método `info()` si tenemos todas las columnas con entradas válidas.

In [369]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 21454 entries, 0 to 21453

Data columns (total 13 columns):

 #   Column            Non-Null Count  Dtype  

---  ------            --------------  -----  

 0   children          21454 non-null  int64  

 1   days_employed     21454 non-null  float64

 2   dob_years         21454 non-null  float64

 3   education         21454 non-null  object 

 4   education_id      21454 non-null  int64  

 5   family_status     21454 non-null  object 

 6   family_status_id  21454 non-null  int64  

 7   gender            21454 non-null  object 

 8   income_type       21454 non-null  object 

 9   debt              21454 non-null  int64  

 10  total_income      21453 non-null  float64

 11  purpose           21454 non-null  object 

 12  age_category      21454 non-null  object 

dtypes: float64(3), int64(4), object(6)

memory usage: 2.1+ MB


## Etapa 4. Clasificación de datos y prueba de hipótesis. <a id='hypotheses'></a>

Para poder responder y probar las diferentes hipótesis, necesitamos clasificar los datos. La clasificación se hará por número de hijos, situación familiar, propósito del crédito y nivel de ingresos. 

Empezaremos por clasificar los valores de la columna `purpose`.


Necesitamos clasificar el número de hijos, la situación familiar, nivel de ingresos y el propósito del crédito

In [370]:
# Muestra los valores de los datos seleccionados para la clasificación
print('Valores de la columna "purpose":')
print(credit_scoring['purpose'].describe())


Valores de la columna "purpose":

count                21454

unique                  38

top       wedding ceremony

freq                   791

Name: purpose, dtype: object


[Vamos a comprobar los valores únicos]

In [371]:
# Comprobar los valores únicos
credit_scoring['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Tenemos muchos valores que hacen referencia a lo mismo. Entre ellos podemos agruparlos en "compras inmobiliarias", "compra de coches", "educación" y "boda".

Por ello vamos a definir una función para clasificar estos valores dentro de una misma categoría y los colocaremos dentro de una columna llamada `purpose_category`.


In [372]:
# Escribamos una función para clasificar los datos en función de temas comunes
def purpose_category(string):
    if (('hous' in string) or ('real estate' in string)) or ('property' in string):
        return 'property'
    elif 'car' in string:
        return 'car'
    elif ('educat' in string) or ('university' in string):
        return 'education'
    elif 'wedding' in string:
        return 'wedding'
    

In [373]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit_scoring['purpose_category'] = credit_scoring['purpose'].apply(purpose_category)
credit_scoring.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,purpose_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-54,property
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-39,car
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-39,property
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-39,education
4,0,2762.813,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-54,wedding
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,25-39,property
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-54,property
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,40-54,education
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,25-39,wedding
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-54,property


Ya tenemos nuestro conjunto de datos en el que podemos hacer una clasificación de los datos mediante el propósito del crédito.

Vamos a hacer lo mismo para el nivel de ingresos de los clientes.

In [374]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
credit_scoring['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

Hay demasiados datos como para comprobarlos de forma única, mejor obtenemos las estadísticas del subconjunto.

In [375]:
# Obtener estadísticas resumidas para la columna
credit_scoring['total_income'].describe()


count     21453.000000
mean      26437.321512
std       15707.985596
min        3306.762000
25%       17211.711000
50%       22941.339000
75%       31331.009000
max      362496.645000
Name: total_income, dtype: float64

En base a los datos obtenidos previamente y los obtenidos en estas estadísticas, vamos a clasificar los niveles de ingresos en 5 niveles diferenciados entre si por una distancia definida por el valor de la desviación estándar:
- Menos de 10000
- 10000-24999
- 25000-34999
- 35000-49999
- Más de 49999


In [376]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def income_rank(income):
    if income < 10000:
        return 'less than 10000'
    elif 9999 < income < 25000:
        return '10000-24999'
    elif 24999 < income < 35000:
        return '25000-34999'
    elif 34999 < income < 50000:
        return '35000-49999'
    elif 49999 < income:
        return 'more than 49999'


In [377]:
# Crear una columna con categorías
credit_scoring['income_rank'] = credit_scoring['total_income'].apply(income_rank)
credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category,purpose_category,income_rank
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-54,property,35000-49999
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,25-39,car,10000-24999
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,25-39,property,10000-24999
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,25-39,education,35000-49999
4,0,2762.813,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,40-54,wedding,25000-34999
5,0,926.185831,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,25-39,property,35000-49999
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-54,property,35000-49999
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,40-54,education,10000-24999
8,2,6929.865299,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,25-39,wedding,10000-24999
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-54,property,10000-24999


In [378]:
# Contar los valores de cada categoría para ver la distribución
income_rank_percent = credit_scoring['income_rank'].value_counts()
income_rank_len = len(credit_scoring['income_rank'])

print('Distribución de los niveles de ingresos en tanto por ciento:')
print(round((income_rank_percent / income_rank_len)*100, 2))

Distribución de los niveles de ingresos en tanto por ciento:

10000-24999        52.22

25000-34999        24.49

35000-49999        12.81

more than 49999     6.15

less than 10000     4.32

Name: income_rank, dtype: float64


### Comprobación de las hipótesis. <a id='hypotheses_check'></a>


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [389]:
# Comprueba los datos sobre los hijos y los pagos puntuales
children_rate_debt = credit_scoring.pivot_table(
    index='children',
    columns='debt',
    values='gender',
    aggfunc='count'
)
print('Relación entre el número de hijos y los pagos puntuales:')
print(children_rate_debt)
print()

children_rate_debt = children_rate_debt.fillna(0)

# Calcular la tasa de incumplimiento en función del número de hijos
print('Tasa de impagos en función del número de hijos en tanto porciento:')
children_debts = children_rate_debt[1]
children_total_count = children_rate_debt[1] + children_rate_debt[0]

print(round((children_debts/children_total_count)*100, 2))


Relación entre el número de hijos y los pagos puntuales:

debt            0       1

children                 

0         13028.0  1063.0

1          4410.0   445.0

2          1926.0   202.0

3           303.0    27.0

4            37.0     4.0

5             9.0     NaN



Tasa de impagos en función del número de hijos en tanto porciento:

children

0    7.54

1    9.17

2    9.49

3    8.18

4    9.76

5    0.00

dtype: float64


**Conclusión**

Parece que el número de hijos no determina una mayor probabilidad de impago de una cuota, pero si es posible que la condición de tener un hijo o no tenerlo pueda suponer una mayor probabilidad.
Sin embargo, hay 9 clientes que tienen 5 hijos y todos ellos han sido puntuales a la hora de realizar el pago.

En definitiva, nuestra hipótesis no es cierta, ya que no hay una relación fiable entre el número de hijos y la puntualidad.



**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [380]:
# Comprueba los datos del estado familiar y los pagos a tiempo
family_status_rate_debt = credit_scoring.pivot_table(
    index=['family_status_id', 'family_status'],
    columns='debt',
    values='gender',
    aggfunc='count'
)
print('Relación entre la situación familiar y los pagos puntuales:')
print(family_status_rate_debt)
print()

# Calcular la tasa de incumplimiento basada en el estado familiar
print('Tasa de impagos en función de la situación familiar en tanto porciento:')
family_debts = family_status_rate_debt[1]
family_total_count = family_status_rate_debt[1] + family_status_rate_debt[0]

print(round((family_debts/family_total_count)*100, 2))


Relación entre la situación familiar y los pagos puntuales:

debt                                    0    1

family_status_id family_status                

0                married            11408  931

1                civil partnership   3763  388

2                widow / widower      896   63

3                divorced            1110   85

4                unmarried           2536  274



Tasa de impagos en función de la situación familiar en tanto porciento:

family_status_id  family_status    

0                 married              7.55

1                 civil partnership    9.35

2                 widow / widower      6.57

3                 divorced             7.11

4                 unmarried            9.75

dtype: float64


**Conclusión**

Encontramos que hay mayor probabilidad de ser impuntual en el pago si el cliente no está casado o no lo ha estado previamente, es decir, aquellos clientes que están solteros o tienen una unión civil. Por otra parte, aquellos que arrojan una menor tasa de incumplimiento de los pagos son aquellos clientes viudos.

Nuestra hipótesis se confirma y podemos dar una mayor o menor puntuación a los clientes en función de sus situación familiar.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [381]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
income_rate_debt = credit_scoring.pivot_table(
    index='income_rank',
    columns='debt',
    values='gender',
    aggfunc='count'
)
print('Relación entre el nivel de ingresos y los pagos puntuales:')
print(income_rate_debt)
print()


# Calcular la tasa de incumplimiento basada en el nivel de ingresos
print('Tasa de impagos en función del nivel del ingresos en tanto porciento:')
income_debts = income_rate_debt[1]
income_total_count = income_rate_debt[1] + income_rate_debt[0]

print(round((income_debts/income_total_count)*100, 2))



Relación entre el nivel de ingresos y los pagos puntuales:

debt                 0    1

income_rank                

10000-24999      10231  973

25000-34999       4835  420

35000-49999       2550  198

less than 10000    868   58

more than 49999   1228   92



Tasa de impagos en función del nivel del ingresos en tanto porciento:

income_rank

10000-24999        8.68

25000-34999        7.99

35000-49999        7.21

less than 10000    6.26

more than 49999    6.97

dtype: float64


**Conclusión**

Aquellos clientes que se encuentran en mitad de la tabla en base a su nivel de ingresos, como son los que tienen ingresos entre 10000 y 35000 son los que tienen una mayor probabilidad de se impuntuales en el pago. De forma inesperada, aquellos que tienen un menor nivel de ingresos (por debajo de 10000) tienen una menor tasa de incumplimiento frente a los que tienen un mayor nivel de ingresos, sin contar con aquellos que su nivel de ingresos es superior a 50000.

Podemos tomar esta hipótesis como acertada, pero otorgando una puntuación en base a los porcentajes que hemos obtenido en el estudio.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [382]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
purpose_rate_debt = credit_scoring.pivot_table(
    index='purpose_category',
    columns='debt',
    values='gender',
    aggfunc='count'
)
print('Relación entre el propósito del crédito y los pagos puntuales:')
print(purpose_rate_debt)
print()

print('Tasa de impagos en función del propósito del crédito en tanto porciento:')
purpose_debts = purpose_rate_debt[1]
purpose_total_count = purpose_rate_debt[1] + purpose_rate_debt[0]

print(round((purpose_debts/purpose_total_count)*100, 2))


Relación entre el propósito del crédito y los pagos puntuales:

debt                  0    1

purpose_category            

car                3903  403

education          3643  370

property          10029  782

wedding            2138  186



Tasa de impagos en función del propósito del crédito en tanto porciento:

purpose_category

car          9.36

education    9.22

property     7.23

wedding      8.00

dtype: float64


**Conclusión**

Observamos que aquellos clientes que pidieron el crédito para adquirir una propiedad o para financiar su boda son más puntuales que aquellos con otros fines.



## Conclusión general. <a id='end'></a>

Hemos probado las siguientes hipótesis:

1. Un número mayor de hijos no determina una mayor probabilidad de incumplimiento, mientras que la condición de tenerlos o no si que puede usarse para asignar una puntuación.
2. Los clientes con una mayor estabilidad familiar son más puntuales que aquellos que no.
3. Un nivel de ingresos más bajo que la media o más alto que la media suele coincidir con que los clientes son más puntuales con el pago de las cuotas que aquellos que tienen unos ingresos dentro de la media.
4. Los préstamos más serios como pueden ser la compra de una propiedad o la financiación de una boda tienen una mayor tasa de cumplimiento que otros propósitos.

Tras analizar los datos, concluimos:

1. Hubo un problema a la hora de introducir el recuento de días trabajados, ya que obteniamos valores negativos o valores irreales. Habría que contactar con la fuente de los datos para que revisasen el método de entrada de los mismos.

2. Para nuestro estudio nos encontramos que el 10% de los datos de días trabajados e ingresos totales estaba ausente. Se aplicaron medidas para completar esos datos, pero en realidad no considero que fuesen necesarios esos datos para el estudio, ya que no habrían afectado a las métricas de un conjunto tan grande.

