# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


**Tabla de contenidos**<a id='toc0_'></a>    
- 1. [Propósitos del proyecto](#toc1_)    
- 2. [Hipótesis](#toc2_)    
- 3. [Archivo de datos](#toc3_)    
- 4. [Exploración de datos](#toc4_)    
  - 4.1. [Análisis de características en común entre los clientes con valores ausentes](#toc4_1_)    
  - 4.2. [Conclusiones](#toc4_2_)    
- 5. [Transformación de datos](#toc5_)    
  - 5.1. [Análisis por columna](#toc5_1_)    
    - 5.1.1. [`education`](#toc5_1_1_)    
    - 5.1.2. [`children`](#toc5_1_2_)    
    - 5.1.3. [`days_employed`](#toc5_1_3_)    
    - 5.1.4. [`dob_years`](#toc5_1_4_)    
    - 5.1.5. [`family_status`](#toc5_1_5_)    
    - 5.1.6. [`gender`](#toc5_1_6_)    
    - 5.1.7. [`income_type`](#toc5_1_7_)    
    - 5.1.8. [`family_status`](#toc5_1_8_)    
    - 5.1.9. [Filas duplicadas](#toc5_1_9_)    
    - 5.1.10. [Resumen de cambios:](#toc5_1_10_)    
- 6. [Análisis de valores ausentes](#toc6_)    
  - 6.1. [`total_income`](#toc6_1_)    
    - 6.1.1. [Asignación de grupo de edad](#toc6_1_1_)    
    - 6.1.2. [Análisis de factores relacionados con el ingreso total](#toc6_1_2_)    
    - 6.1.3. [Reemplazo de valores ausentes](#toc6_1_3_)    
  - 6.2. [ `days_employed`](#toc6_2_)    
    - 6.2.1. [Análisis de factores relacionados con el ingreso total](#toc6_2_1_)    
    - 6.2.2. [Reemplazo de valores ausentes](#toc6_2_2_)    
- 7. [Clasificación de datos](#toc7_)    
- 8. [Comprobación de las hipótesis](#toc8_)    
- 9. [Conclusión general](#toc9_)    

<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=false
	minLevel=2
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## 1. <a id='toc1_'></a>[Propósitos del proyecto](#toc0_)
- Explorar la información provista con el fin de curar el conjunto de datos y alistarlo para su análisis.
- Encontrar y dar el respectivo tratamiento a valores ausentes y valores duplicados según la naturaleza de los datos y considerando las hipótesis a comprobar.
- Comprobar las hipótesis planteadas mediante clasificación de datos y estadística descriptiva.

## 2. <a id='toc2_'></a>[Hipótesis](#toc0_)
1. El número de hijos va a afectar negativamente el cumplimiento de pago del préstamo.
2. El estado civil es un factor relevante en el cumplimiento de pago del préstamo.

## 3. <a id='toc3_'></a>[Archivo de datos](#toc0_)

In [39]:
# Librerias
import pandas as pd
import numpy as np


In [40]:
# Lectura de archivo
try:
    credit_scoring = pd.read_csv('credit_scoring_eng.csv')
    
except:
    credit_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv')


## 4. <a id='toc4_'></a>[Exploración de datos](#toc0_)

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [41]:
print('El dataset tiene las siguientes dimensiones:')
credit_scoring.shape

El dataset tiene las siguientes dimensiones:


(21525, 12)

In [42]:
credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


<a id='toc1_4_1_'></a>[Observaciones:](#toc0_)
- Existen valores negativos en `days_deployed`, lo cual no es consistente con el tipo de variable que muestra esta columna.
- Existen duplicados implícitos en `education`, dados por distintas formas de escritura de una misma categoría.

In [43]:
# Obtengo información sobre los datos
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [44]:
credit_scoring.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

<a id='toc1_4_2_'></a>[Observaciones:](#toc0_)
- Las columnas `days_employed` y `total_income` presentan valores ausentes en exactamente la misma cantidad. El resto de columnas parecen tener datos completos.
- Podría parecer que las filas con valores ausentes en `days_employed` también tienen valores ausentes en `total_income`. Esto se comprobará a continuación. 

In [45]:
# Tabla filtrada con valores ausentes de la columna days_employed

na_rows = credit_scoring[credit_scoring['days_employed'].isna()]
print("Filas con valores ausentes en la columna 'days_employed':")
na_rows
  

Filas con valores ausentes en la columna 'days_employed':


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [46]:
# Compruebo con .equals() que las filas con valores NaN en days_employed son las mismas que las filas con Nan en total_income
na_rows.equals(credit_scoring[credit_scoring['total_income'].isna()])

True

- En efecto, las filas con valores ausentes en days_employed tienen también valores ausentes en total_income ya que, al hacer una tabla que filtra los valores NaN por cada columna, obtenemos en ambos casos las mismas filas.
- El resultado también muestra una tabla con un número de filas igual al número de valores NaN que se mostró arriba.

Esto se comprueba una vez más al filtrar la tabla por valores NaN usando múltiples condiciones:

In [47]:
# Filtro las filas con valores NaN en days_employed y total_income
credit_scoring.loc[credit_scoring['days_employed'].isna() & credit_scoring['total_income'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusión intermedia**
- Se conoce por medio del análisis anterior que los valores ausentes de las columnas `days_employed` y `total_income` son del mismo número cada una y están presentes en las mismas filas. Habiendo determinado esto, es preciso investigar si los datos ausentes se deben a una característica compartida entre los clientes dada por las variables categóricas o si dependen de una variable numérica.

A continuación, se determina qué proporción de todo el dataset representan las filas con valores ausentes identificadas.

In [48]:
print(f"Porcentaje de valores ausentes: {(credit_scoring['days_employed'].isna().sum()/credit_scoring['days_employed'].size):.2%}")

Porcentaje de valores ausentes: 10.10%


El porcentaje es importante, por lo tanto, se debe decidir cómo manejar estos valores sin afectar significativamente el análisis final. Dado que se busca analizar el impacto del número de hijos y el estado civil, estas variables con valores ausentes no deberían afectar la comprobación de las hipótesis. Por lo tanto, se podría dejarlos como están o reemplazarlos con un valor representativo de toda la población o grupos del conjunto de datos. Este análisis se desarrollará más adelante.

### 4.1. <a id='toc4_1_'></a>[Análisis de características en común entre los clientes con valores ausentes](#toc0_)

A continuación, identifico si los clientes con valores ausentes (na_rows) comparten alguna característica en común. Para ello, obtengo las 
frecuencias relativas según su característica en las columnas de variables categóricas `education`, `education_id`, `family_status`, `family_status_id`, `gender`, `income_type` y `debt`.

In [49]:
# Comprobación de la distribución por cada columna de variables categóricas
categorical_var = ['education', 'education_id', 'family_status', 'family_status_id', 'gender', 'income_type', 'debt']
for column in categorical_var:
    print(column)
    print(na_rows[column].value_counts(normalize=True))
    print('')

education
secondary education    0.647654
bachelor's degree      0.228151
SECONDARY EDUCATION    0.030819
Secondary Education    0.029899
some college           0.025299
Bachelor's Degree      0.011500
BACHELOR'S DEGREE      0.010580
primary education      0.008740
SOME COLLEGE           0.003220
Some College           0.003220
PRIMARY EDUCATION      0.000460
Primary Education      0.000460
Name: education, dtype: float64

education_id
1    0.708372
0    0.250230
2    0.031739
3    0.009660
Name: education_id, dtype: float64

family_status
married              0.568997
civil partnership    0.203312
unmarried            0.132475
divorced             0.051518
widow / widower      0.043698
Name: family_status, dtype: float64

family_status_id
0    0.568997
1    0.203312
4    0.132475
3    0.051518
2    0.043698
Name: family_status_id, dtype: float64

gender
F    0.682613
M    0.317387
Name: gender, dtype: float64

income_type
employee         0.508280
business         0.233671
retiree    

Se identifican, para su posterior estudio, dos características que trascienden entre el grupo de clientes con valores ausentes:
- El 92% de estos clientes no tienen deudas.
- El 71% de estos clientes tienen un `education_id` de valor 1, el cual corresponde a secondary education. Es importante destacar que secondary education está representada de distintas formas en la columna y, por tanto, se identifica a cada una como categorías distintas. Al sumar las proporciones de todas estas formas obtenemos la misma proporción que el valor 1 de `educación_id`. De esta forma, también se infiere que cada categoría de education está asociada a un valor de `education_id`.

El resto de características se comparte en menor proporción, por lo que su análisis será omitido.

**Posibles razones por las que hay valores ausentes en los datos**

Acorde a lo encontrado arriba, se podría suponer que los valores ausentes de los clientes tienen relación con la característica de no tener deudas o haber completado el nivel de educación secundaria (secundary education). Para comprobar esto, se comparan las distribuciones de estas características en los clientes con valores ausentes con las de todo el conjunto de datos:

In [50]:
debt_distr_comparison = pd.concat([na_rows["debt"].value_counts(normalize=True), credit_scoring['debt'].value_counts(normalize=True)], axis=1, sort=False)
debt_distr_comparison.columns = ['Clientes con nan', 'Todo el dataset']

educ_distr_comparison = pd.concat([na_rows["education_id"].value_counts(normalize=True), credit_scoring['education_id'].value_counts(normalize=True)], axis=1, sort=False)
educ_distr_comparison.columns = ['Clientes con nan', 'Todo el dataset']

print(f'Comparación de la distribución según debt en el conjunto de filas con NaN vs en todo el dataset: \n {debt_distr_comparison}')
print('')

print(f'Comparación de la distribución de clientes según education_id en el conjunto de filas con NaN vs en todo el dataset: \n {educ_distr_comparison}')
print('')


Comparación de la distribución según debt en el conjunto de filas con NaN vs en todo el dataset: 
    Clientes con nan  Todo el dataset
0          0.921803         0.919117
1          0.078197         0.080883

Comparación de la distribución de clientes según education_id en el conjunto de filas con NaN vs en todo el dataset: 
    Clientes con nan  Todo el dataset
0          0.250230         0.244367
1          0.708372         0.707689
2          0.031739         0.034564
3          0.009660         0.013101
4               NaN         0.000279



**Conclusión intermedia**

Las distribuciones de los clientes con valores ausentes tienen mucha similaridad con las distribuciones considerando todo el conjunto de datos para ambas columnas analizadas. Por lo tanto, se puede concluir que los valores ausentes tienen un origen completamente aleatorio que podría estar asociado a errores en la compilación de la información.


Una hipótesis adicional con respecto a los valores ausentes podría ser que no existen los valores de ingresos porque no se tienen días trabajados ya que el cliente no cuenta con empleo. Sin embargo, no hay suficiente información en el dataset para sustentar esta hipótesis. 

Al ordenar el conjunto de datos por la columna `total_income` no se puede establecer relación alguna entre ambas variable. Además, la información contenida en `income_type` podría decirnos que no necesariamente un cliente debe contar con un empleo para tener un ingreso. 

In [51]:
# Se ordena la tabla por total_income para verificar una posible relación positiva entre days_employed y total_income

credit_scoring[credit_scoring['total_income']>0].sort_values(by='total_income')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
14585,0,359219.059341,57,secondary education,1,married,0,F,retiree,1,3306.762,property
13006,0,369708.589113,37,secondary education,1,civil partnership,1,M,retiree,0,3392.845,going to university
16174,1,-3642.820023,52,Secondary Education,1,married,0,M,employee,0,3418.824,car purchase
1598,0,359726.104207,68,secondary education,1,civil partnership,1,M,retiree,0,3471.216,having a wedding
14276,0,346602.453782,61,secondary education,1,married,0,F,retiree,0,3503.298,property
...,...,...,...,...,...,...,...,...,...,...,...,...
17178,0,-5734.127087,42,bachelor's degree,0,civil partnership,1,M,business,0,273809.483,to have a wedding
20809,0,-4719.273476,61,secondary education,1,unmarried,4,F,employee,0,274402.943,purchase of the house for my family
9169,1,-5248.554336,35,secondary education,1,civil partnership,1,M,employee,0,276204.162,supplementary education
19606,1,-2577.664662,39,bachelor's degree,0,married,0,M,business,1,352136.354,building a property


### 4.2. <a id='toc4_2_'></a>[Conclusiones](#toc0_)

Se concluye que los valores ausentes tienen un origen aleatorio puesto que no es posible identificar características en común entre las filas que los contienen y que sean únicas con respecto al resto del conjunto de datos. Tampoco se puede determinar que existan relaciones entre las variables númericas que puedan explicar la presencia de los valores ausentes.

**Próximos pasos**

En esta primera fase de exploración de datos se encontraron valores ausentes de tipo aleatorio. Aunque no necesariamente interfieren el análisis para la comprobación de las hipótesis, se buscará darles el tratamiento más adecuado. 
Adicionalmente, se encontraron errores en los datos como nombres escritos de distinta forma o valores en columnas no consistentes con el tipo de variable que se describe. Debido a esto, se llevará a cabo un analisis para cada columna donde se buscará identificar y corregir estos y otros errores que se puedan encontrar.

## 5. <a id='toc5_'></a>[Transformación de datos](#toc0_)

### 5.1. <a id='toc5_1_'></a>[Análisis por columna](#toc0_)

#### 5.1.1. <a id='toc5_1_1_'></a>[`education`](#toc0_)

Se identifica que 'secondary education' de la columna `education` tiene distintas formas de escritura y, por lo tanto, se lee como distintas categorías:

In [52]:
credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Se arreglan los registros de la columna:

In [53]:
credit_scoring_clean = credit_scoring.copy()
credit_scoring_clean['education'] = credit_scoring_clean['education'].str.lower()

In [54]:
credit_scoring_clean['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

#### 5.1.2. <a id='toc5_1_2_'></a>[`children`](#toc0_)

Se revisan los registros de la columna children:

In [55]:
# Distribución de los valores en la columna `children`
credit_scoring['children'].value_counts().sort_index()

-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

- Se encuentran valores negativos que no son consistentes con la característica que se describe en esta columna.
- También se observa una cantidad de hijos en 76 clientes que podría ser inverosímil: 20 hijos, lo cual corresponde a valores atípicos. 

In [56]:
print(f"En conjunto, los datos representan el {credit_scoring.loc[(credit_scoring['children']<0) | (credit_scoring['children']>5)]['children'].count() / credit_scoring['children'].size:.2%} de todo el conjunto de datos.")

En conjunto, los datos representan el 0.57% de todo el conjunto de datos.


Los datos de esta columna son relevantes para la comprobación de una de las hipótesis. En cuanto a los valores negativos y los atípicos, estos se encuentran en una proporción pequeña y, por lo tanto, se elige eliminar las filas que los contienen porque asumir un valor que los reemplace podría causar interferencias en el análisis principal.

In [57]:
credit_scoring_clean = credit_scoring_clean.loc[(credit_scoring_clean['children']!=-1) & (credit_scoring_clean['children']!=20)]
credit_scoring_clean['children'].value_counts().sort_index()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

#### 5.1.3. <a id='toc5_1_3_'></a>[`days_employed`](#toc0_)

Se había identificado previamente que la columna contiene valores negativos, los cuales no son consistentes con el tipo de variable que los describe.

In [58]:
print(f"La cantidad de datos problemáticos es: {credit_scoring[credit_scoring['days_employed']<0]['days_employed'].count()}.")
print(f"Esto representa el: {credit_scoring[credit_scoring['days_employed']<0]['days_employed'].count()/credit_scoring['days_employed'].size:.2%} de todos los datos.")

credit_scoring[credit_scoring['days_employed']<0]

La cantidad de datos problemáticos es: 15906.
Esto representa el: 73.90% de todos los datos.


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


Se asume que los valores negativos pueden deberse a fallos en el registro de los datos. Se corrigen estos valores transformándolos a su valor absoluto. 

In [59]:
# Se transforman los datos de 'days_employed' a su valor absoluto.
credit_scoring_clean['days_employed'] = credit_scoring_clean['days_employed'].abs()

In [60]:
# Se comprueba el resultado
print(credit_scoring_clean['days_employed'].value_counts().sort_index())

24.141633        1
24.240695        1
30.195337        1
33.520665        1
34.701045        1
                ..
401663.850046    1
401674.466633    1
401675.093434    1
401715.811749    1
401755.400475    1
Name: days_employed, Length: 19240, dtype: int64


#### 5.1.4. <a id='toc5_1_4_'></a>[`dob_years`](#toc0_)

Se encuentra un grupo de 101 clientes con edad igual a 0, lo que representa un valor atípico y podría estar asociado a un error. Estos valores serán reemplazados por el promedio de edad de cada género.

In [61]:
# Conteo de clientes por edad
count_by_age = credit_scoring['dob_years'].value_counts().sort_index()
count_by_age

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Se calcula la edad media por género y se usan estos valores para reemplazar la edad igual a 0.

In [62]:
age_by_gender = credit_scoring.groupby('gender')['dob_years'].mean()
age_by_gender

gender
F      44.471972
M      40.993825
XNA    24.000000
Name: dob_years, dtype: float64

**Nota:** Se encuentra el valor "XNA" que no identifica a ningún género , este se abordará más adelante. 

In [63]:
# Se reemplaza edades igual a 0 por el promedio por género
credit_scoring_clean.loc[(credit_scoring_clean['dob_years']==0)  & (credit_scoring_clean['gender']=='M'),'dob_years'] = int(age_by_gender['M'])
credit_scoring_clean.loc[(credit_scoring_clean['dob_years']==0)  & (credit_scoring_clean['gender']=='F'),'dob_years'] = int(age_by_gender['F'])

In [64]:
# Comprobación del resultado
credit_scoring_clean['dob_years'].value_counts().sort_index()

19     14
20     51
21    110
22    183
23    252
24    263
25    356
26    406
27    490
28    501
29    543
30    536
31    556
32    506
33    577
34    597
35    614
36    553
37    531
38    595
39    572
40    632
41    603
42    592
43    510
44    614
45    494
46    469
47    480
48    536
49    505
50    509
51    446
52    483
53    457
54    476
55    441
56    482
57    457
58    461
59    441
60    376
61    353
62    351
63    268
64    263
65    194
66    183
67    167
68     99
69     83
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

#### 5.1.5. <a id='toc5_1_5_'></a>[`family_status`](#toc0_)

La columna `family_status` no parece tener problemas.

In [65]:
credit_scoring['family_status'].value_counts(dropna=False)

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

#### 5.1.6. <a id='toc5_1_6_'></a>[`gender`](#toc0_)

Se encuentra un valor que no identifica a ningún genero. Este pudo deberse a que un cliente no declaró su género. Ya que no interfiere con la comprobación de las hipótesis, no se realizarán modificaciones sobre este valor.

In [66]:
# Veamos los valores en la columna
credit_scoring['gender'].value_counts(dropna=False)

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [67]:
credit_scoring_clean[credit_scoring_clean['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate



#### 5.1.7. <a id='toc5_1_7_'></a>[`income_type`](#toc0_)

La columna `income_type` no parece tener problemas.

In [68]:
# Veamos los valores en la columna
credit_scoring['income_type'].value_counts(dropna=False)

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

#### 5.1.8. <a id='toc5_1_8_'></a>[`family_status`](#toc0_)

La columna `family_status` no parece tener problemas.

In [69]:
# Veamos los valores en la columna
credit_scoring['family_status'].value_counts(dropna=False)

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

#### 5.1.9. <a id='toc5_1_9_'></a>[Filas duplicadas](#toc0_)

Se verifica la cantida de filas duplicadas.

In [70]:
# Comprobar los duplicados
print(f'La cantidad de filas duplicadas es: {credit_scoring_clean[credit_scoring_clean.duplicated()].shape[0]}')
print(f'Esto es el {credit_scoring_clean[credit_scoring_clean.duplicated()].shape[0] / credit_scoring_clean.shape[0]:.2%} de todo el conjunto de datos')
print('')
credit_scoring_clean[credit_scoring_clean.duplicated()]

La cantidad de filas duplicadas es: 71
Esto es el 0.33% de todo el conjunto de datos



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


Se eliminan las filas duplicadas. La muestra es de un tamaño pequeño en relación a todo el conjunto de datos y no es posible determinar si las filas duplicadas son el mismo cliente o de clientes distintos cuya información coincide. 

In [71]:
credit_scoring_clean = credit_scoring_clean.drop_duplicates().reset_index(drop=True)

In [72]:
# Comprobación
print(f'La cantidad de filas duplicadas ahora es: {credit_scoring_clean[credit_scoring_clean.duplicated()].shape[0]}')

La cantidad de filas duplicadas ahora es: 0


Finalmente, se comprueba el tamaño del conjunto de datos limpio.

In [73]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
print(f'Tamaño antes: {credit_scoring.shape}')
print(f'Tamaño después: {credit_scoring_clean.shape}')

Tamaño antes: (21525, 12)
Tamaño después: (21331, 12)


#### 5.1.10. <a id='toc5_1_10_'></a>[Resumen de cambios:](#toc0_)

- Se arreglaron los registros de la columna `education` al transformar los string a minúsculas.
- Se eliminaron filas con valores negativos y valores atípicos en la columna `children`. 
- Se transformaron los valores de la columna `days_employed` a su valor absoluto para eliminar valores negativos.
- Se reemplazaron los valores de edad 0 en `dob_years` por promedios de edad por género.
- Se mantiene el valor "XNA" en `gender` ya que no interferirá con los análisis posteriores.
- No se identificaron problemas en el resto de columnas. 

## 6. <a id='toc6_'></a>[Análisis de valores ausentes](#toc0_)

### 6.1. <a id='toc6_1_'></a>[`total_income`](#toc0_)

Como se identificó previamente, la columna `total_income` contiene un total de 2174 valores ausentes al igual que en `days_employed`. Para abordar estos valores ausentes, se realizarán estadísticas por grupo de características.


#### 6.1.1. <a id='toc6_1_1_'></a>[Asignación de grupo de edad](#toc0_)

In [75]:
# Función que calcula la categoría de edad
def assign_age_group(age):
    if age < 18 or pd.isna(age):
        return 'NA'
    elif age < 30:
        return '18-29'
    elif age < 40:
        return '30-39'
    elif age < 50:
        return '40-49'
    elif age < 60:
        return '50-59'
    elif age < 70:
        return '60-69'
    else:
        return '70+'


In [76]:
# Verificación
print(assign_age_group(15)) 
print(assign_age_group(26)) 
print(assign_age_group(32))
print(assign_age_group(49))
print(assign_age_group(55))
print(assign_age_group(63))
print(assign_age_group(90))

NA
18-29
30-39
40-49
50-59
60-69
70+


In [77]:
# Se aplica la función al conjunto de datos
credit_scoring_clean['age_group'] = credit_scoring_clean['dob_years'].apply(assign_age_group)

credit_scoring_clean.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,18-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


#### 6.1.2. <a id='toc6_1_2_'></a>[Análisis de factores relacionados con el ingreso total](#toc0_)

In [78]:
# Tabla sin valores ausentes para crear grupos y hacer estadística
no_nan_df = credit_scoring_clean.dropna()
no_nan_df.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59


Como variables que pueden estar relacionadas con el ingreso total se seleccionan el grupo de edad, el nivel de educación y el género. Se observa los valores de medias según el género y la educación. También se observan las medianas según varias combinaciones de grupos.

In [79]:
# Valores medios de los ingresos según características seleccionadas

no_nan_df.groupby(['gender', 'education'])['total_income'].mean()

gender  education          
F       bachelor's degree      30322.572760
        graduate degree        29345.394000
        primary education      19118.479588
        secondary education    22659.884913
        some college           26482.665990
M       bachelor's degree      39036.868277
        graduate degree        27267.340000
        primary education      23798.931664
        secondary education    28292.656373
        some college           33196.072494
XNA     some college           32624.825000
Name: total_income, dtype: float64

In [80]:
# Valores medianos de los ingresos según características seleccionadas
no_nan_df.groupby(['education'])['total_income'].median()

education
bachelor's degree      28086.5425
graduate degree        25161.5835
primary education      18741.9760
secondary education    21829.3420
some college           25664.1810
Name: total_income, dtype: float64

In [81]:
# Valores medianos de los ingresos considerando más características
no_nan_df.groupby(['gender', 'education'])['total_income'].median()

gender  education          
F       bachelor's degree      26074.0350
        graduate degree        29345.3940
        primary education      17223.9615
        secondary education    20076.7770
        some college           22862.0185
M       bachelor's degree      32728.0740
        graduate degree        25161.5835
        primary education      21204.0860
        secondary education    25437.3310
        some college           29973.6640
XNA     some college           32624.8250
Name: total_income, dtype: float64

In [82]:
# Valores medianos de los ingresos considerando más características
medians_by_group = no_nan_df.groupby(['gender','age_group', 'education'])['total_income'].median()
medians_by_group

gender  age_group  education          
F       18-29      bachelor's degree      23481.1275
                   primary education      17781.3660
                   secondary education    18130.7060
                   some college           19925.4750
        30-39      bachelor's degree      26214.1740
                   graduate degree        17822.7570
                   primary education      18962.6750
                   secondary education    20628.6940
                   some college           25298.5690
        40-49      bachelor's degree      27631.7065
                   primary education      21215.4590
                   secondary education    21131.8900
                   some college           28377.3840
        50-59      bachelor's degree      27112.8490
                   primary education      16220.4855
                   secondary education    20145.4280
                   some college           20531.8480
        60-69      bachelor's degree      24738.4660
       

Finalmente, se seleccionan las medianas por género, grupo de edad y educación para reemplazar los valores ausentes de `total_income` ya que pueden ser los más representativos para cada subpoblación del conjunto de datos. También se elige usar medianas porque, acorde con la naturaleza de total de ingresos, pueden existir valores atípicos en los datos y la mediana representa mejor este tipo de distribuciones. 

#### 6.1.3. <a id='toc6_1_3_'></a>[Reemplazo de valores ausentes](#toc0_)

In [83]:
#  Función para completar los valores ausentes

def fill_total_income(df):
    medians_by_group = no_nan_df.groupby(['gender', 'age_group' , 'education'])['total_income'].median().reset_index()
    df = pd.merge(df, medians_by_group, on=['gender',  'age_group' , 'education'], how='left', suffixes=('', '_median'))
    df['total_income'] = df['total_income'].fillna(df['total_income_median'])
    df = df.drop(['total_income_median'], axis=1)
    return df

In [84]:
# Verificación con df con NAN y con df con valor de ingreso total cualquiera
row_values = [['M', '18-29', "secondary education", np.nan]]
row_columns = ['gender','age_group', 'education', 'total_income']
row = pd.DataFrame(data=row_values, columns=row_columns)
print(fill_total_income(row))
row_values = [['M', '18-29', "secondary education", 32123]]
row_columns = ['gender','age_group', 'education', 'total_income']
row = pd.DataFrame(data=row_values, columns=row_columns)
print(fill_total_income(row))


  gender age_group            education  total_income
0      M     18-29  secondary education     24662.609
  gender age_group            education  total_income
0      M     18-29  secondary education         32123


Se comprueba que la función funciona porque cuando hay un valor nan, este se reemplaza por la mediana correspondiente. Cuando el valor no es nan, se mantiene el mismo valor.

In [85]:
# Se aplica al función al conjunto de datos

credit_scoring_clean = fill_total_income(credit_scoring_clean)


In [86]:
#Se compruueba que ya no existan valores ausentes en total_income
credit_scoring_clean.isna().sum()

children               0
days_employed       2091
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
dtype: int64

In [87]:
# Se comprueba si hay algún error
# Se llama a una fila que antes tenia un valor nan en total_income, este se reemplazó por la mediana correspondiente

credit_scoring_clean.loc[12]

children                              0
days_employed                       NaN
dob_years                            65
education           secondary education
education_id                          1
family_status         civil partnership
family_status_id                      1
gender                                M
income_type                     retiree
debt                                  0
total_income                  20242.912
purpose               to have a wedding
age_group                         60-69
Name: 12, dtype: object

### 6.2. <a id='toc6_2_'></a>[ `days_employed`](#toc0_)

#### 6.2.1. <a id='toc6_2_1_'></a>[Análisis de factores relacionados con el ingreso total](#toc0_)

Se selecciona el grupo de edad y el tipo de ingreso como las características que podrían estar relacionadas con el tiempo de trabajo. Se obtienen las medias y medianas según la combinación de estos grupos.

In [88]:
# Distribución de las medianas de `days_employed` en función de las característica seleccionadas

no_nan_df.groupby(['age_group', 'income_type'])['days_employed'].median()

age_group  income_type                
18-29      business                          911.560492
           civil servant                    1347.000995
           employee                         1009.831544
           entrepreneur                      520.848083
           retiree                        370586.391585
           student                           578.751554
30-39      business                         1536.208255
           civil servant                    2590.601064
           employee                         1526.991507
           paternity / maternity leave      3296.759962
           retiree                        365336.560325
           unemployed                     337524.466835
40-49      business                         1891.062856
           civil servant                    3610.271679
           employee                         1884.988495
           retiree                        366698.813517
           unemployed                     395302.838654
50-59    

In [89]:
# Distribución de las medias de `days_employed` en función de las característica seleccionadas

means_by_group = no_nan_df.groupby(['age_group', 'income_type'])['days_employed'].mean()
means_by_group

age_group  income_type                
18-29      business                         1130.490369
           civil servant                    1583.588546
           employee                         1202.987737
           entrepreneur                      520.848083
           retiree                        362434.669680
           student                           578.751554
30-39      business                         1859.178354
           civil servant                    2759.727301
           employee                         2008.764547
           paternity / maternity leave      3296.759962
           retiree                        365461.247788
           unemployed                     337524.466835
40-49      business                         2475.266127
           civil servant                    4067.590453
           employee                         2657.373459
           retiree                        366613.959087
           unemployed                     395302.838654
50-59    

Para este caso, se utilizarán las medias ya que se asume que la información de `days_employed` tiene una distribución más simétrica y, por tanto, la media se sitúa como la mejor opción. 

#### 6.2.2. <a id='toc6_2_2_'></a>[Reemplazo de valores ausentes](#toc0_)

In [90]:
#  Función para completar los valores ausentes
def fill_days_employed(df):
    means_by_group = no_nan_df.groupby(['age_group', 'income_type'])['days_employed'].mean().reset_index()
    df = pd.merge(df, means_by_group, on=['age_group', 'income_type'], how='left', suffixes=('', '_mean'))
    df['days_employed'] = df['days_employed'].fillna(df['days_employed_mean'])
    df = df.drop(['days_employed_mean'], axis=1)
    return df


In [91]:
# Verificación con df con NAN y con df con valor de days employed cualquiera
row_values = [['M', '18-29', "business", np.nan]]
row_columns = ['gender','age_group', 'income_type', 'days_employed']
row = pd.DataFrame(data=row_values, columns=row_columns)
print(fill_days_employed(row))
row_values = [['M', '18-29', "employee", 32123]]
row_columns = ['gender','age_group', 'income_type', 'days_employed']
row = pd.DataFrame(data=row_values, columns=row_columns)
print(fill_days_employed(row))


  gender age_group income_type  days_employed
0      M     18-29    business    1130.490369
  gender age_group income_type  days_employed
0      M     18-29    employee          32123


Se comprueba que la función funciona porque cuando hay un valor nan, este se reemplaza por la media correspondiente. Cuando el valor no es nan, se mantiene el mismo valor.

In [92]:
# Se aplica al función al conjunto de datos
credit_scoring_clean = fill_days_employed(credit_scoring_clean)
credit_scoring_clean

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21326,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49
21327,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69
21328,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39
21329,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39


In [93]:
#Se compruueba que ya no existan valores ausentes en days_employed
credit_scoring_clean.isna().sum()

children            0
days_employed       1
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [94]:
# Se revisa la fila que aún contiene un valor ausente
credit_scoring_clean[credit_scoring_clean['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
5903,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,32057.227,buy residential real estate,50-59


El valor NaN de esta fila no fue reemplazado porque no existe una mediana para el grupo de edad '50-59' y de tipo de ingreso 'entrepreneur'. En su lugar, se aplica la media del mismo grupo de edad y con tipo de ingreso 'business'.

In [95]:
credit_scoring_clean.loc[5903, 'days_employed'] = means_by_group['50-59', 'business']
# Se verifica que ya no hay valores ausentes
credit_scoring_clean.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

Finalmente, se comprueba que las columnas ya no tienen valores ausentes:

In [96]:
credit_scoring_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21330
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21331 non-null  int64  
 1   days_employed     21331 non-null  float64
 2   dob_years         21331 non-null  int64  
 3   education         21331 non-null  object 
 4   education_id      21331 non-null  int64  
 5   family_status     21331 non-null  object 
 6   family_status_id  21331 non-null  int64  
 7   gender            21331 non-null  object 
 8   income_type       21331 non-null  object 
 9   debt              21331 non-null  int64  
 10  total_income      21331 non-null  float64
 11  purpose           21331 non-null  object 
 12  age_group         21331 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.8+ MB


## 7. <a id='toc7_'></a>[Clasificación de datos](#toc0_)

Se realiza una clasificación según el número de hijos para simplificar la comprobación de las hipótesis. La clasificación será de la siguiente forma: 
- **Cero hijos** - 'no children'
- **Entre 1 y 2 hijos** - 'few children'
- **Entre 3 y 5 hijos** - 'Several children'

In [97]:
# Muestra los valores de los datos seleccionados para la clasificación

def assign_family_size(children):
    if children < 1: 
        return 'no children'
    elif children < 3:
        return 'few children'
    else:
        return 'several children'

credit_scoring_clean['family_size'] = credit_scoring_clean['children'].apply(assign_family_size)
credit_scoring_clean

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,family_size
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49,few children
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39,few children
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39,no children
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39,several children
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59,no children
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21326,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49,few children
21327,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69,no children
21328,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39,few children
21329,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39,several children


Según el conteo de clientes por `family_size`, el grupo de 'no children' es el más numeroso seguido del grupo de 'few children', o sea, de clientes con entre 1 y 2 hijos. El grupo 'several children' de entre 3 y 5 hijos es el más pequeño.

In [98]:
credit_scoring_clean['family_size'].value_counts()

no children         14091
few children         6860
several children      380
Name: family_size, dtype: int64

Según el conteo de clientes por `family_status`, el grupo de los casados es el más númeroso, seguido de los que mantienen una unión civil. Este conteo, al igual que el anterior, mostrará cuán representativos serán los resultados que comprobarán las hipótesis.

In [99]:
credit_scoring_clean['family_status'].value_counts()

married              12261
civil partnership     4134
unmarried             2796
divorced              1189
widow / widower        951
Name: family_status, dtype: int64

## 8. <a id='toc8_'></a>[Comprobación de las hipótesis](#toc0_)


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

Para conocerlo, se crea una tabla dinámica que muestre la proporción de clientes que según la columna `debt` han tenido pagos incumplidos según su categoría de cantidad de hijos. Como el incumplimiento se representa con un valor de 1 y el cumplimiento con 0, la proporción de clientes con pagos incumplidos equivaldrá a obtener las medias.

In [100]:
# Tasa de incumplimiento en función del número de hijos
pivot_table1 = credit_scoring_clean.pivot_table(index='family_size', values='debt', aggfunc='mean').sort_values('debt')
pivot_table1['debt'] = pivot_table1['debt'].map('{:.2%}'.format)
pivot_table1


Unnamed: 0_level_0,debt
family_size,Unnamed: 1_level_1
no children,7.54%
several children,8.16%
few children,9.30%


**Conclusión**

Según los resultados, el grupo de clientes sin hijos 'no children' tiene la menor proporción de clientes con pagos incumplidos. Mientras, el grupo con mayor proporción de incumplimiento es 'few children', que tienen entre 1 y 2 hijos. Este resultado podría indicar que no tener hijos ayuda al cumplimiento de pagos. Sin embargo, no parece mostrar que a mayor número de hijos, mayor será el incumplimiento. Cabe destacar que el número de clientes por grupo difere entre sí y los resultados podrían ser más representativos para el grupo de tamaño mayor, en este caso, el grupo de 'no children'.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

Para conocerlo, se crea una tabla dinámica que muestre la proporción de clientes que según la columna `debt` han tenido pagos incumplidos según su categoría de `family_status`. De nuevo, como el incumplimiento se representa con un valor de 1 y el cumplimiento con 0, la proporción de clientes con pagos incumplidos equivaldrá a obtener las medias.

In [101]:
# Tasa de incumplimiento en función del número de hijos
pivot_table1 = credit_scoring_clean.pivot_table(index='family_status', values='debt', aggfunc='mean').sort_values('debt')
pivot_table1['debt'] = pivot_table1['debt'].map('{:.2%}'.format)
pivot_table1


Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
widow / widower,6.62%
divorced,7.06%
married,7.56%
civil partnership,9.31%
unmarried,9.76%


**Conclusión**

Según los resultados, el grupo de los solteros 'unmarried'  tiene la proporción de incumplimiento más alta seguido del grupo que mantiene unión civil 'civil partnership', mientras que el grupo de viudos 'widow / widower' tiene el incumplimiento más bajo. 

Este resultado sí podría indicar una relación entre el estado civil de los clientes y el incumplimiento de los pagos. La relación podría consistir en que quienes mantienen o mantuvieron en el pasado un matrimonio son más proclives a cumplir pagos que los que están solteros o en unión civil. 

Cabe destacar que el número de clientes por grupo difere entre sí y los resultados podrían ser más representativos para el grupo de tamaño mayor, en este caso, el grupo de 'married'.

## 9. <a id='toc9_'></a>[Conclusión general](#toc0_)

En la etapa de la **exploración de datos** se encontraron valores ausentes en las columnas `days_employed` y `total_income` de los cuales se concluye que tienen un origen aleatorio puesto que no es posible identificar características en común entre las filas que los contienen y únicas con respecto al resto del conjunto de datos. Tampoco se puede determinar que existan relaciones entre las variables númericas que puedan explicar la presencia de los valores ausentes.

En la etapa de **transformación de datos**, los valores en los cuales se encontraron errores se abordaron mediante el arreglo de registros, eliminación de filas, transformación a valor absoluto o el reemplazo por las medias, cada acción se realizó según la columna analizada. 

Los **valores ausentes** de `days_employed` y `total_income` se reemplazaron por la medida estadística adecuada según el grupo de factores que podrían tener relación con esta variable.

En cuanto a las **hipótesis planteadas**, los resultados indican que no tener hijos podría ayudar al cumplimiento de los pagos. Sin embargo, no parecen mostrar que a mayor número de hijos, mayor será el incumplimiento. Por otro lado, sí podría existir una relación entre el estado civil de los clientes y el incumplimiento de los pagos. La relación podría consistir en que quienes mantienen o mantuvieron en el pasado un matrimonio son más proclives a cumplir pagos que los que están solteros o en unión civil.
