# Contents <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusions](#data_review_conclusions)
    * [Conclusión intermedia](#conclusions_of_the_mid-term_data_review)
* [Etapa 2. Procesamiento de datos](#data_preprocessing)
    * [Trabajar con valores ausentes](#missing_values) 
* [Etapa 3. Prueba de hipótesis](#hypotheses)
* [Conclusión general](#end)

# Análisis del riesgo de incumplimiento de los prestatarios
## Introducción <a id='intro'></a>
Este proyecto consiste en preparar un informe para la división de préstamos de un banco y averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. Al mismo tiempo analizaremos si la **puntuación de crédito** permitira evaluar la capacidad de un prestatario potencial para pagar su préstamo.

### Objetivo: 
Prueba de cuatro hipótesis
1. Determinar si el número de hijos se relaciona con el pago a tiempo de un préstamo.
2. Establecer la relación entre el estado civil y el pago a tiempo de un préstamo.
3. Relacionar el nivel de ingresos con el pago a tiempo de un préstamo.
4. Identificar los propósitos del préstamo.

### Etapas 
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/credit_scoring_eng.csv`. No hay ninguna información sobre la calidad de los datos así que necesitarás examinarlos antes de probar las hipótesis. 

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

### Hipótesis

1. Las personas de mayor edad son mejores pagando a tiempo el préstamo.
2. Los usuarios con más hijos tienen realizan el pago a tiempo del préstamo ya que se ven más comprometidos con la deuda.
2. Las personas casadas pagan a tiempo su préstamo.
3. A mayor ingresos realizan el pago a tiempo del préstamo.
4. Los usuarios que solicitan el préstamo para adquirir bienes inmuebles son los que pagan el préstamo a tiempo.

## Etapa 1. Descripción de los datos <a id='data_review'></a>

In [520]:
import pandas as pd

In [521]:
bank_credit = pd.read_csv("C:/Users/fany/Downloads/Proyectos/proyecto 2/credit_scoring_eng (1).csv")

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

<div class="alert alert-block alert-info">
<b>ya atendi esta observacion</b> <a class="tocSkip"></a>
</div>

In [522]:
bank_credit.shape



(21525, 12)

In [523]:
# muestra la información general del dataframe
bank_credit.info() 
bank_credit #muestra las cinco primeras y las cinco últimas filas 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


*Conclusión
A partir de nuestra observación inicial de los datos utilizando el método info() de panda, podemos ver que dos columnas tienen menos valores no nulos que el resto: **'days_employed'**, y **'total_income'**, con valores 19351, frente a 21525. Habrá que rellenar los 2000 valores nulos de cada columna.*

In [524]:
bank_credit.describe(include= "all").reset_index()

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,19351.0,21525
1,unique,,,,15,,5,,3,8,,,38
2,top,,,,secondary education,,married,,F,employee,,,wedding ceremony
3,freq,,,,13750,,12380,,14236,11119,,,797
4,mean,0.538908,63046.497661,43.29338,,0.817236,,0.972544,,,0.080883,26787.568355,
5,std,1.381587,140827.311974,12.574584,,0.548138,,1.420324,,,0.272661,16475.450632,
6,min,-1.0,-18388.949901,0.0,,0.0,,0.0,,,0.0,3306.762,
7,25%,0.0,-2747.423625,33.0,,1.0,,0.0,,,0.0,16488.5045,
8,50%,0.0,-1203.369529,42.0,,1.0,,0.0,,,0.0,23202.87,
9,75%,1.0,-291.095954,53.0,,1.0,,1.0,,,0.0,32549.611,


### Conclusiones <a id='data_review_conclusions'></a> 

En la tabla anterior, ya hablamos acerca de las columna **days_employed** y **total income**, sin embargo usando este metodo .describe() se púede apreciar que la columna **children** poseen valores negativos, y **dob_years** su valor mínimo es cero, esto debe corregirse también ya que la edad no puede ser cero. tambien se aprecia que casi en todas las columnas hay datos NaN (Not at Number)


- `Children`: no hay problemas obvios.
- `Days employed`: además de valores nulos, hay valores negativos. Hay que convertirlos en valores positivos. También hay valores irreales de datos como 340266,072047 y 400281,136913. También hay que cambiarlos. El tipo también se puede convertir de float a int, ya que sólo estamos contando días.
- `DOB Years`: no hay problemas obvios.
- `Education`: las cadenas no están normalizadas. Hay que normalizar los valores de las cadenas.
- `Education ID`: No hay problemas obvios.
- `Family status/Family ID`: La situación familiar es similar a la educación, una variable categórica que corresponde a un ID. No hay problemas obvios con estas filas. 
- `Gender`: Variable categórica binaria. El único problema es que la gente podría tener un problema con el género binario. Tal vez podamos añadir más géneros a la categoría :) por lo demás, no hay problemas obvios.
- `Income Type`: no hay problemas obvios.
- `Debt`: binario con 0 representando que no hay impagos en los préstamos, y 1 representando los impagos pasados en los préstamos. No hay problemas obvios.
- `Total Income`: valores nulos.
- `Purpose`: cadena aleatoria introducida por el usuario.
  
---
Basado en nuestra toma inicial de los datos, estas siguientes columnas necesitan ser arregladas, o trabajadas antes de que podamos analizar los datos: 
**Days employed**, **Education**, **Total income**, **Purpose**

[Volver a Contenidos](#back)

Empecemos por rellenar los valores que faltan en **"days_employed"** e **"total_income"**. Como ambas son variables cuantitativas, por ahora rellenaremos los valores nulos con el valor medio de la columna.

La columna **"days_employed"** necesita que los valores negativos se cambien a positivos, y que los valores irreales se cambien a valores realistas antes de que podamos determinar con precisión la media.

En el futuro, si queremos utilizar estas columnas para el análisis de datos, como la búsqueda de una correlación entre los días de empleo y los ingresos totales, es posible que tengamos que pedir a los desarrolladores que encuentren los valores nulos para determinar los datos con mayor precisión.

In [525]:
# Se muestra la tabla filtrada con valores ausentes de la columna days_employed 

bank_credit[bank_credit['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Aqui se puede observar 2174 valores ausentes cuyos valores de la columna **days_employed** tambien son los mismos que la columna **total_income**

In [526]:
bank_credit.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [527]:
# Se muestra la tabla filtrada con valores ausentes de la columna total_income 

bank_credit[bank_credit['total_income'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [528]:
bank_credit.loc[:, ['total_income', 'days_employed']].isnull().sum()

total_income     2174
days_employed    2174
dtype: int64

[Volver a Contenidos](#back)

### Conclusión intermedia <a id='conclusions_of_the_mid-term_data_review'></a>
Aqui podemos verificar la efectividad del comentario citado con anterioridad de que ambas columnas tienen en mismo numero de filas valores ausentes, por lo que son dos columnas que pueden estar relacionadas y las personas no ingresaron esa información probablemente. 

In [529]:
#Calcula el porcentaje de los valores ausentes en comparación con el conjunto de datos completo
print('Porcentaje de valores ausentes')
print(2174/21525*100)

Porcentaje de valores ausentes
10.099883855981417


se recomienda completar los mismos con base en la estimación de la mediana, si queremos utilizar estas columnas para el análisis de datos. Para ello, se llevará a cabo los siguientes pasos:
* Calcular los porcentajes según las variables education, income_type y gender, que se presume podrían estar asociadas con las columnas days_employed y total_income

veamos sus valores unicos y su porcentaje para la columna "education"

In [530]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica 'education' y la columna con los valores ausentes y su porcentaje

quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].isnull()]['education'].value_counts()/2174*100)
    
print('porcentaje de valores ausentes en days_employed por education')
print(missing_values[0])
print()
print('porcentaje de valores ausentes en total_income por education')
print(missing_values[1])

porcentaje de valores ausentes en days_employed por education
secondary education    64.765409
bachelor's degree      22.815087
SECONDARY EDUCATION     3.081877
Secondary Education     2.989880
some college            2.529899
Bachelor's Degree       1.149954
BACHELOR'S DEGREE       1.057958
primary education       0.873965
Some College            0.321987
SOME COLLEGE            0.321987
Primary Education       0.045998
PRIMARY EDUCATION       0.045998
Name: education, dtype: float64

porcentaje de valores ausentes en total_income por education
secondary education    64.765409
bachelor's degree      22.815087
SECONDARY EDUCATION     3.081877
Secondary Education     2.989880
some college            2.529899
Bachelor's Degree       1.149954
BACHELOR'S DEGREE       1.057958
primary education       0.873965
Some College            0.321987
SOME COLLEGE            0.321987
Primary Education       0.045998
PRIMARY EDUCATION       0.045998
Name: education, dtype: float64


Tenemos valores duplicados tanto en mayúsculas como en minúsculas

- veamos sus valores unicos y su porcentaje para la columna "income_type"

In [531]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica 'income_type y la columna con los valores ausentes y su porcentaje

quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].isnull()]['income_type'].value_counts()/2174*100)
    
print('porcentaje de valores ausentes en days_employed por income_type')
print(missing_values[0])
print()
print('porcentaje de valores ausentes en total_income por income_type')
print(missing_values[1])

porcentaje de valores ausentes en days_employed por income_type
employee         50.827967
business         23.367065
retiree          18.997240
civil servant     6.761730
entrepreneur      0.045998
Name: income_type, dtype: float64

porcentaje de valores ausentes en total_income por income_type
employee         50.827967
business         23.367065
retiree          18.997240
civil servant     6.761730
entrepreneur      0.045998
Name: income_type, dtype: float64


calculando sus valores unicos de la columna **"gender"**

In [532]:
bank_credit["gender"].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [533]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica gender y la columna con los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].isnull()]['gender'].value_counts())
    
print('Número de valores ausentes en days_employed por gender')
print(missing_values[0])
print()
print('Número de valores ausentes en total_income por gender')
print(missing_values[1])

Número de valores ausentes en days_employed por gender
F    1484
M     690
Name: gender, dtype: int64

Número de valores ausentes en total_income por gender
F    1484
M     690
Name: gender, dtype: int64


## conclusión
- Para esta variable si se observa una simetría en los datos ausentes de las columnas **days_employed** y **total_income**


In [534]:
# Vamos a investigar a los clientes que tienen datos sobre la característica gender y la columna sin los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].notnull()]['gender'].value_counts())
    
print('número de valores no nulos en days_employed por gender')
print(missing_values[0])
print()
print('número de valores no nulos en total_income por gender')
print(missing_values[1])

número de valores no nulos en days_employed por gender
F      12752
M       6598
XNA        1
Name: gender, dtype: int64

número de valores no nulos en total_income por gender
F      12752
M       6598
XNA        1
Name: gender, dtype: int64


Comprobando los datos de la columna **"education"**

In [535]:
bank_credit["education"].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [536]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica education y la columna con los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].isnull()]['education'].value_counts())
    
print('número de valores ausentes en days_employed por education')
print(missing_values[0])
print()
print('número de valores ausentes en total_income por education')
print(missing_values[1])

número de valores ausentes en days_employed por education
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

número de valores ausentes en total_income por education
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64


In [537]:
# Vamos a investigar a los clientes que tienen datos sobre la característica education y la columna con los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].notnull()]['education'].value_counts())
    
print('número de valores no nulos en days_employed por education')
print(missing_values[0])
print()
print('número de valores no nulos en total_income por education')
print(missing_values[1])

número de valores no nulos en days_employed por education
secondary education    12342
bachelor's degree       4222
SECONDARY EDUCATION      705
Secondary Education      646
some college             613
BACHELOR'S DEGREE        251
Bachelor's Degree        243
primary education        231
Some College              40
SOME COLLEGE              22
PRIMARY EDUCATION         16
Primary Education         14
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

número de valores no nulos en total_income por education
secondary education    12342
bachelor's degree       4222
SECONDARY EDUCATION      705
Secondary Education      646
some college             613
BACHELOR'S DEGREE        251
Bachelor's Degree        243
primary education        231
Some College              40
SOME COLLEGE              22
PRIMARY EDUCATION         16
Primary Education         14
graduate degree            4
Graduate Degree            1
GRADUATE DEGR

Se puede observar que para la columna **"education"** no coinciden el número de datos ausentes en las columnas **"days_employed"** y **"total_income"**

Comprobando los datos de la columna **"family_status"**

In [538]:
bank_credit['family_status'].value_counts() #muestra todos los valores que tiene la columna y su porcentaje para la columna ("family_status")

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [539]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica family_status y la columna con los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].isnull()]['family_status'].value_counts())
    
print('número de valores ausentes en days_employed por family_status')
print(missing_values[0])
print()
print('número de valores ausentes en total_income por family_status')
print(missing_values[1])

número de valores ausentes en days_employed por family_status
married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64

número de valores ausentes en total_income por family_status
married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64


In [540]:
# Vamos a investigar a los clientes que tienen datos sobre la característica family_status y la columna sin los valores ausentes
quantitative_columns= ['days_employed', 'total_income']


missing_values= []

for column in quantitative_columns:
    missing_values.append(bank_credit[bank_credit[column].notnull()]['family_status'].value_counts())
    
print('número de valores no nulos en days_employed por family_status')
print(missing_values[0])
print()
print('número de valores no nulos en total_income por family_status')
print(missing_values[1])

número de valores no nulos en days_employed por family_status
married              11143
civil partnership     3735
unmarried             2525
divorced              1083
widow / widower        865
Name: family_status, dtype: int64

número de valores no nulos en total_income por family_status
married              11143
civil partnership     3735
unmarried             2525
divorced              1083
widow / widower        865
Name: family_status, dtype: int64


Se puede observar que para la columna **"family_status"** no coinciden el número de datos ausentes en las columnas **"days_employed"** y **"total_income"**
También cambiaremos el nombre de esta columna por 'estado civil' y el 'id de estado familiar' por 'id de estado civil'

In [541]:
bank_credit['debt'].value_counts() #muestra todos los valores que tiene la columna y su porcentaje para la columna ("debt")

0    19784
1     1741
Name: debt, dtype: int64

En esta columna se entiende que
los valores son 0 (pago a tiempo) y 1 (por defecto)

In [542]:
bank_credit['purpose'].value_counts() #muestra todos los valores que tiene la columna y su porcentaje para la columna ("purpose")

wedding ceremony                            797
having a wedding                            777
to have a wedding                           774
real estate transactions                    676
buy commercial real estate                  664
buying property for renting out             653
housing transactions                        653
transactions with commercial real estate    651
purchase of the house                       647
housing                                     647
purchase of the house for my family         641
construction of own property                635
property                                    634
transactions with my real estate            630
building a real estate                      626
buy real estate                             624
building a property                         620
purchase of my own house                    620
housing renovation                          612
buy residential real estate                 607
buying my own car                       

aparentemente los valores de esta columna, se engloban en 4 categorías: inmuebles, compra de coches, bodas y educación.

Conclusión
Tenemos que hacer algo con los valores que faltan en las columnas "total_income" y "days_employed". Los valores de la columna "total_income" son flotantes lo pasaremos a  int. Eliminaremos los decimales. Tenemos que eliminar los valores duplicados en la columna "educación". Tenemos que crear una tabla aparte para poder definir el significado de los valores de la columna 'deuda'. También tenemos que poner los propósitos en 4 categorías: bienes raíces, compra de coches, boda y educación.

In [543]:
# dataframe que devuelve las filas a las que les falta un valor en las columnas "days_employed" y "total_income"
values_null = bank_credit[bank_credit[column].isnull()] 
values_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [544]:
#dataframe que devuelve las filas sin valores ausentes en las columnas "days_employed" y "total_income"
values_not_null = bank_credit[bank_credit[column].notnull()] 
values_not_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [545]:
bank_credit.shape

(21525, 12)

In [546]:
# Comparativa de las columnas con valores ausentes 
print(bank_credit[column].value_counts())

17312.717    2
42413.096    2
31791.384    2
21005.772    1
18591.443    1
            ..
27020.895    1
23686.835    1
9606.294     1
28156.762    1
13127.587    1
Name: total_income, Length: 19348, dtype: int64


In [547]:
# Comparativa de las columnas sin valores ausentes 
print(values_not_null[column].value_counts())

17312.717    2
42413.096    2
31791.384    2
21005.772    1
18591.443    1
            ..
27020.895    1
23686.835    1
9606.294     1
28156.762    1
13127.587    1
Name: total_income, Length: 19348, dtype: int64


Se puede observar que coinciden las frecuencias en ambos dataframe con y sin valores ausentes aunque, no corresponden a las mismas filas aunado a que se esta utilizando el metodo **.value_counts()**

[Volver a Contenidos](#back)

## Etapa 2. Procesamiento de datos <a id='data_preprocessing'></a>

Antes de llegar a la sección de los valores ausentes, se realizará lo siguiente:
* Revisar la ortografía de las columnas si ese es el caso
* Modificar los valores negativos a las columnas "children", "days_employed" 
* En la columna dob_years, revisar los ceros y tratarlos de la manera más conveniente
* Posteriormente se determinará si hay duplicados y ver como eliminarlos para no tener filas duplicadas de la manera mas conveniente posible

Revisión de la columna **"education"** para posterior corregir debidamente

In [548]:
bank_credit['education'].value_counts().sort_values()

Graduate Degree            1
GRADUATE DEGREE            1
graduate degree            4
Primary Education         15
PRIMARY EDUCATION         17
SOME COLLEGE              29
Some College              47
primary education        250
Bachelor's Degree        268
BACHELOR'S DEGREE        274
some college             668
Secondary Education      711
SECONDARY EDUCATION      772
bachelor's degree       4718
secondary education    13750
Name: education, dtype: int64

las cadenas no están normalizadas. Hay que normalizar los valores de las cadenas.

In [549]:
#por último, normalizar las cadenas en la columna de educación
bank_credit['education'] = bank_credit['education'].str.lower()

In [550]:
#se verifica que este corregido el problema
bank_credit["education"].value_counts().sort_values()

graduate degree            6
primary education        282
some college             744
bachelor's degree       5260
secondary education    15233
Name: education, dtype: int64

In [551]:
#veamos en orden ascendente los valores unicos y ver si tenemos problemas con algun valor
bank_credit["children"].sort_values().value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [552]:
print('Porcentaje de valores "-1" en la columna children')
print(47/21525*100)

Porcentaje de valores "-1" en la columna children
0.2183507549361208


In [553]:
bank_credit[bank_credit['children']== 20]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,secondary education,1,married,0,M,business,0,23253.578,purchase of the house
720,20,-855.595512,44,secondary education,1,married,0,F,business,0,18079.798,buy real estate
1074,20,-3310.411598,56,secondary education,1,married,0,F,employee,1,36722.966,getting an education
2510,20,-2714.161249,59,bachelor's degree,0,widow / widower,2,F,employee,0,42315.974,transactions with commercial real estate
2941,20,-2161.591519,0,secondary education,1,married,0,F,employee,0,31958.391,to buy a car
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,secondary education,1,married,0,F,employee,1,21363.842,to own a car
21325,20,-601.174883,37,secondary education,1,married,0,F,business,0,16477.771,profile education
21390,20,,53,secondary education,1,married,0,M,business,0,,buy residential real estate
21404,20,-494.788448,52,secondary education,1,married,0,M,business,0,25060.749,transactions with my real estate


aqui podemos observar que tenemos valores negativos en -1 y son 47 posiblemente sea un error de transcripción, tambien podemos ver su porcentaje que es minimo pero aun asi lo arreglaremos, tambien podemos ver que tenemos niños con edad de 20 y son 76 tambien posible que sea un error de tipeo asi que trabajaremos en ello.

In [554]:
# Se asumirá que es un error y el -1 se reemplazará por 1 

bank_credit['children']= bank_credit['children'].replace(-1, 1)
bank_credit['children']= bank_credit['children'].replace(20, 2)

In [555]:
#comprobracion de que se han efectuado los cambios en la columna "children" posterior al analisís ya antes mencionado
bank_credit["children"].sort_values().value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [556]:
# Comprobando las correcciones de la columna `children`

print(bank_credit['children'].sort_values().unique())

[0 1 2 3 4 5]


Revisión de la columna **"days_employed"** para posterior corregir debidamente

In [557]:
# Filtrando los datos de la columna en `days_employed`, ya que anteriormente se había notado un error con los valores
bank_credit[bank_credit["days_employed"]<= 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


aqui mostramos en la tabla filtrada el número de **valores negativos** de la columna "days_employed" 15906 del total que son 19351 el cual corregiremos convirtirendolos a **valores positivos**

In [558]:
bank_credit[bank_credit["days_employed"]> 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
30,1,335581.668515,62,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,386497.714078,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,362161.054124,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


y este tabla muestra el resto que son los valores positivos  la suma de 3445 + 15906 da la suma de 19351 el total de los valores

In [559]:
#un vistazo a la distribucion de la columna "days_employed"
bank_credit["days_employed"].count()

19351

In [560]:
#convertir los negativos a positivos
bank_credit['days_employed']= bank_credit['days_employed'].abs()

In [561]:
bank_credit[bank_credit['days_employed']<= 0].count()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [562]:
bank_credit[bank_credit["days_employed"]> 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [563]:
#eliminar los datos irreales en days_employed, para que nuestra media sea realista. Eliminemos todo lo que sea > 29.200(365 días * 80 años).
bank_credit.loc[bank_credit['days_employed']>29200, 'days_employed'] = None

In [564]:
bank_credit[bank_credit["days_employed"]> 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [565]:
# comprobando con la estadística descriptiva de la columna "days_employed"
bank_credit["days_employed"].describe()

count    15906.000000
mean      2353.015932
std       2304.243851
min         24.141633
25%        756.371964
50%       1630.019381
75%       3157.480084
max      18388.949901
Name: days_employed, dtype: float64

In [566]:
bank_credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [567]:
bank_credit[bank_credit['days_employed'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
18,0,,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21508,0,,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21510,2,,28,secondary education,1,married,0,F,employee,0,,car purchase
21518,0,,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


Los negativos se convirtieron en positivos y también hay valores irreales de datos como 340266,072047 y 400281,136913. También hay que cambiarlos con la mediana. Aún falta trabajar en los datos ausentes pero eso se vera en la sección en donde trabajaremos con los valores ausentes.

### Revisión de l columna **"dob_years"**

In [568]:
bank_credit["dob_years"].sort_values()

6859      0
16042     0
7034      0
21179     0
4147      0
         ..
3460     74
4895     74
19642    74
11532    74
8880     75
Name: dob_years, Length: 21525, dtype: int64

Se puede observar que aparecen las edades de 0 años, y no puede haber edades con valores en 0 habra que corregirlos

In [569]:
#Un vistazo a la distribucion de la columna "dob_years" y ver el numero de filas con edades en cero
bank_credit.loc[bank_credit['dob_years']== 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [570]:
bank_credit["dob_years"].min()

0

In [571]:
bank_credit["dob_years"].max()

75

Como son muchas filas, no se pueden eliminar, se reemplazarán por la mediana, ya que se había determinado que el menor varlor min es cero y el máximo 75, la media podría verse afectada por estos valores extremos

In [572]:
#cálculo de la mediana sin considerar los ceros (0)

bank_credit[bank_credit['dob_years']>0]['dob_years'].median()

43.0

In [573]:
bank_credit['dob_years']= bank_credit['dob_years'].replace(0, 43)

In [574]:
bank_credit["dob_years"]

0        42
1        36
2        33
3        32
4        53
         ..
21520    43
21521    67
21522    38
21523    38
21524    40
Name: dob_years, Length: 21525, dtype: int64

In [575]:
# comprobando con la estadística descriptiva de la columna "dob_years"
bank_credit['dob_years'].describe()

count    21525.000000
mean        43.495145
std         12.218213
min         19.000000
25%         34.000000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Se calculó la mediana sin comtemplar los valores en 0 y se modificó la columna **"dob_years"** reemplazandolos por la mediana obtenida

### Revisión de l columna **"family_status"**

In [576]:
bank_credit["family_status"]

0                  married
1                  married
2                  married
3                  married
4        civil partnership
               ...        
21520    civil partnership
21521              married
21522    civil partnership
21523              married
21524              married
Name: family_status, Length: 21525, dtype: object

In [577]:
bank_credit['family_status'].sort_values().unique()

array(['civil partnership', 'divorced', 'married', 'unmarried',
       'widow / widower'], dtype=object)

Tenemos nuestros valores. En primer lugar, cambiemos **"widow / widower"** por **"widowed"**. Lo hacemos por simplicidad.

In [578]:
##cambia la columna "estado_familiar" sustituyendo cada vez que aparece "widow / widower" por "widowed".
bank_credit['family_status']= bank_credit['family_status'].replace('widow / widower', 'widowed')
# mostrando los valores unicos tras el cambio
bank_credit['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widowed                960
Name: family_status, dtype: int64

### Revisión de l columna **"gender"**

In [579]:
# Veamos los valores de la columna "gender"
print(bank_credit['gender'].sort_values().unique())

['F' 'M' 'XNA']


Se determina que no hay problemas obvios

### Revisión de l columna **"income_type"**

In [580]:
# Veamos los valores en la columna income_type

print(bank_credit['income_type'].sort_values().unique())

['business' 'civil servant' 'employee' 'entrepreneur'
 'paternity / maternity leave' 'retiree' 'student' 'unemployed']


Se determina que no hay problemas obvios

In [581]:
bank_credit['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Necesitamos crear un diccionario para explicar qué significan esos valores. Primero tenemos que aplicar una función (que llamaremos **'debt_status'**) a la columna **'debt'** y guardar el resultado en una nueva columna que llamaremos **'debt_status'**

In [582]:
def debt_status(debt_id):
#esto define una función llamada 'debt_status' que tomará como argumento 'debt_id'

    if debt_id == 1:
        return 'impago'
#si el valor de entrada es 1, devuelve el valor de cadena 'impago'
    if debt_id == 0:
        return 'pagado'
#si el valor de entrada es 0, devuelve el valor de cadena 'pagado'
    
bank_credit['debt_status'] = bank_credit['debt'].apply(debt_status)
#aplica la función estado_deuda a la columna 'debt' y guarda los resultados en la nueva columna "debt_status"

bank_credit.head(10) #visualiza las 10 primeras filas de la tabla


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,pagado
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,pagado
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,pagado
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,pagado
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,pagado
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,pagado
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,pagado
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,pagado
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,pagado
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,pagado


In [583]:
debt_status_dict = bank_credit[['debt', 'debt_status']]
#crea una tabla 'debt_status_dict' y guarda en ella las columnas 'debt' y 'debt_status' de
#la tabla "bank_credit"
debt_status_dict = debt_status_dict.drop_duplicates().reset_index(drop=True).sort_values(by='debt', ascending=True)
#esto elimina los duplicados de la tabla, restablece la numeración de las filas (índice) y ordena de forma descendente
#de los valores de la columna 'debt
debt_status_dict #visualiza la tabla 'debt_status_dict


Unnamed: 0,debt,debt_status
0,0,pagado
1,1,impago


 ---

### **Abordaremos los valores duplicados**

In [584]:
bank_credit.duplicated().sum()

71

In [585]:
# Se elimina los duplicados obvios

bank_credit= bank_credit.drop_duplicates().reset_index(drop= True)

In [586]:
# Comprobando tras el cambio previo de eliminar filas duplicadas
bank_credit.shape

(21454, 13)

**Conclusión**
Parece que había algunas filas duplicadas. Las entradas se redujeron de 21525 --> 21454. Usamos el método drop_duplicates() de pandas.

Entonces tenemos que averiguar por qué había duplicados - los usuarios pueden haber introducido sus datos varias veces, y/o los datos fueron replicados en algún lugar y añadidos a la base de datos. En cualquier caso, no debería haber duplicados en primer lugar... o al menos, no tantos.

[Volver a Contenidos](#back)

### Trabajar con valores ausentes <a id='missing_values'></a>

In [587]:
#determinar la correspondencia entre las categorías de 'education_id' y 'education'
children_education_groupby= bank_credit.groupby(['education_id', 'education'])['children'].count()
children_education_groupby

education_id  education          
0             bachelor's degree       5250
1             secondary education    15172
2             some college             744
3             primary education        282
4             graduate degree            6
Name: children, dtype: int64

In [588]:
# Diccionario de 'education'
education_dictionary= {
    "bachelor's degree": 0,
    'secondary education': 1,
    'some college': 2,
    'primary education': 3,
    'graduate degree': 4
}

In [589]:
# comprobando el diccionario
education_dictionary['some college']

2

In [590]:
#determinar la correspondencia entre las categorías de 'family_status_id' y 'family_status'
children_family_groupby= bank_credit.groupby(['family_status_id', 'family_status'])['children'].count()
children_family_groupby

family_status_id  family_status    
0                 married              12339
1                 civil partnership     4151
2                 widowed                959
3                 divorced              1195
4                 unmarried             2810
Name: children, dtype: int64

In [591]:
# Diccionario de 'family'
family_dictonary= {
    'married': 0,
    'civil partnership': 1,
    'widowed': 2,
    'divorced': 3,
    'unmarried': 4
}

In [592]:
# comprobando el diccionario "family_dictonary"
family_dictonary['widowed']

2

creeamos los diccionarios para **"education"** y **"family_status"**

### Restaurar valores ausentes en **"total_income"**

Crear una funcion para la categorias de edad basandonos en la columna "dob_years"

In [593]:
# Se escribe una función que calcule las categorías de edad
# Calculando la categoría de edad
def category_dob_years(dob_years):
    if dob_years <= 20 and dob_years <30:
        return 1
    elif dob_years >=30 and dob_years <40:
        return 2
    elif dob_years >= 40 and dob_years <65:
        return 3
    else:
        return 4

In [594]:
# Se prueba si la función está correcta

print(category_dob_years(19))
print(category_dob_years(30))
print(category_dob_years(60))
print(category_dob_years(70))

1
2
3
4


In [595]:
# Se escribe una función para indicar las categorías de edad

def dob_years_level(dob_years):
    if dob_years <= 20 and dob_years <30:
        return 'young'
    elif dob_years >=30 and dob_years <40:
        return 'young adult'
    elif dob_years >= 40 and dob_years <65:
        return 'adult'
    else:
        return 'seniors'

In [596]:
# Se prueba si la función está correcta

print(dob_years_level(18))
print(dob_years_level(30))
print(dob_years_level(60))
print(dob_years_level(70))

young
young adult
adult
seniors


In [597]:
bank_credit['dob_years_level']= bank_credit['dob_years'].apply(dob_years_level)

In [598]:
bank_credit.groupby('dob_years_level')['total_income'].count()

dob_years_level
adult          10540
seniors         3643
young             59
young adult     5109
Name: total_income, dtype: int64

In [599]:
# Crear una nueva columna basada en la función

bank_credit['dob_years_categ']= bank_credit['dob_years'].apply(category_dob_years)


In [600]:
# Comprobar cómo son los valores en la nueva columna

bank_credit.sort_values(by= 'dob_years').head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ
5558,0,885.268574,19,some college,2,unmarried,4,M,employee,0,14575.717,buying property for renting out,pagado,young,1
12998,0,695.968951,19,some college,2,unmarried,4,F,business,0,26443.044,cars,pagado,young,1
9208,0,322.024011,19,secondary education,1,civil partnership,1,F,business,0,16588.237,to have a wedding,pagado,young,1
20166,0,509.969922,19,some college,2,unmarried,4,F,civil servant,0,12125.986,buy commercial real estate,pagado,young,1
2725,0,115.876036,19,secondary education,1,unmarried,4,F,business,0,21114.762,transactions with commercial real estate,pagado,young,1
8307,0,556.088508,19,secondary education,1,unmarried,4,F,employee,0,10963.857,university education,pagado,young,1
10220,0,793.358581,19,secondary education,1,married,0,F,employee,0,21009.404,housing renovation,pagado,young,1
11730,0,757.612624,19,secondary education,1,married,0,F,business,0,19321.445,buy real estate,pagado,young,1
4050,0,,19,secondary education,1,civil partnership,1,M,employee,0,,having a wedding,pagado,young,1
15624,0,948.225743,19,some college,2,civil partnership,1,F,business,0,26753.823,buying a second-hand car,pagado,young,1


In [601]:
#obtener la media de los ingresos
# agrupando el dataframe aplicando el metodo transform con el argumento median asi calcular las medianas
med_var = bank_credit.groupby(['gender', 'dob_years_categ', 'education_id'])['total_income'].transform('median')
#aqui se utilizo el metodo fillna para hacer el llenado de datos ausentes con el vector calculado
bank_credit["total_income"].fillna(med_var, inplace= True)
bank_credit["total_income"]

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21449    35966.698
21450    24959.969
21451    14347.610
21452    39054.888
21453    13127.587
Name: total_income, Length: 21454, dtype: float64

In [602]:
bank_credit["total_income"].describe()

count     21454.000000
mean      26472.908040
std       15728.824683
min        3306.762000
25%       17204.620000
50%       23220.588000
75%       31619.126750
max      362496.645000
Name: total_income, dtype: float64

In [603]:
bank_credit.duplicated().sum()

0

y aqui podemos apreciar como ya no hay filas duplicadas

### Restaurar valores ausentes en **"days_employed"**

Para abordar los valores ausentes del los días empleados `days_employed`, se realiza una función como la anterior para obtener la columna de medianas y agregarla en los valores ausentes.

 A continuación, se calculan para determinar si se usan valores medios o medianos para reemplazar los valores ausentes. Por ello, se muestra la distribución de los factores que  pueden tener un impacto en los ingresos, como `gender`, `dob_years_categ`, `income_type` y `education`

In [604]:
# Comprueba los datos sobre los hijos y los pagos puntuales

pivot_table_age = bank_credit.pivot_table(
    values= 'days_employed',
    columns= ['dob_years_categ'],
    aggfunc= 'median',
    #fill_value= 0,
    #margins= True
)
pivot_table_age


dob_years_categ,1,2,3,4
days_employed,695.968951,1589.781401,2120.177354,1039.380973


In [605]:
pivot_table_type = bank_credit.pivot_table(
    values= 'days_employed',
    columns= 'income_type',
    aggfunc= 'median',
    #fill_value= 0,
    #margins= True
)
pivot_table_type


income_type,business,civil servant,employee,entrepreneur,paternity / maternity leave,student
days_employed,1547.382223,2689.368353,1574.202821,520.848083,3296.759962,578.751554


In [606]:
pivot_table_gender = bank_credit.pivot_table(
    values= 'days_employed',
    columns= 'gender',
    aggfunc= 'median',
    #fill_value= 0,
    #margins= True
)
pivot_table_gender

gender,F,M,XNA
days_employed,1748.295678,1437.816426,2358.600502


In [607]:
pivot_table_education = bank_credit.pivot_table(
    values= 'days_employed',
    columns= 'education',
    aggfunc= 'median',
    #fill_value= 0,
    #margins= True
)
pivot_table_education

education,bachelor's degree,graduate degree,primary education,secondary education,some college
days_employed,1611.056758,3851.735057,1189.581396,1684.271101,1148.77682


In [608]:
bank_credit[quantitative_columns]

Unnamed: 0,days_employed,total_income
0,8437.673028,40620.102
1,4024.803754,17932.802
2,5623.422610,23341.752
3,4124.747207,42820.568
4,,25378.572
...,...,...
21449,4529.316663,35966.698
21450,,24959.969
21451,2113.346888,14347.610
21452,3112.481705,39054.888


In [609]:
#obtener la media de los ingresos
# agrupando el dataframe aplicando el metodo transform con el argumento median asi calcular las medianas
med_days = bank_credit.groupby(['dob_years_categ', "education"])['days_employed'].transform('median')
#aqui se utilizo el metodo fillna para hacer el llenado de datos ausentes con el vector calculado
bank_credit["days_employed"].fillna(med_days, inplace= True)

In [610]:
bank_credit["days_employed"].isna().sum()

1

In [611]:
#bank_credit["days_employed"].isnull().any()
bank_credit[bank_credit.isna().any(axis=1)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ
2962,0,,69,graduate degree,4,married,0,M,retiree,0,15800.399,buy residential real estate,pagado,seniors,4


Aun nos queda una fila donde se encuentra un valor ausente en la columna "days_employed" asi que trabajaremos en ella sustituyendo ese valor ausente con una mediana general

In [612]:
bank_credit = bank_credit.fillna(1630.0193809778218)

In [613]:
bank_credit["days_employed"].isna().sum()

0

In [614]:
#comprobacion de valores ausentes en el dataframe
bank_credit[bank_credit.isna().any(axis=1)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ


Aqui podemos observar como erradicamos los los valores ausentes de la columnas "total_income" y "days_employed" sin embargo para la columna de dias de empleados tambien coregimos los valores irreales los cuales los tratamos con anterioridad y convertimos esta columna de tipo float a tipo int ya que no puede haber dias fraccionados o en decimales.

In [615]:
bank_credit.shape

(21454, 15)

In [616]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
#convertir days_employed de float to int
bank_credit['days_employed'] = bank_credit['days_employed'].astype('int')

El tipo se convertio de float a int, ya que sólo estamos contando días, y no puede haber dias fraccionados o en decimales

In [617]:
bank_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  int32  
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  debt_status       21454 non-null  object 
 13  dob_years_level   21454 non-null  object 
 14  dob_years_categ   21454 non-null  int64  
dtypes: float64(1), int32(1), int64(6), object(7)
memory usage: 2.4+ MB


In [618]:
bank_credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ
0,1,8437,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,pagado,adult,3
1,1,4024,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,pagado,young adult,2
2,0,5623,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,pagado,young adult,2
3,3,4124,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,pagado,young adult,2
4,0,2121,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,pagado,adult,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,pagado,adult,3
21450,0,1073,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,pagado,seniors,4
21451,1,2113,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,impago,young adult,2
21452,3,3112,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,impago,young adult,2


In [619]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados

median_employed_age= bank_credit.groupby('dob_years_categ')['days_employed'].median()
print('Mediana de tiempo trabajando por grupo de edad')
print(median_employed_age)
print()
median_employed_type= bank_credit.groupby('income_type')['days_employed'].median()
print('Mediana de tiempo trabajando por tipo de trabajo')
print(median_employed_type)
print()
median_employed_gender= bank_credit.groupby('gender')['days_employed'].median()
print('Mediana de tiempo trabajando por género')
print(median_employed_gender)
print()
median_employed_education= bank_credit.groupby('education')['days_employed'].median()
print('Mediana de tiempo trabajando por nivel educativo')
print(median_employed_education)

Mediana de tiempo trabajando por grupo de edad
dob_years_categ
1     685.0
2    1627.0
3    2121.0
4    1073.0
Name: days_employed, dtype: float64

Mediana de tiempo trabajando por tipo de trabajo
income_type
business                       1615.0
civil servant                  2389.0
employee                       1627.0
entrepreneur                   1352.0
paternity / maternity leave    3296.0
retiree                        2121.0
student                         578.0
unemployed                     1905.5
Name: days_employed, dtype: float64

Mediana de tiempo trabajando por género
gender
F      2121.0
M      1627.0
XNA    2358.0
Name: days_employed, dtype: float64

Mediana de tiempo trabajando por nivel educativo
education
bachelor's degree      1765.0
graduate degree        2615.5
primary education      1552.5
secondary education    2121.0
some college           1206.0
Name: days_employed, dtype: float64


**Conclusión**
Ya hemos arreglado las columnas de days_employed y de total_income. Se han eliminado los valores nulos, los valores negativos y los números irreales. Pero, ¿cómo conseguimos estos valores en primer lugar?

Valores nulos: El usuario podía abstenerse de introducir la información, si no era obligatorio. Valores negativos: El desarrollador puede haber guardado los datos como un valor negativo, y éste se abrió paso en los datos sin ser revertido a un número positivo. Los días empleados nunca deberían ser un valor negativo en primer lugar. Números irreales: Los datos se corrompieron en alguna parte, o los usuarios introdujeron falsamente estas cifras.

**Conclusión**
- Aquí convertimos los "days_employed" y "total_income" de un float a un int. No es del todo necesario, pero realmente no podemos tener una fracción de día de empleo así que podríamos cambiarlo. Ahora todos los tipos de datos parecen ser correctos. Usamos el método astype() y to_numeric().

## Clasificación de datos

Inicialmente, se clasificarán en categorías los ingresos totales para convertir en una variable cualitativa y así facilitar su comparación con el incumplimiento de préstamos.

Previamente se ha clasificado la variable edad del cliente.


In [620]:
bank_credit["total_income"].describe()

count     21454.000000
mean      26472.908040
std       15728.824683
min        3306.762000
25%       17204.620000
50%       23220.588000
75%       31619.126750
max      362496.645000
Name: total_income, dtype: float64

Se crearán 5 rangos o categorías, asumiendo que son ingresos en soles

In [621]:
# Se escribe una función que calcule las categorías de ingresos totales

def categ_income(total_income):
    if total_income <= 5000:
        return 1
    elif total_income <= 10000:
        return 2
    elif total_income <= 20000:
        return 3
    elif total_income <= 30000:
        return 4
    else:
        return 5

In [622]:
#Prueba de la función

print(categ_income(31635.2365))
print(categ_income(13366.1030))
print(categ_income(3306.7620))

5
3
1


In [623]:
# Se escribe una función para indicar las categorías de ingresos

def income_level(total_income):
    if total_income <= 5000:
        return '5000 o menos'
    elif total_income <= 10000:
        return '5001 a 10000'
    elif total_income <= 20000:
        return '10001 a 20000'
    elif total_income <= 30000:
        return '20001 a 30000'
    else:
        return 'más de 30000'

In [624]:
#Prueba de la función

print(income_level(31635.2365))
print(income_level(13366.1030))
print(income_level(3306.7620))

más de 30000
10001 a 20000
5000 o menos


Se crearon las respectivas categorias para "tota_income"

In [625]:
# Crear una nueva columna basada en la función

bank_credit['categ_income']= bank_credit['total_income'].apply(categ_income)

In [626]:
# Contar los valores de cada categoría para ver la distribución

bank_credit.groupby('categ_income')['total_income'].count()

categ_income
1      26
2     900
3    6601
4    7824
5    6103
Name: total_income, dtype: int64

In [627]:
# Crear una nueva columna basada en la función
bank_credit['income_level']= bank_credit['total_income'].apply(income_level)

In [628]:
# Contar los valores de cada categoría para ver la distribución

bank_credit.groupby('income_level')['total_income'].count()

income_level
10001 a 20000    6601
20001 a 30000    7824
5000 o menos       26
5001 a 10000      900
más de 30000     6103
Name: total_income, dtype: int64

En la presenta agrupacion no se inlcuyen los clientes que tiene ingresos por debajo de los $ 10,000.00 porque son personas que también solicitan créditos 

### Clasificación de datos en **""purpose""**

In [629]:
# Comprobar los valores únicos en la variable purpose
bank_credit.sort_values(by= 'purpose')['purpose'].unique()

array(['building a property', 'building a real estate',
       'buy commercial real estate', 'buy real estate',
       'buy residential real estate', 'buying a second-hand car',
       'buying my own car', 'buying property for renting out', 'car',
       'car purchase', 'cars', 'construction of own property',
       'education', 'getting an education', 'getting higher education',
       'going to university', 'having a wedding', 'housing',
       'housing renovation', 'housing transactions', 'profile education',
       'property', 'purchase of a car', 'purchase of my own house',
       'purchase of the house', 'purchase of the house for my family',
       'real estate transactions', 'second-hand car purchase',
       'supplementary education', 'to become educated', 'to buy a car',
       'to get a supplementary education', 'to have a wedding',
       'to own a car', 'transactions with commercial real estate',
       'transactions with my real estate', 'university education',
       'we

In [630]:
bank_credit["purpose"].sort_values().value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

Se crearán nuevas categorías de agrupamiento: 'building_real estate', 'wedding', 'education', 'car purchase', 'purchase of the house', 'housing renovation_construction'

car purchase, wedding, education, and real estate

In [631]:
# Función para clasificar los datos en función de los temas comunes

def categ_purpose(purpose):
    if 'real estate' in purpose:
        return 'building_real estate'
    elif 'education' in purpose:
        return 'education'
    elif 'wedding' in purpose:
        return 'wedding'
    elif 'car' in purpose:
        return 'car purchase'
    elif 'house' in purpose:
        return 'purchase of house'
    elif 'housing' or 'property' in purpose:
        return 'housing renovation_construction'
    else:
        return 'other'

In [632]:
# Crear una nueva columna basada en la función

bank_credit['categ_purpose']= bank_credit['purpose'].apply(categ_purpose)


In [633]:
bank_credit.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ,categ_income,income_level,categ_purpose
21444,1,467,28,secondary education,1,married,0,F,employee,1,17517.812,to become educated,impago,seniors,4,3,10001 a 20000,housing renovation_construction
21445,0,914,42,bachelor's degree,0,married,0,F,business,0,51649.244,purchase of my own house,pagado,adult,3,5,más de 30000,purchase of house
21446,0,404,42,bachelor's degree,0,civil partnership,1,F,business,0,28489.529,buying my own car,pagado,adult,3,4,20001 a 30000,car purchase
21447,0,2121,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car,pagado,adult,3,4,20001 a 30000,car purchase
21448,1,2351,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,pagado,young adult,2,3,10001 a 20000,building_real estate
21449,1,4529,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,pagado,adult,3,5,más de 30000,housing renovation_construction
21450,0,1073,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,pagado,seniors,4,4,20001 a 30000,car purchase
21451,1,2113,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property,impago,young adult,2,3,10001 a 20000,housing renovation_construction
21452,3,3112,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,impago,young adult,2,5,más de 30000,car purchase
21453,2,1984,40,secondary education,1,married,0,F,employee,0,13127.587,to buy a car,pagado,adult,3,3,10001 a 20000,car purchase


In [634]:
# Verificando la información de la tabla
bank_credit.sort_values(by= 'categ_purpose')['categ_purpose'].unique()

array(['building_real estate', 'car purchase', 'education',
       'housing renovation_construction', 'purchase of house', 'wedding'],
      dtype=object)

In [635]:
bank_credit["categ_purpose"].value_counts()

housing renovation_construction    5347
building_real estate               4464
car purchase                       4306
education                          3109
wedding                            2324
purchase of house                  1904
Name: categ_purpose, dtype: int64

se puede constatar que no hay filas pertenecientes que con la categoria "other"

In [636]:
# Se escribe una función que renombre las categorías de 'purpose'

def N_categ_purpose(categ_purpose):
    if categ_purpose == 'building_real estate':
        return 1
    elif categ_purpose == 'car purchase':
        return 2
    elif categ_purpose == 'education':
        return 3
    elif categ_purpose == 'housing renovation_construction':
        return 4
    elif categ_purpose == 'purchase of house':
        return 5
    else:
        return 6

In [637]:
# Crear una nueva columna basada en la función

bank_credit['N_categ_purpose']= bank_credit['categ_purpose'].apply(N_categ_purpose)


In [638]:
# Revisar los datos en el dataframe para ver efectuado el cambio para la clasificación de la categoria purpose
bank_credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,debt_status,dob_years_level,dob_years_categ,categ_income,income_level,categ_purpose,N_categ_purpose
0,1,8437,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,pagado,adult,3,5,más de 30000,purchase of house,5
1,1,4024,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,pagado,young adult,2,3,10001 a 20000,car purchase,2
2,0,5623,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,pagado,young adult,2,4,20001 a 30000,purchase of house,5
3,3,4124,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,pagado,young adult,2,5,más de 30000,education,3
4,0,2121,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,pagado,adult,3,4,20001 a 30000,wedding,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,pagado,adult,3,5,más de 30000,housing renovation_construction,4
21450,0,1073,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,pagado,seniors,4,4,20001 a 30000,car purchase,2
21451,1,2113,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,impago,young adult,2,3,10001 a 20000,housing renovation_construction,4
21452,3,3112,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,impago,young adult,2,5,más de 30000,car purchase,2


In [639]:
# Verificando la información de la tabla

bank_credit.sort_values(by= 'N_categ_purpose')['N_categ_purpose'].unique()

array([1, 2, 3, 4, 5, 6], dtype=int64)

In [640]:
bank_credit["N_categ_purpose"].sort_values(ascending=False).value_counts()

4    5347
1    4464
2    4306
3    3109
6    2324
5    1904
Name: N_categ_purpose, dtype: int64

In [641]:
# Verificando la información de la tabla

category_purpose= bank_credit.groupby(['N_categ_purpose', 'categ_purpose'])['total_income'].count()
category_purpose

N_categ_purpose  categ_purpose                  
1                building_real estate               4464
2                car purchase                       4306
3                education                          3109
4                housing renovation_construction    5347
5                purchase of house                  1904
6                wedding                            2324
Name: total_income, dtype: int64

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

**Comparación entre tener hijos y pagar a tiempo**

considerando 0 (ha cumplido, paga a tiempo) y 1 (ha incumplido, no paga a tiempo)

In [642]:
# Comprueba los datos sobre los hijos y los pagos puntuales

pivot_table_children= bank_credit.pivot_table(values= 'total_income', index= 'children', columns= 'debt', aggfunc= 'count', fill_value= 0, margins= True)
pivot_table_children

debt,0,1,All
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028,1063,14091
1,4410,445,4855
2,1926,202,2128
3,303,27,330
4,37,4,41
5,9,0,9
All,19713,1741,21454


In [643]:
# Se obtiene la tabla solo con los que incumplen los pagos

bank_credit_grouped= bank_credit.groupby('children').agg({'debt': ['sum', 'count']})
bank_credit_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,sum,count
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,1063,14091
1,445,4855
2,202,2128
3,27,330
4,4,41
5,0,9


In [644]:
# Calcular la tasa de incumplimiento en función del número de hijos

bank_credit_grouped['default_rate']= bank_credit_grouped['debt']['sum']/bank_credit_grouped['debt']['count']
bank_credit_grouped

Unnamed: 0_level_0,debt,debt,default_rate
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,445,4855,0.091658
2,202,2128,0.094925
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


checar esta seccion

**Conclusión**

Se puede notar que la tasa de incumplimiento del pago de deudas al banco es similar según el número de hijos, aunque los que tienen 5 hijos no presentan tasa de incumplimiento del préstamo. Por lo que el número de hijo pueda estar asociado con el incumplimiento del pago por parte de los clientes. y el número de 20 hijos ateriormente se habia hablado de ello que deberia confrontarse con los que proporcionaron los datos para ver si que esta pasando

**Comparación entre la situación familiar y el pago a tiempo**

In [645]:
# Comprueba los datos del estado familiar y los pagos a tiempo
pivot_table_family= bank_credit.pivot_table(values= 'total_income', index= ['family_status', 'family_status_id'], columns= 'debt', aggfunc= 'count', fill_value= 0, margins= True)
pivot_table_family

Unnamed: 0_level_0,debt,0,1,All
family_status,family_status_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
civil partnership,1.0,3763,388,4151
divorced,3.0,1110,85,1195
married,0.0,11408,931,12339
unmarried,4.0,2536,274,2810
widowed,2.0,896,63,959
All,,19713,1741,21454


In [646]:
marital_stats = pd.DataFrame(bank_credit.groupby('family_status')['debt_status'].value_counts())
marital_stats

Unnamed: 0_level_0,Unnamed: 1_level_0,debt_status
family_status,debt_status,Unnamed: 2_level_1
civil partnership,pagado,3763
civil partnership,impago,388
divorced,pagado,1110
divorced,impago,85
married,pagado,11408
married,impago,931
unmarried,pagado,2536
unmarried,impago,274
widowed,pagado,896
widowed,impago,63


In [647]:
# Se obtiene la tabla solo con los que incumplen los pagos

bank_credit_fam_grouped= bank_credit.groupby(['family_status_id']).agg({'debt': ['sum', 'count']})
bank_credit_fam_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,sum,count
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,931,12339
1,388,4151
2,63,959
3,85,1195
4,274,2810


In [648]:
# Calcular la tasa de incumplimiento basada en el estado familiar

bank_credit_fam_grouped['default_rate_fam']= bank_credit_fam_grouped['debt']['sum']/bank_credit_fam_grouped['debt']['count']
bank_credit_fam_grouped

Unnamed: 0_level_0,debt,debt,default_rate_fam
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,931,12339,0.075452
1,388,4151,0.093471
2,63,959,0.065693
3,85,1195,0.07113
4,274,2810,0.097509


**Conclusión**

Se observa que los divorciados presentan la menor tasa (0.0711) y los solteros la mayor tasa de incumplimiento (0.0975) en el pago de los préstamos

**Comparación entre el nivel de ingresos y el pago a tiempo**

In [649]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

pivot_table_income= bank_credit.pivot_table(values= 'total_income', index= 'categ_income', columns= 'debt', aggfunc= 'count', fill_value= 0, margins= True)
pivot_table_income

debt,0,1,All
categ_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,24,2,26
2,844,56,900
3,6035,566,6601
4,7151,673,7824
5,5659,444,6103
All,19713,1741,21454


In [650]:
# Calcular la tasa de incumplimiento basada en el nivel de ingresos
bank_credit_income_grouped= bank_credit.groupby(['categ_income']).agg({'debt': ['sum', 'count']})
bank_credit_income_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,sum,count
categ_income,Unnamed: 1_level_2,Unnamed: 2_level_2
1,2,26
2,56,900
3,566,6601
4,673,7824
5,444,6103


In [651]:
# Calcular la tasa de incumplimiento basada en el nivel de ingresos

bank_credit_income_grouped['default_rate_income']= bank_credit_income_grouped['debt']['sum']/bank_credit_income_grouped['debt']['count']
bank_credit_income_grouped

Unnamed: 0_level_0,debt,debt,default_rate_income
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
categ_income,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,2,26,0.076923
2,56,900,0.062222
3,566,6601,0.085745
4,673,7824,0.086017
5,444,6103,0.072751


**Conclusión**

Los usuarios que perciben ingreso mayor $30,000.00 no incumplen en los pagos.
Sin embargo, los que tienen ingresos entre $20,000.00 y $30,000.00 son los que tienen mayor tasa de incumplimiento de los pagos.
se puede llegar a la conclusion de que los usuarios entre mas ganan menos impagos tienen y como tal pagan a tiempo el prestamó

**Comparación del propósito del crédito y la tasa de incumplimiento**

In [652]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
# Comprueba los datos del propósito y los pagos a tiempo

pivot_table_purpose= bank_credit.pivot_table(values= 'total_income', index= ['categ_purpose', 'N_categ_purpose'], columns= 'debt', aggfunc= 'count', fill_value= 0, margins= True)
pivot_table_purpose


Unnamed: 0_level_0,debt,0,1,All
categ_purpose,N_categ_purpose,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
building_real estate,1.0,4128,336,4464
car purchase,2.0,3903,403,4306
education,3.0,2821,288,3109
housing renovation_construction,4.0,4946,401,5347
purchase of house,5.0,1777,127,1904
wedding,6.0,2138,186,2324
All,,19713,1741,21454


In [653]:
# Se obtiene la tabla solo con los que incumplen los pagos

bank_credit_purpose_grouped= bank_credit.groupby(['N_categ_purpose']).agg({'debt': ['sum', 'count']})
bank_credit_purpose_grouped

Unnamed: 0_level_0,debt,debt
Unnamed: 0_level_1,sum,count
N_categ_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2
1,336,4464
2,403,4306
3,288,3109
4,401,5347
5,127,1904
6,186,2324


In [654]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

bank_credit_purpose_grouped['default_rate_purpose']= (bank_credit_purpose_grouped['debt']['sum']/bank_credit_purpose_grouped['debt']['count'])*100
bank_credit_purpose_grouped

Unnamed: 0_level_0,debt,debt,default_rate_purpose
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
N_categ_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,336,4464,7.526882
2,403,4306,9.359034
3,288,3109,9.263429
4,401,5347,7.499532
5,127,1904,6.670168
6,186,2324,8.003442


**Conclusión**

Se llego a la conclusión que el los usuarios que pidieron prestamo para comprar casa ("purchase_house") tienen la menor tasa de incumplimiento que es del 6.67%

Y los que han solicitado prestamo para la compra de vehiculo han sido los que mas han incumplido (morosos) con una tasa del 9.35%

[Volver a Contenidos](#back)

# Conclusión general <a id='end'></a>

1. Hemos trabajado con datos sobre los ingresos de los clientes, la finalidad del préstamo, **"debt status"**, **"family status"** y **"children status"**.
2. Hemos rellenado los valores que faltaban en la columna de **"total income"** y **"days_employed"** con la mediana, hemos clasificado los fines del préstamo en building_real estate, car purchase, education, housing renovation_construction, purchase of house, wedding. 
3. Creamos diccionarios para las columnas "family status", "children" y "debt".
4. Agrupamos la tabla de datos principal por finalidad, **"family status"**, **"children status"** y **"income category"**. En cada una de esas columnas encontramos los porcentajes de incumplimiento de cada categoría. Descubrimos que:

Las tasas de impago de los préstamos para la adquisición automóviles (**"car purchase"**) y los préstamos educativos(**"education"**) son las más altas (por encima del 9%), seguidas de los préstamos para bodas(**"wedding"**) en torno al 8% y las más bajas son las de los préstamos inmobiliarios seguido de  préstamos para renovación_construcción de vivienda y construcción_inmobiliaria(**"housing renovation_contruction"**, **"building_real estate"**) justo por encima del 7%, préstamo para compra de vivienda(**"purchase of house"**), por encima del 6%; los clientes cuyo nivel de ingresos está por encima de la mediana (es decir, 23202) tienen una probabilidad ligeramente menor (7,9%) de impagar sus préstamos que los que están por debajo de la mediana(8.2%); las tasas de impago más elevadas en relación con el estado civil(**"family status"**) corresponden a los grupos de **"unmarried"** y **"civil partnership"** (ambos por encima del 9%), seguidos de los grupos de casados y divorciados (7,5% y 7,1%); 

la tasa de impago más baja corresponde al grupo de viudos(**"widowed"**) (6,5%); y los clientes con hijos tienen más probabilidades (9,2%) de impagar su préstamo (es decir, de no pagar a tiempo) que los clientes sin hijos (7,5%). El banco considerará más solventes las categorías con menores tasas de impago(es decir pagar a tiempo), es decir sin hijos y con ingresos elevados, viudos(**"widowed"**) y que soliciten un préstamo para bienes inmuebles será quienes obtengan el préstamo y paguen a tiempo. Las menos favorables serán las que pertenezcan a categorías con tasas de morosidad elevadas, es decir, tener hijos, ingresos bajos(por debajo de la mediana), no estar casado o estar en unión civil(**"civil partnership"**) y solicitar un préstamo para la compra de un coche o para la educación.