# Análisis del riesgo de incumplimiento de los prestatarios

Un **analisis de riesgo crediditicio** consiste en investigar cual es la probabilidad de que, al momento del vencimiento, una entidad no haga frente, en parte o en su totalidad, a su obligación de devolver una deuda o rendimiento acordado sobre un instrumento financiero, debido a quiebra, iliquidez o alguna otra razón.

A contunación se procesarán una seríe de datos para determinar que tipo de clientes serían más propensos a no cumplir con el pago del crédito solicitado, en este caso, a una entidad finaciera.

Se evaluarán las siguientes hipótesis:

+ Hay alguna relación entre tener hijos y pagar un préstamo a tiempo?

+ Existe una conexión entre el estado civil y el pago a tiempo de un préstamo?

+ Existe una conexión entre el nivel de ingresos y el pago a tiempo de un préstamo?

+ Cómo afectan los diferentes propósitos del préstamo al reembolso a tiempo del préstamo?


Al final de este informe se presentaran las conclusiones obtenidas del analisis de los datos suministrados.

## Tabla de contenido

1. Apertura de archivo
2. Exploración de datos
3. Transformación de datos
4. Clasificación de datos
5. Comprobación de hipótesis
6. Conclusiones

## Los objetivos a lo largo del proyeto serán los siguientes:

* Encontrar y calcular el porcentaje que representan los valores faltantes y determinar si la cantidad es significativa sobre el total de datos.

* Realizar la comparación de las columnas y encontrar un patrones entre ellos.

* Reemplazar los valores faltantes en la columna "total_income" e "income_type" utilizando la mediana.

* Encontrar y eliminar los valores duplicados

* Clasificar los datos

* Comprobar las hipótesis planteadas



## Abre el archivo de datos y mira la información general. 



In [6]:
# Cargar todas las librerías
import pandas as pd
import numpy as np

In [7]:
# Carga los datos
data_customer = pd.read_csv("/datasets/credit_scoring_eng.csv")
data_customer

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [8]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos

data_customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [9]:
# vamos a mostrar las primeras filas N
data_customer.head(20)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


**Obtener información sobre los datos**

La muestra arroja que la columna days_employed tiene valores negativos y NaN y total_income tiene valores NaN

Antes de eliminar valores NaN hay que determinar si tienen relación con el income_type del cliente

In [10]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
#Se puede observar que en las columnas days_employed y total_income hay valores NaN
filter_days_emp = data_customer[data_customer.days_employed.isna()]

filter_days_emp



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [11]:
comp_days_emp_and_total_income= filter_days_emp[filter_days_emp['total_income'].isna()]
comp_days_emp_and_total_income

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate



Los valores faltantes parecen ser simetricos ya que en las mismas filas indexadas del DataFrame, para days_employed y total_income faltan ambos valores. 

Aun quedan otros factores a identificar. No se vio un patron dentro de los datos. El numero de filas filtradas coincide con la diferencia entre el total de filas y los datos faltantes en ambas columnas.

In [12]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

data_customer.groupby("family_status").count()


Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status_id,gender,income_type,debt,total_income,purpose
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
civil partnership,4177,3735,4177,4177,4177,4177,4177,4177,4177,3735,4177
divorced,1195,1083,1195,1195,1195,1195,1195,1195,1195,1083,1195
married,12380,11143,12380,12380,12380,12380,12380,12380,12380,11143,12380
unmarried,2813,2525,2813,2813,2813,2813,2813,2813,2813,2525,2813
widow / widower,960,865,960,960,960,960,960,960,960,865,960


**Conclusión intermedia**


En la tabla filtrada por family status podemos observar que los los numeros de filas en days employed y total income coinciden con el número de valores ausentes, se puede concluir que hay coincidencia en las filas de los datos faltantes.



Para entender mejor los datos NaN que estan en las columnas "days_employed" y "total_income" comparare, con las columnas de "dob_years" e "income_type" para tratar de encontrar un patron en los datos faltantes  o descaratar esta hipotesis.

**Pasos a seguir serán:**

  1. Calcular el porcentaje que representan esos datos y determinar si la cantidad es significativa sobre el total de datos
  2. Realizar la comparación de las columnas y encontrar un patron 
  3. Para reemplazar los valores faltantes en la columna "total_income" se puede calcular la media de por cada uno de los "income_type" de cada cliente

In [13]:
#

total_rows = 21525
rows_NaN_values = 2174


valores_ausentes = (rows_NaN_values/total_rows)
print(f"El porcentaje de valores ausentes del total de datos es {valores_ausentes:.1%}.")


El porcentaje de valores ausentes del total de datos es 10.1%.


In [14]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
#Comparación de columnas para encontrar un patron
    
filter_days_emp = data_customer[data_customer.days_employed.isna()]

comparacion = filter_days_emp.loc[:, ["days_employed", "income_type", "dob_years", "total_income"]]

comparacion.head(130)

    
    


Unnamed: 0,days_employed,income_type,dob_years,total_income
12,,retiree,65,
26,,civil servant,41,
29,,retiree,63,
41,,civil servant,50,
55,,retiree,54,
...,...,...,...,...
1229,,employee,32,
1237,,retiree,57,
1247,,employee,54,
1249,,employee,43,


In [15]:
# Comprobación de la distribución
comparacion.groupby("income_type").count()


Unnamed: 0_level_0,days_employed,dob_years,total_income
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
business,0,508,0
civil servant,0,147,0
employee,0,1105,0
entrepreneur,0,1,0
retiree,0,413,0




**Posibles razones por las que hay valores ausentes en los datos**  

+ Pueden faltar datos por errores al cargar la información del cliente  

+ El cliente puede no haber suministrado la información cuando le fue solicitada  

A continuación se determinará si los valores ausentes son aleatorios

In [16]:
#El DataFrame con los NaN, filtrando por la columna days_employed


filter_days_emp = data_customer[data_customer.days_employed.isna()]
data_customer_with_nan=filter_days_emp
print(data_customer_with_nan)



       children  days_employed  dob_years            education  education_id  \
12            0            NaN         65  secondary education             1   
26            0            NaN         41  secondary education             1   
29            0            NaN         63  secondary education             1   
41            0            NaN         50  secondary education             1   
55            0            NaN         54  secondary education             1   
...         ...            ...        ...                  ...           ...   
21489         2            NaN         47  Secondary Education             1   
21495         1            NaN         50  secondary education             1   
21497         0            NaN         48    BACHELOR'S DEGREE             0   
21502         1            NaN         42  secondary education             1   
21510         2            NaN         28  secondary education             1   

           family_status  family_status

In [17]:
#El DataFrame sin valores NaN filtrando por la columna income_type
data_customer_notnan_bool = pd.notnull(data_customer["days_employed"])
data_customer_notnan = data_customer[data_customer_notnan_bool]
print(data_customer_notnan)
#data_customer_notnan["income_type"].value_counts(normalize=True)

       children  days_employed  dob_years            education  education_id  \
0             1   -8437.673028         42    bachelor's degree             0   
1             1   -4024.803754         36  secondary education             1   
2             0   -5623.422610         33  Secondary Education             1   
3             3   -4124.747207         32  secondary education             1   
4             0  340266.072047         53  secondary education             1   
...         ...            ...        ...                  ...           ...   
21520         1   -4529.316663         43  secondary education             1   
21521         0  343937.404131         67  secondary education             1   
21522         1   -2113.346888         38  secondary education             1   
21523         3   -3112.481705         38  secondary education             1   
21524         2   -1984.507589         40  secondary education             1   

           family_status  family_status

Comparando los dos dataframe filtrados anteriormente por las variables income_type, debt, family_status

In [18]:
data_customer_with_nan["income_type"].value_counts(normalize=True)

employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64

In [19]:
data_customer_notnan["income_type"].value_counts(normalize=True)

employee                       0.517493
business                       0.236525
retiree                        0.177924
civil servant                  0.067800
unemployed                     0.000103
entrepreneur                   0.000052
paternity / maternity leave    0.000052
student                        0.000052
Name: income_type, dtype: float64

In [20]:
data_customer_notnan["debt"].value_counts(normalize=True)

0    0.918816
1    0.081184
Name: debt, dtype: float64

In [21]:
data_customer_with_nan["debt"].value_counts(normalize=True)

0    0.921803
1    0.078197
Name: debt, dtype: float64

In [22]:
data_customer_with_nan["family_status"].value_counts(normalize=True)

married              0.568997
civil partnership    0.203312
unmarried            0.132475
divorced             0.051518
widow / widower      0.043698
Name: family_status, dtype: float64

In [23]:
data_customer_notnan["family_status"].value_counts(normalize=True)

married              0.575836
civil partnership    0.193013
unmarried            0.130484
divorced             0.055966
widow / widower      0.044701
Name: family_status, dtype: float64

In [24]:
# Comprobando la distribución en el conjunto de datos entero
data_customer["income_type"].value_counts()


employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

**Conclusión intermedia**

 Al realizar la sumatoria por columnas los valores en days_employed y total_income tienen el mismo número de filas 19351, es decir siguen faltando las 2174 filas aunque se realizaron iteraciones con el DataFrame filtrada y con el DataFrame completo
 
 También se realiza una comparación para el dataframe con valores NaN y para el dataframe sin valores NaN, aplicando value_counts(normalize=True) nos regresa la frecuencia relativa, en ambos casos el resultado es muy similar para la comparación co debt e income_type, para famaily_status hay diferencias entre los diferente ítems dentro de la variable.



In [25]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
data_customer.groupby("dob_years").count()


Unnamed: 0_level_0,children,days_employed,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,101,91,101,101,101,101,101,101,101,91,101
19,14,13,14,14,14,14,14,14,14,13,14
20,51,46,51,51,51,51,51,51,51,46,51
21,111,93,111,111,111,111,111,111,111,93,111
22,183,166,183,183,183,183,183,183,183,166,183
23,254,218,254,254,254,254,254,254,254,218,254
24,264,243,264,264,264,264,264,264,264,243,264
25,357,334,357,357,357,357,357,357,357,334,357
26,408,373,408,408,408,408,408,408,408,373,408
27,493,457,493,493,493,493,493,493,493,457,493


**Conclusión intermedia**

Podemos confirmar que los valores ausentes son accidentales. No se observa que haya un patron claro. En el filtro por dob_years hay total de 101 clientes con 0 años, de los cuales solo 10 tienen valores NAN.

In [26]:
# Comprobación de otros patrones: explica cuáles

data_customer["income_type"].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

**Conclusiones**


En la comprobación de otros patrones se observa en promedio en cada categoria de income_type el promedio de datos faltantes es del 10%


### Para abordar los valores ausentes se realizaran los siguientes pasos:
* Calcular el maximo y el minimo de los valores del total_income para determinar el uso de la media o de la mediana
* Obtener los promedios por categorias de los total_income rellenar las categorias
* Para la columna days_employed se utilizaran los mismos criterios.



### Planificación para la transformación de los datos
* Determinar que tipo de datos son
* Identificar y completar los valores ausentes
* Reemplazar el tipo de dato numero real con el tipo int
* Eliminar los datos duplicados
* Clasificar los datos

## Transformación de datos


In [27]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
data_customer["education"].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [28]:
# Arregla los registros si es necesario
#Cambiar todos los datos contenidos en la columna a minúsculas utilizando el método str.lower()
data_customer["education"]=data_customer["education"].str.lower()

In [29]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
data_customer["education"].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Comprueba los datos de la columna `children`]

In [30]:
# Veamos la distribución de los valores en la columna `children`

data_customer["children"].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


Hay dos valores encontrados -1 y 20 en la cantidad de hijos. Pudo haber un error en la captación de los datos o al transcribirlos.

In [31]:
#Calculando el porcentaje de datos con problemas en la columna "children"
#Tomando los valores de la distribución anterior tenemos que:
number_of_total_data=21525
number_of_child_negative= 47
number_children_20= 76

percentage_of_affected_data = (number_of_child_negative+number_children_20)/number_of_total_data
print(f"El porcentaje de datos afectados es: {percentage_of_affected_data:.1%}")

#Dado que el porcentaje de los datos afectados es tan bajo los reemplazaremos con los valores de 1 para -1 y 2 para los que tienen 20

El porcentaje de datos afectados es: 0.6%


In [32]:
# [arregla los datos según tu decisión]
data_customer.loc[data_customer["children"]== 20, "children"]= 2
data_customer.loc[data_customer["children"]== -1, "children"]= 1

In [33]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
data_customer["children"].unique()


array([1, 0, 3, 2, 4, 5])

[Comprueba los datos en la columna `days_employed`. En primer lugar, piensa qué tipo de problemas podría haber, qué posiblemente desees comprobar y cómo lo harás.]

In [34]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
print(data_customer["days_employed"].isnull().sum())

2174


In [35]:
print(data_customer["days_employed"].unique())

[-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]


 Estos datos en negativo y faltante puede ser generado por errores de ingreso al sistema o en algunos casos, como los valores faltantes, puede ser que no hayanestado disponibles en su momento y después no se completaron.

Hay 2174 valores ausentes en la columna, además de datos de días en negativo.Habrá que convertir los valores negativos a positivos, después imputar los valores NaN con la mediana.

In [44]:
# Aborda los valores problemáticos, si existen.
#para convertir los datos positivos a NaN promero hay que convertir las str en int con el método to_numeric()

data_customer['days_employed'] = pd.to_numeric(data_customer['days_employed'], errors='coerce')


print(data_customer["days_employed"].head(50))

0     -8437.673028
1     -4024.803754
2     -5623.422610
3     -4124.747207
4              NaN
5      -926.185831
6     -2879.202052
7      -152.779569
8     -6929.865299
9     -2188.756445
10    -4171.483647
11     -792.701887
12             NaN
13    -1846.641941
14    -1844.956182
15     -972.364419
16    -1719.934226
17    -2369.999720
18             NaN
19   -10038.818549
20    -1311.604166
21     -253.685166
22    -1766.644138
23     -272.981385
24             NaN
25             NaN
26             NaN
27     -529.191635
28     -717.274324
29             NaN
30             NaN
31    -1682.083438
32    -4649.910832
33    -1548.637544
34    -4488.067031
35             NaN
36     -176.216688
37    -6448.810860
38     -597.881827
39     -650.587796
40    -1030.362606
41             NaN
42    -1257.496190
43    -4375.681384
44    -1362.041728
45    -1039.451741
46    -2262.712304
47    -2689.137274
48    -3341.067886
49    -1181.443228
Name: days_employed, dtype: float64


In [45]:
#para convertir los positivos en NaN se realiza el siguiente bucle, y procedemos a comprobar los resultados
for row in data_customer["days_employed"]:
    if row > 0:
        data_customer["days_employed"] = data_customer["days_employed"].replace({row:"NaN"})

data_customer["days_employed"]

0       -8437.673028
1       -4024.803754
2       -5623.422610
3       -4124.747207
4                NaN
            ...     
21520   -4529.316663
21521            NaN
21522   -2113.346888
21523   -3112.481705
21524   -1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [46]:
# Comprueba el resultado - asegúrate de que esté arreglado
#En este paso convertiremos los valores negativos en positivos y utilizaremos la mediana para reemplazar los valores NaN
#conversión de números negativos a positivos, utilizando .abs:

data_customer["days_employed"] = data_customer["days_employed"].abs()



print(data_customer["days_employed"].head(30))




0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4              NaN
5       926.185831
6      2879.202052
7       152.779569
8      6929.865299
9      2188.756445
10     4171.483647
11      792.701887
12             NaN
13     1846.641941
14     1844.956182
15      972.364419
16     1719.934226
17     2369.999720
18             NaN
19    10038.818549
20     1311.604166
21      253.685166
22     1766.644138
23      272.981385
24             NaN
25             NaN
26             NaN
27      529.191635
28      717.274324
29             NaN
Name: days_employed, dtype: float64


In [47]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje

wrong_values_in_dob_years = data_customer.loc[data_customer["dob_years"]==0]["dob_years"]
total_row=21525
dob_years_row_problem = 101
percent_data = (dob_years_row_problem/total_row)
print(wrong_values_in_dob_years)
print(f"Repesenta un porcentaje de {percent_data:.1%}.")




99       0
149      0
270      0
578      0
1040     0
        ..
19829    0
20462    0
20577    0
21179    0
21313    0
Name: dob_years, Length: 101, dtype: int64
Repesenta un porcentaje de 0.5%.


In [48]:
print(data_customer.loc[data_customer["dob_years"]==0].head(10))

      children  days_employed  dob_years            education  education_id  \
99           0            NaN          0  secondary education             1   
149          0    2664.273168          0  secondary education             1   
270          3    1872.663186          0  secondary education             1   
578          0            NaN          0  secondary education             1   
1040         0    1158.029561          0    bachelor's degree             0   
1149         0     934.654854          0  secondary education             1   
1175         0            NaN          0  secondary education             1   
1386         0    5043.219890          0    bachelor's degree             0   
1890         0            NaN          0    bachelor's degree             0   
1898         0            NaN          0  secondary education             1   

        family_status  family_status_id gender    income_type  debt  \
99            married                 0      F        retir

Con los datos de edad 0 agrupare por income_type para sectorizar por tipo de ingreso y decidir que valor darle. 

Arreglando primero los problemas de edad 0 en la columna dob_years, los mismos seran rellenados utilizando la mediana

        

In [49]:
data_customer["dob_median"]= data_customer.groupby(["gender", "income_type"])["dob_years"].transform("median")
data_customer

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40
21521,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,38
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,38


In [50]:
data_customer_merge=data_customer

In [51]:
# Veamos los valores de la columna
data_customer_merge["family_status"].isna()


0        False
1        False
2        False
3        False
4        False
         ...  
21520    False
21521    False
21522    False
21523    False
21524    False
Name: family_status, Length: 21525, dtype: bool

In [52]:
# Aborda los valores problemáticos en `family_status`, si existen
data_customer_merge["family_status"].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado


Revisando los datos de la columna "gender"

In [53]:
# Veamos los valores en la columna
data_customer_merge["gender"].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [54]:
# Aborda los valores problemáticos, si existen
data_customer_merge[data_customer_merge["gender"]=="XNA"]["gender"]

10701    XNA
Name: gender, dtype: object

In [55]:
#Revisando la fila número 10701, para evaluar por qué el genero es XNA
data_customer_merge.loc[10701]

children                            0
days_employed             2358.600502
dob_years                          24
education                some college
education_id                        2
family_status       civil partnership
family_status_id                    1
gender                            XNA
income_type                  business
debt                                0
total_income                32624.825
purpose               buy real estate
dob_median                         24
Name: 10701, dtype: object

In [56]:
data_customer_merge.duplicated(subset=['gender']).head(11)

0     False
1      True
2     False
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
dtype: bool

In [None]:
#Revisando algunas de las filas para ver su contenido e identificar valores duplicados
data_customer_merge.loc[0:10]


XNA Corresponde a una indsutria por lo que en gender no corresponderia aplicar ni masculino ni femenino a esta fila


In [57]:
# Veamos los valores en la columna
data_customer_merge["income_type"]

0        employee
1        employee
2        employee
3        employee
4         retiree
           ...   
21520    business
21521     retiree
21522    employee
21523    employee
21524    employee
Name: income_type, Length: 21525, dtype: object

In [58]:
# Aborda los valores problemáticos, si existen
data_customer_merge.loc[0:10]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,38
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,38
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,40
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,38


In [59]:
data_customer_merge.loc[20845]

children                                      2
days_employed                       3296.759962
dob_years                                    39
education                   secondary education
education_id                                  1
family_status                           married
family_status_id                              0
gender                                        F
income_type         paternity / maternity leave
debt                                          1
total_income                           8612.661
purpose                                     car
dob_median                                   39
Name: 20845, dtype: object

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado



In [60]:
# Comprobar los duplicados
data_customer_merge.duplicated(subset=['income_type'])


0        False
1         True
2         True
3         True
4        False
         ...  
21520     True
21521     True
21522     True
21523     True
21524     True
Length: 21525, dtype: bool

In [None]:
# Aborda los duplicados, si existen
#No se encontraron valores duplicados o mal escritos en la columna.

In [61]:
# Última comprobación para ver si tenemos duplicados
data_customer_merge.duplicated().sum()

71

In [62]:
#Eliminando los duplicados
data_customer_merge=data_customer_merge.drop_duplicates().reset_index(drop=True)

In [63]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones

print(np.size(data_customer_merge))

278902



Durante las ultimas manipulaciones se agregó una columna llamada dob_median que guarda los valores de la mediana de las edades de los clientes

In [64]:
data_customer_merge.loc[:,["dob_years", "dob_median"]].head(20)

Unnamed: 0,dob_years,dob_median
0,42,40
1,36,40
2,33,38
3,32,38
4,53,60
5,27,38
6,43,40
7,50,38
8,35,40
9,41,38


# Trabajar con valores ausentes

 Dentro del DataFrame se pudieron encontrar dos diccionarios para la columna education y education id y para la columna family status y family status id.

In [None]:
# Encuentra los diccionarios
#Diccionario de educación

education_dic = {
    0:"bachelor's degree",
    1:"secondary education",
    2:"some college",
    3:"primary education",
    4:"graduate degree"
    }
#Diccionario de familia

family_dic = {
     0:"married",
    1:"civil parnership",
    2:"widow / widower",
    3:"divorced",
    4:"unmarried"
}


In [65]:
data_customer_merge["dob_years"].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

### Restaurar valores ausentes en `total_income`

 La columna total income presenta valores ausentes. Por la gran cantidad de valores y el amplio rango de los mismos será mejor imputarlos con la mediana para asegurar que se está trabajando con los valores más al centro. 




In [66]:
# Vamos a escribir una función que calcule la categoría de edad
def age_class(dob_years):
    if dob_years <30:
        return "young"
    if dob_years <40:
        return "young adults"
    if dob_years <50:
        return "adults"
    if dob_years <60:
        return "mature"
    if dob_years>=60:
        return "older"
     
    

In [67]:
# Prueba si la función funciona bien
dob_years= 60
example = age_class(dob_years)
print(example)

older


In [68]:
# Crear una nueva columna basada en la función
data_customer_merge["age_class"]= data_customer_merge["dob_years"].apply(age_class)


In [69]:
# Comprobar cómo los valores en la nueva columna
data_customer_merge


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40,adults
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40,young adults
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38,young adults
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38,young adults
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40,adults
21450,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60,older
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,38,young adults
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,38,young adults


In [70]:
data_customer_merge2 =data_customer_merge
data_customer_merge2

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40,adults
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40,young adults
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38,young adults
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38,young adults
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40,adults
21450,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60,older
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,38,young adults
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,38,young adults


Evaluando la información contenida en el DataFrame, los valores que impactan a la columna total_income son education, income_type y dob_years. A continuación revisaremos dichos valores 

In [71]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
data_customer_merge2_skipna = data_customer_merge2["total_income"].isna()
data_customer_merge2_skipna = ~data_customer_merge2_skipna
data_customer_merge2_skipna.head(30)

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12    False
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
26    False
27     True
28     True
29    False
Name: total_income, dtype: bool

In [72]:
data_customer_merge2_clean=data_customer_merge2[data_customer_merge2_skipna]
data_customer_merge2_clean.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40,adults
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40,young adults
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38,young adults
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38,young adults
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,38,young
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40,adults
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,38,mature
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,40,young adults
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,38,adults


In [73]:
data_customer_merge2_clean["days_employed"].isna().sum()

3445

In [74]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
data_customer_merge2_clean_group_education_mean=data_customer_merge2_clean.groupby(["education","education_id"])["total_income"].mean()
data_customer_merge2_clean_group_education_mean



education            education_id
bachelor's degree    0               33142.802434
graduate degree      4               27960.024667
primary education    3               21144.882211
secondary education  1               24594.503037
some college         2               29045.443644
Name: total_income, dtype: float64

In [75]:
data_customer_merge2_clean_group_education_mean.index

MultiIndex([(  'bachelor's degree', 0),
            (    'graduate degree', 4),
            (  'primary education', 3),
            ('secondary education', 1),
            (       'some college', 2)],
           names=['education', 'education_id'])

In [76]:
type(data_customer_merge2_clean_group_education_mean)

pandas.core.series.Series

In [77]:
data_customer_merge2_clean_group_education_mean.loc["primary education",3]

21144.882210727974

In [78]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
data_customer_merge2_clean_group_education_median=data_customer_merge2_clean.groupby(["education","education_id"])["total_income"].median()
data_customer_merge2_clean_group_education_median


education            education_id
bachelor's degree    0               28054.5310
graduate degree      4               25161.5835
primary education    3               18741.9760
secondary education  1               21836.5830
some college         2               25618.4640
Name: total_income, dtype: float64

In [79]:
#Determinando el valor máximo en la columna
data_customer_merge2_clean_group_education_max = data_customer_merge2_clean.groupby(["education","education_id"])["total_income"].max()
data_customer_merge2_clean_group_education_max

education            education_id
bachelor's degree    0               362496.645
graduate degree      4                42945.794
primary education    3                78410.774
secondary education  1               276204.162
some college         2               153349.533
Name: total_income, dtype: float64

In [80]:
#Determinando el valor mínimo en la columna
data_customer_merge2_clean_group_education_min=data_customer_merge2_clean.groupby(["education","education_id"])["total_income"].min()
data_customer_merge2_clean_group_education_min

education            education_id
bachelor's degree    0                5148.514
graduate degree      4               15800.399
primary education    3                4049.374
secondary education  1                3306.762
some college         2                5514.581
Name: total_income, dtype: float64


Después de cálcular los valores de la media, la mediana, valores máximos y mínimos, observando la gran diferencia entre los valores máximos y mínimos y su influencia en el resultado de la media, es recomendable utilizar la mediana, ya que son valores más centrales.


In [81]:
median_income_type= data_customer_merge2_clean_group_education_median.reset_index()
median_income_type= median_income_type.rename(columns = {"total_income":"median_income_type_col"})
data_customer_merge3= data_customer_merge2.merge(median_income_type, on=["education", "education_id"],how="left")
data_customer_merge3.loc[data_customer_merge3["total_income"].isna(), "total_income"]=data_customer_merge3.loc[data_customer_merge3["total_income"].isna(), "median_income_type_col"]


In [82]:
data_customer_merge3.loc[data_customer_merge3["total_income"].isna(), "total_income"]=data_customer_merge3.loc[data_customer_merge3["total_income"].isna(), "median_income_type_col"]

In [83]:
def replace_nan_values (clean_df, df, col_grouped1, col_grouped2, col_problem, col_name):
    #col_name =  #nombre de la columna a crear 
    median_income_type= clean_df.groupby([col_grouped1,col_grouped2])[col_problem].median().reset_index()
    median_income_type= median_income_type.rename(columns = {col_problem:col_name})
    new_data_updated= df.merge(median_income_type, on=[col_grouped1, col_grouped2],how="left")
    new_data_updated.loc[new_data_updated[col_problem].isna(), col_problem]=new_data_updated.loc[new_data_updated[col_problem].isna(), col_name]
    return new_data_updated

In [84]:
data_updated= replace_nan_values (data_customer_merge2_clean, data_customer_merge2, "education", "education_id", "total_income", "median_income_type_col")
data_updated

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class,median_income_type_col
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40,adults,28054.531
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40,young adults,21836.583
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38,young adults,21836.583
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38,young adults,21836.583
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature,21836.583
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40,adults,21836.583
21450,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60,older,21836.583
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,38,young adults,21836.583
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,38,young adults,21836.583


In [85]:
# Comprueba si funciona
data_updated["total_income"].head(15)

0     40620.102
1     17932.802
2     23341.752
3     42820.568
4     25378.572
5     40922.170
6     38484.156
7     21731.829
8     15337.093
9     23108.150
10    18230.959
11    12331.077
12    21836.583
13    20873.317
14    26420.466
Name: total_income, dtype: float64

In [None]:
# Aplícalo a cada fila


In [86]:
# Comprueba si tenemos algún error
data_updated.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   children                21454 non-null  int64  
 1   days_employed           15906 non-null  float64
 2   dob_years               21454 non-null  int64  
 3   education               21454 non-null  object 
 4   education_id            21454 non-null  int64  
 5   family_status           21454 non-null  object 
 6   family_status_id        21454 non-null  int64  
 7   gender                  21454 non-null  object 
 8   income_type             21454 non-null  object 
 9   debt                    21454 non-null  int64  
 10  total_income            21454 non-null  float64
 11  purpose                 21454 non-null  object 
 12  dob_median              21454 non-null  int64  
 13  age_class               21454 non-null  object 
 14  median_income_type_col  21454 non-null

In [None]:
# Reemplazar los valores ausentes si hay algún error


In [None]:
# Comprobar el número de entradas en las columnas



###  Restaurar valores en `days_employed`

In [87]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
#Utilizando el DataFrame sin valores NaN se calculará la mediana para esta columna
#Los parámetros identificados para este caso serán income_type, y age_class.
data_updated_demployed_median=data_customer_merge2_clean.groupby(["income_type","age_class"])["days_employed"].median()
data_updated_demployed_median


income_type                  age_class   
business                     adults          1896.569279
                             mature          2003.075639
                             older           2470.912766
                             young            915.924492
                             young adults    1526.857305
civil servant                adults          3551.609375
                             mature          3822.891349
                             older           3318.440092
                             young           1415.623588
                             young adults    2591.886944
employee                     adults          1904.197739
                             mature          2235.163052
                             older           2669.390397
                             young           1015.395451
                             young adults    1527.637665
entrepreneur                 young            520.848083
paternity / maternity leave  young adults    3

In [88]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
#Utilizando el DataFrame sin valores NaN se calculará la media para esta columna
#Los parámetros identificados para este caso serán income_type, y age_class.
data_updated_demployed_mean=data_customer_merge2_clean.groupby(["income_type","age_class"])["days_employed"].mean()
data_updated_demployed_mean

income_type                  age_class   
business                     adults          2477.016422
                             mature          2795.567404
                             older           3595.742298
                             young           1143.509501
                             young adults    1854.594279
civil servant                adults          4032.418745
                             mature          4825.214157
                             older           4343.083365
                             young           1712.495671
                             young adults    2764.437287
employee                     adults          2673.300396
                             mature          3254.446979
                             older           3901.808301
                             young           1221.841229
                             young adults    2010.804449
entrepreneur                 young            520.848083
paternity / maternity leave  young adults    3

Se utilizará la mediana ya que por el tamaño de la muestra y el rango de los valores contenidos, podemos asegurar que los datos para imputar estran más cerca de la realidad

In [89]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def median_days_employed (clean_df,col_gro1, col_gro2,col_problem):
    d_employed_median=clean_df.groupby([col_gro1,col_gro2])[col_problem].median()
    return d_employed_median

In [90]:
# Comprueba que la función funciona
days_emp_median= median_days_employed (data_customer_merge2_clean,"income_type", "age_class","days_employed")

days_emp_median

income_type                  age_class   
business                     adults          1896.569279
                             mature          2003.075639
                             older           2470.912766
                             young            915.924492
                             young adults    1526.857305
civil servant                adults          3551.609375
                             mature          3822.891349
                             older           3318.440092
                             young           1415.623588
                             young adults    2591.886944
employee                     adults          1904.197739
                             mature          2235.163052
                             older           2669.390397
                             young           1015.395451
                             young adults    1527.637665
entrepreneur                 young            520.848083
paternity / maternity leave  young adults    3

In [91]:
# Aplicar la función al income_type
data_customer_updated2= replace_nan_values (data_customer_merge2_clean, data_updated, "income_type", "age_class", "days_employed", "d_employed_median")


In [92]:
# Comprueba si la función funcionó
data_customer_updated2


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class,median_income_type_col,d_employed_median
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40,adults,28054.531,1904.197739
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,40,young adults,21836.583,1527.637665
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,38,young adults,21836.583,1527.637665
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,38,young adults,21836.583,1527.637665
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature,21836.583,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40,adults,21836.583,1896.569279
21450,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60,older,21836.583,
21451,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,38,young adults,21836.583,1527.637665
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,38,young adults,21836.583,1527.637665


In [93]:
# Reemplazar valores ausentes
data_customer_updated2.info()



<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21453
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   children                21454 non-null  int64  
 1   days_employed           17622 non-null  float64
 2   dob_years               21454 non-null  int64  
 3   education               21454 non-null  object 
 4   education_id            21454 non-null  int64  
 5   family_status           21454 non-null  object 
 6   family_status_id        21454 non-null  int64  
 7   gender                  21454 non-null  object 
 8   income_type             21454 non-null  object 
 9   debt                    21454 non-null  int64  
 10  total_income            21454 non-null  float64
 11  purpose                 21454 non-null  object 
 12  dob_median              21454 non-null  int64  
 13  age_class               21454 non-null  object 
 14  median_income_type_col  21454 non-null

In [94]:
data_customer_updated2["days_employed"].isna().sum()  #Ubicando el valor faltante

3832

In [95]:
isna_row = data_customer_updated2[data_customer_updated2.isnull().any(1)]
isna_row

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_median,age_class,median_income_type_col,d_employed_median
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,60,mature,21836.583,
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,21836.583,to have a wedding,60,older,21836.583,
18,0,,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car,60,mature,21836.583,
24,1,,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate,60,mature,21836.583,
25,0,,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate,60,older,21836.583,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21434,0,,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding,60,mature,21836.583,
21437,0,,62,secondary education,1,married,0,M,retiree,0,11622.175,property,60,older,21836.583,
21438,0,,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions,60,mature,28054.531,
21447,0,,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car,60,mature,21836.583,


In [96]:
#Tomando la mediana de los factores identificados, se utilizará el método fillna()
data_customer_updated2= data_customer_updated2.fillna(520.848083)

In [97]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
data_customer_updated2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21453
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   children                21454 non-null  int64  
 1   days_employed           21454 non-null  float64
 2   dob_years               21454 non-null  int64  
 3   education               21454 non-null  object 
 4   education_id            21454 non-null  int64  
 5   family_status           21454 non-null  object 
 6   family_status_id        21454 non-null  int64  
 7   gender                  21454 non-null  object 
 8   income_type             21454 non-null  object 
 9   debt                    21454 non-null  int64  
 10  total_income            21454 non-null  float64
 11  purpose                 21454 non-null  object 
 12  dob_median              21454 non-null  int64  
 13  age_class               21454 non-null  object 
 14  median_income_type_col  21454 non-null

## Clasificación de datos




In [98]:
# Muestra los valores de los datos seleccionados para la clasificación
data_selected = data_customer_updated2[["children", "total_income","debt", "family_status", "purpose"]]
data_selected.value_counts()


children  total_income  debt  family_status      purpose                            
0         21836.583     0     civil partnership  having a wedding                       29
                                                 to have a wedding                      29
                                                 wedding ceremony                       25
                              married            buy real estate                        24
                                                 purchase of the house for my family    23
                                                                                        ..
          23388.807     0     unmarried          building a real estate                  1
          23387.562     0     civil partnership  to get a supplementary education        1
          23387.294     0     divorced           housing                                 1
          23385.010     0     married            purchase of my own house                1
5    

In [99]:
# Comprobar los valores únicos
data_selected.purpose.unique()


array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going


Se puedieron identificar en base a los valores únicos los siguientes grupos:

1. Car
2. Real estate
3. Wedding
4. Education
5. House



In [100]:
# Escribamos una función para clasificar los datos en función de temas comunes (se evalua la columna purpose)
def purpose_group (purpose):
    if "car" in purpose:
        return "car"
    if "wedding" in purpose:
        return "wedding"
    if ("educat" in purpose) or ("university" in purpose):
        return "education"
    if ("real estate" in purpose) or ("property" in purpose):
        return "real estate"
    if ("house" in purpose) or ("housing" in purpose):
        return "house"
    else:
        return "other"

In [101]:
# Crea una columna con las categorías y cuenta los valores en ellas
data_selected["purpose_grouped"]= data_selected["purpose"].apply(purpose_group)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_selected["purpose_grouped"]= data_selected["purpose"].apply(purpose_group)


In [102]:
print(data_selected["purpose_grouped"])

0              house
1                car
2              house
3          education
4            wedding
            ...     
21449          house
21450            car
21451    real estate
21452            car
21453            car
Name: purpose_grouped, Length: 21454, dtype: object


In [103]:
data_selected["purpose_grouped"].value_counts()

real estate    7002
car            4306
education      4013
house          3809
wedding        2324
Name: purpose_grouped, dtype: int64

[Si decides clasificar los datos numéricos, también tendrás que crear las categorías para ello.]

In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación (se revisará la columna total_income)
#Se utiliza el método describe() para obtener los datos estadisticos de la columna seleccionada
data_selected

In [104]:
# Obtener estadísticas resumidas para la columna

#Se utiliza el método describe() para obtener los datos estadisticos de la columna seleccionada
data_selected["total_income"].describe()

count     21454.000000
mean      26466.156267
std       15701.145024
min        3306.762000
25%       17219.817250
50%       22583.630500
75%       31330.237250
max      362496.645000
Name: total_income, dtype: float64

 
Debido al amplio número de valores contenidos en la columna, se trabajaran los siguientes rangos en intervalos de 65000:

+ less than 15000
+ between 15000 and 80000
+ between 80000 and 145000
+ between 145000 and 210000
+ more than 210000




In [105]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def range_of_income (income):
    if income <15000:
        return "less than 15000"
    if income >=15000 and income <80000:
        return "15000-80000"
    if income >=80000 and income <145000:
        return "80000-145000"
    if income >= 145000 and income <210000:
        return "145000-210000"
    if income >=210000:
        return "more than 210000"
    




In [106]:
# Crear una columna con categorías
data_selected["income_grouped"]= data_selected["total_income"].apply(range_of_income)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_selected["income_grouped"]= data_selected["total_income"].apply(range_of_income)


In [107]:
# Contar los valores de cada categoría para ver la distribución
data_selected["income_grouped"].value_counts()

15000-80000         17489
less than 15000      3743
80000-145000          192
145000-210000          21
more than 210000        9
Name: income_grouped, dtype: int64

In [None]:
data_selected

## Comprobación de las hipótesis


In [108]:
#Antes de comprobar las hipótesis se calculara cuanto es la tasa de incumplimiento general
rate_debt= (data_selected["debt"].value_counts()/len(data_selected))[1]
print(f"El porcentaje de incumplimiento general es del {rate_debt:.1%}.")

El porcentaje de incumplimiento general es del 8.1%.


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [109]:
# Comprueba los datos sobre los hijos y los pagos puntuales


children_group= data_selected["children"].value_counts()    #--->Cálculo de número de clientes con deuda y que tienen hijos
children_debt= data_selected.groupby("children").agg({"debt":"sum"})

# Calcular la tasa de incumplimiento en función del número de hijos
children_debt["rate_children_%"]= (children_debt["debt"]/children_group)*100


In [110]:
#Mostrando los resultados
print(children_debt)

          debt  rate_children_%
children                       
0         1063         7.543822
1          445         9.165808
2          202         9.492481
3           27         8.181818
4            4         9.756098
5            0         0.000000


**Conclusión**

Podemos observar al comparar, con la tasa general de incumplimiento, los casos que pudieran ser de mayor riesgo son **uno, dos y cuatro hijos**, ya que están por sobre la tasa general **más de un punto porcentual**. Sorprende que para los que tienen cinco hijos la tasa de incumplimiento es del **0%**


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [111]:
# Comprueba los datos del estado familiar y los pagos a tiempo

family_group= data_selected["family_status"].value_counts()
family_debt= data_selected.groupby("family_status").agg({"debt":"sum"})

# Calcular la tasa de incumplimiento basada en el estado familiar
family_debt["rate_family_%"]= (family_debt["debt"]/family_group)*100


In [112]:
#Mostrando los resultados
print(family_debt)

                   debt  rate_family_%
family_status                         
civil partnership   388       9.347145
divorced             85       7.112971
married             931       7.545182
unmarried           274       9.750890
widow / widower      63       6.569343


**Conclusión**

La tasa de incumplimiento para los que están en **unión civil** y **no casados** son los grupos más riesgosos ya que se encuentra por arriba de la tasa general de incumplimiento **poco más de un 1%**, por el contrario para los viudos la tasa de riesgo es la más baja y se ubica en el **6.56%**, es decir, más favorable para otorgar un prestamo.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [113]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

income_group= data_selected["income_grouped"].value_counts()
income_debt= data_selected.groupby("income_grouped").agg({"debt":"sum"})

# Calcular la tasa de incumplimiento basada en el nivel de ingresos
income_debt["rate_income_%"]= (income_debt["debt"]/income_group)*100



In [114]:
#Mostrando los resultados
print(income_debt)

                  debt  rate_income_%
income_grouped                       
145000-210000        1       4.761905
15000-80000       1429       8.170850
80000-145000        12       6.250000
less than 15000    298       7.961528
more than 210000     1      11.111111


**Conclusión**

Los que tinen ingresos superiores a los 210000, tienen una tasa de incumplimiento mayor de tres puntos porcentuales por arriba de la tasa general **(11,1%)** y es superior, por ejemplo, a los que se encuentran en el rango de 15000 a 80000. La tasa más baja es la que está en el rango de 145000 a 210000 con solo el **4.76%.**

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [115]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
purpose_group= data_selected["purpose_grouped"].value_counts()
purpose_debt= data_selected.groupby("purpose_grouped").agg({"debt":"sum"})

# Calcular la tasa de incumplimiento basada en el nivel de ingresos
purpose_debt["rate_purpose_%"]= (purpose_debt["debt"]/purpose_group)*100


In [116]:
print(purpose_debt)

                 debt  rate_purpose_%
purpose_grouped                      
car               403        9.359034
education         370        9.220035
house             256        6.720924
real estate       526        7.512139
wedding           186        8.003442


**Conclusión**

Se puede observar que los clientes con propositos como **casarse, inversiones en bienes raices y casas** tienen una tasa de incumplimiento por **debajo del 8%**, en comparación con aquellos clientes que su proposito del crédito va dirigido a la **compra de autos o para educación** en un tasa de incumplimineto superior al **9%**


# Conclusión general 



1. Los valores ausentes parecen ser simetricos ya que en las mismas filas indexadas del DataFrame, para days_employed y total_income faltan en las mismas filas.

2. En la tabla filtrada por family status se pudo observar que los los numeros de filas en days employed y total income coinciden con el número de valores ausentes, se puede concluir que hay coincidencia en las filas de los datos faltantes.

3. Inicialmente los valores ausentes representaban el 10,1%, o 2174 filas, del total de los datos contenidos en el DataFrame, por lo que dado el número de filas no es recomendable eliminarlas.

4. Las posibles razones por las cuales habían valores problematicos pueden haberse a errores al transcribir y registrar los valores o también pueden venir desde la misma fuente que suministra los datos. Para minimisar este tipo de errores debe hacerse la menor cantidad de escritura de los mismos.




los casos que pudieran ser de mayor riesgo son uno, dos y cuatro hijos, ya que están por sobre la tasa general más de un punto porcentual. 

La tasa de incumplimiento para los que están en unión civil y no casados se encuentran por arriba de la tasa general de incumplimiento poco más de un 1%, por el contrario para los viudos la tasa de riesgo se ubica en el 6.56%. 

Los que tinen ingresos superiores a los 210000, tienen una tasa de incumplimiento mayor de tres puntos porcentuales por arriba de la tasa general (11,1%) aunque la cantidad de clientes deudores es muy baja. 

Se puede observar que los clientes con propositos como casarse, inversiones en bienes raices y casas tienen una tasa de incumplimiento por debajo del 8%.