# Tabla de Contenido

* [Introducción](#introducción)
* [1 Abre el archivo de datos y mira la información general](#1)
* [2 Exploracion de datos](#2)
* [3 Transformación de datos](#3)
    * [3.1 Restaurar valores ausentes en total_income](#3.1)
    * [3.2 Restaurar valores en days_employed](#3.2)
* [4 Clasificación de datos](#4)
* [5 Comprobacion de las hipótesis](#5)
    
    
    

# Introducción


# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


## Abre el archivo de datos y mira la información general. 


In [2]:
# Se cargan todas las librerías

import pandas as pd 
import numpy as np

In [3]:
# Se cargan los datos

df = pd.read_csv('/datasets/credit_scoring_eng.csv') 


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [4]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos

df.shape 


(21525, 12)

In [5]:
# Vamos a mostrar las primeras 10 filas
    
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [6]:
# Obtenemos información sobre los datos

df.info() 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [7]:
# Obtenemos una descripción de los datos

df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Observamos que solo hay valores ausentes en las columnas days_employed y total_income, al mismo tiempo con la misma cantidad.

In [8]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

df[df['days_employed'].isna()].head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [9]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

df_filtro = df[df['days_employed'].isna()]
df_filtro = df_filtro[df_filtro['total_income'].isna()]
df_filtro.shape[0]

df_distribucion = df_filtro.shape[0] / df.shape[0]
print(f'{df_distribucion:.2%}')



10.10%


**Conclusión intermedia**

Por los momentos, se observa que la cantidad de los valores que faltan es igual a la cantidad de tablas filtradas, lo cual nos dice que los valores ausentes son simétricos.

Por otro lado, el porcentaje de los valores faltantes es del 10%, lo cual es una cantidad significante que afecta el proyecto.


In [10]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

df_filtro.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [11]:
# Comprobación de la distribución

print(df_filtro['income_type'].value_counts())
print()
abc = df_filtro['income_type'].value_counts(normalize = True)

print(abc)
print(abc.sum())

xyz = df_filtro['income_type'].value_counts() / len(df_filtro)
print(xyz)
print(xyz.sum())

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64
1.0
employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64
1.0


Se puede observar que los datos que faltan se distribuyen en un rango del 10% entre 4 tópicos, asimismo que hay valores cuyos datos no son válidos para calcular, como lo son "paternity / maternity leave", "student", "unemployed" y "entrepreneur".


In [12]:
# Comprobando la distribución en el conjunto de datos entero

df.isna().sum() / df.shape[0] * 100


children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

**Conclusión intermedia**

Efectivamente, nuestra hipotesis que los valores faltantes son similares a la tabla filtrada, es acertada. Solo los valores ausentes están presentes en las columnas "days_employed" y "total_income".

Para saber si hay datos ausentes por efectos del azar o por un patrón, realizaremos unos procedimientos...


In [13]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes

print(df_filtro['family_status'].value_counts())
print()
df_filtro['family_status'].value_counts() / df['family_status'].value_counts() * 100

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64



married               9.991922
civil partnership    10.581757
unmarried            10.238180
divorced              9.372385
widow / widower       9.895833
Name: family_status, dtype: float64

**Conclusión intermedia**

Se puede observar que los valores ausentes están distribuidos de forma uniforme en las categorías de la columna "family_status", la diferencia entre cada una es mínima.


In [14]:
# Comprobación de otros patrones: explica cuáles

print(df_filtro['gender'].value_counts())
print()
df_filtro['gender'].value_counts() / df['gender'].value_counts() * 100

F    1484
M     690
Name: gender, dtype: int64



F      10.424276
M       9.467618
XNA          NaN
Name: gender, dtype: float64

**Conclusiones**

Podemos decir que la causa de los datos faltantes es un error al momento de la transcripción, puede ser humano o de configuración, ya que ocurre en varias categorías y que es simétrico la ausencia de datos en dos columnas anteriormente mencionadas, al mismo tiempo se demostró que estudiando la columna "gender" hay valores faltantes en un rango del 10%, lo cual los datos faltantes no se encuentran en una sola categoría.



## Transformación de datos


In [15]:
# Veamos todos los valores en la columna EDUCATION

df['education'].value_counts()


secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [16]:
# Arreglamos los registros si es necesario

df['education'] = df['education'].str.lower()
df['education'] = df['education'].replace('secondary education', 'secondary_education')
df['education'] = df['education'].replace("bachelor's degree", 'bachelors_degree')
df['education'] = df['education'].replace('some college', 'some_college')
df['education'] = df['education'].replace('primary education', 'primary_education')
df['education'] = df['education'].replace('graduate degree', 'graduate_degree')


In [17]:
# Comprobamos que los valores estén corregidos

df['education'].value_counts()


secondary_education    15233
bachelors_degree        5260
some_college             744
primary_education        282
graduate_degree            6
Name: education, dtype: int64

In [18]:
# Veamos todos los valores en la columna CHILDREN

df['children'].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Se nota que hay un -1 y 20 como categorías, suponemos que es más un error humano que de cómputo, así que reemplazaremos eso por 1 y 2, respectivamente.

In [19]:
# Arreglamos los registros si es necesario

df['children'] = df['children'].replace([-1], 1) 
df['children'] = df['children'].replace([20], 2)


In [20]:
# Comprobamos que los valores estén corregidos

df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [21]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje

df[df['income_type'] == 'retiree']


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary_education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
12,0,,65,secondary_education,1,civil partnership,1,M,retiree,0,,to have a wedding
18,0,400281.136913,53,secondary_education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary_education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary_education,1,married,0,M,retiree,0,8818.041,buy real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,secondary_education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,386497.714078,62,secondary_education,1,married,0,M,retiree,0,11622.175,property
21509,0,362161.054124,59,bachelors_degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,373995.710838,59,secondary_education,1,married,0,F,retiree,0,24618.344,purchase of a car


In [22]:
# Aborda los valores problemáticos, si existen.

df_dias = (df['days_employed'] < 0).sum() + (df['days_employed'] > 22000).sum()
print(df_dias)

df_dias_porce = df_dias / df.shape[0]
print(f'{df_dias_porce:.2%}')

df['days_employed'] = df['days_employed'].abs()
df.loc[df['days_employed'] > 22000, 'days_employed'] = 0


19351
89.90%


In [23]:
# Comprueba el resultado - asegúrate de que esté arreglado

print(df['days_employed'].describe())
print()
print((df['days_employed'] < 0).sum())


count    19351.000000
mean      1934.115623
std       2274.751213
min          0.000000
25%        291.095954
50%       1203.369529
75%       2747.423625
max      18388.949901
Name: days_employed, dtype: float64

0


El problema mas importante de este proyecto se encuentra en esta columna, ya que observamos muchos valores negativo e información ilógica. Los números negativos se reemplazaron por numeros positivos y los valores que son muy altos, se procedió a reemplazar las entradas con 0 usando los parametros de 2200 días o 59 años. 


In [24]:
# Veamos todos los valores en la columna DOB_YEARS

df['dob_years'].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

El valor de 0 que aparece en la columna lo reemplazaremos con la mediana de las edades que se presentan, ya que existen características diferentes en los clientes que se muestran con edad 0.


In [25]:
# Arreglamos los registros si es necesario

media_dob_years = df[df['dob_years'] != 0]['dob_years'].mean()

df['dob_years'] = df['dob_years'].replace(0, media_dob_years)

df['dob_years'].astype('int')



0        42
1        36
2        33
3        32
4        53
         ..
21520    43
21521    67
21522    38
21523    38
21524    40
Name: dob_years, Length: 21525, dtype: int64

In [26]:
# Comprobamos que los valores estén corregidos

df['dob_years'].value_counts()


35.000000    617
40.000000    609
41.000000    607
34.000000    603
38.000000    598
42.000000    597
33.000000    581
39.000000    573
31.000000    560
36.000000    555
44.000000    547
29.000000    545
30.000000    540
48.000000    538
37.000000    537
50.000000    514
43.000000    513
32.000000    510
49.000000    508
28.000000    503
45.000000    497
27.000000    493
56.000000    487
52.000000    484
47.000000    480
54.000000    479
46.000000    475
58.000000    461
57.000000    460
53.000000    459
51.000000    448
59.000000    444
55.000000    443
26.000000    408
60.000000    377
25.000000    357
61.000000    355
62.000000    352
63.000000    269
64.000000    265
24.000000    264
23.000000    254
65.000000    194
66.000000    183
22.000000    183
67.000000    167
21.000000    111
43.497479    101
68.000000     99
69.000000     85
70.000000     65
71.000000     58
20.000000     51
72.000000     33
19.000000     14
73.000000      8
74.000000      6
75.000000      1
Name: dob_year

Acá se procedió con la recomendación de transformar todos los valores de la columna a formato 'int'
y reemplazar los valores de 0 por la media.

In [27]:
# Veamos todos los valores en la columna GENDER

df['gender'].value_counts()


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [28]:
# Arreglamos los registros si es necesario

df = df.loc[df["gender"] != 'XNA']


In [29]:
# Comprobamos que los valores estén corregidos

df['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

Se procedió a elimiar la fila donde aparece la entrada XNA, no se ve información determinante.

In [30]:
# Veamos todos los valores en la columna FAMILY_STATUS

df['family_status'].value_counts()

married              12380
civil partnership     4176
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [31]:
# Arreglamos los registros si es necesario

df['family_status'] = df['family_status'].replace('civil partnership', 'civil_partnership') 
df['family_status'] = df['family_status'].replace('widow / widower', 'widow_widower')

In [32]:
# Comprobamos que los valores estén corregidos

df['family_status'].value_counts()

married              12380
civil_partnership     4176
unmarried             2813
divorced              1195
widow_widower          960
Name: family_status, dtype: int64

Se procedió a utilizar el método replace() porque solo tenía que cambiar dos tópicos de la columna, los cuales era: 'civil partnership' y 'widow / widower'. 

In [33]:
# Veamos todos los valores en la columna INCOME_TYPE

df['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [34]:
# Abordamos los valores problemáticos, si existen

df['income_type'] = df['income_type'].replace('civil servant', 'civil_servant')

def other(income_type):
    if 'entrepreneur' in income_type:
        return 'other'
    elif 'unemployed' in income_type:
        return 'other'
    elif 'paternity / maternity leave' in income_type:
        return 'other'
    elif 'student' in income_type:
        return 'other'
    else:
        return income_type
    
df['income_type'] = df['income_type'].apply(other)


    


In [35]:
# Comprobamos que los valores estén corregidos

df['income_type'].value_counts()

employee         11119
business          5084
retiree           3856
civil_servant     1459
other                6
Name: income_type, dtype: int64

De igual manera, utilicé el método replace() para modificar el único tópico con gran cantidad de datos,
mientras que apliqué una función para agrupar esos tópicos que poseen pocas entradas.

In [36]:
# Comprobar los duplicados

print(df.duplicated().sum())
print()
df_duplicado = df.duplicated().sum() / df.shape[0] 


71



In [37]:
# Aborda los duplicados, si existen

df = df.drop_duplicates().reset_index(drop=True)


In [38]:
# Última comprobación para ver si tenemos duplicados

df.duplicated().sum()


0

In [39]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones

df.shape

(21453, 12)

Se solucionaron los problemas entre los datos duplicados, que no son muchos. Asimismo con los registros irregulares que no son determinantes, se arregló la columna "day_employed" y se corrigieron detalles como palabras con mayusculas y minusculas, edades en 0 y generos que no se entienden.


# Trabajar con valores ausentes

### Restaurar valores ausentes en `total_income`

In [40]:
# Vamos a escribir una función que calcule la categoría de edad

def age_group(age):
    if age <= 30:
        return '19-30'
    elif age <= 40:
        return '31-40'
    elif age <= 50:
        return '41-50'
    elif age <= 60:
        return '51-60'
    else:
        return '+60'

    

In [41]:
# Prueba si la función funciona bien

print(age_group(21))
print(age_group(32))
print(age_group(43))
print(age_group(54))
print(age_group(61))


19-30
31-40
41-50
51-60
+60


In [42]:
# Crear una nueva columna basada en la función

df['age_group'] = df['dob_years'].apply(age_group)

In [43]:
# Comprobar cómo los valores en la nueva columna

df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelors_degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50
1,1,4024.803754,36.0,secondary_education,1,married,0,F,employee,0,17932.802,car purchase,31-40
2,0,5623.42261,33.0,secondary_education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40
3,3,4124.747207,32.0,secondary_education,1,married,0,M,employee,0,42820.568,supplementary education,31-40
4,0,0.0,53.0,secondary_education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,51-60
5,0,926.185831,27.0,bachelors_degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,19-30
6,0,2879.202052,43.0,bachelors_degree,0,married,0,F,business,0,38484.156,housing transactions,41-50
7,0,152.779569,50.0,secondary_education,1,married,0,M,employee,0,21731.829,education,41-50
8,2,6929.865299,35.0,bachelors_degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,31-40
9,0,2188.756445,41.0,secondary_education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50


In [44]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien

df_age_group = df[df.notna()]
df_age_group.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelors_degree,0,married,0,F,employee,0,40620.102,purchase of the house,41-50
1,1,4024.803754,36.0,secondary_education,1,married,0,F,employee,0,17932.802,car purchase,31-40
2,0,5623.42261,33.0,secondary_education,1,married,0,M,employee,0,23341.752,purchase of the house,31-40
3,3,4124.747207,32.0,secondary_education,1,married,0,M,employee,0,42820.568,supplementary education,31-40
4,0,0.0,53.0,secondary_education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,51-60
5,0,926.185831,27.0,bachelors_degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,19-30
6,0,2879.202052,43.0,bachelors_degree,0,married,0,F,business,0,38484.156,housing transactions,41-50
7,0,152.779569,50.0,secondary_education,1,married,0,M,employee,0,21731.829,education,41-50
8,2,6929.865299,35.0,bachelors_degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,31-40
9,0,2188.756445,41.0,secondary_education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41-50


In [45]:
# Examina los valores medias de los ingresos en función de los factores que identificaste
 
df_mean_total_income = df.pivot_table(index = 'income_type', values = 'total_income', aggfunc = 'mean')
df_mean_total_income

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
business,32386.741818
civil_servant,27343.729582
employee,25820.841683
other,29243.949
retiree,21940.394503


In [46]:
# Examina los valores medianas de los ingresos en función de los factores que identificaste

df_median_type_total = df.pivot_table(index = 'income_type', values = 'total_income', aggfunc = 'median')
df_median_type_total


Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
business,27571.0825
civil_servant,24071.6695
employee,22815.1035
other,15712.26
retiree,18962.318


Hay que mencionar que el ingreso promedio por categoría presenta un promedio mayor que la media, esto claro que es por cada categoría, lo cual se procederá a usar la mediana porque representa el mejor promedio por grupo de edad.


In [47]:
#  Escribe una función que usaremos para completar los valores ausentes

pivot_income = df.pivot_table(index = 'income_type', values = 'total_income', aggfunc = 'median')

    
def fill_income(row):
    total_income = row['total_income']
    income_type = row['income_type']

    if pd.isna(total_income):
        return pivot_income.loc[income_type]['total_income']
    return total_income

df['total_income'] = df.apply(fill_income, axis = 1)
    

In [48]:
# Comprueba si funciona

df['total_income'].describe()
print(df.shape)

(21453, 13)


In [49]:
# Comprobar el número de entradas en las columnas

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_group         21453 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.1+ MB


Acá se puede visualizar que la columna de TOTAL_INCOME ya no posee valores ausentes.

###  Restaurar valores en `days_employed`

In [50]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados

df_mean_days_employed = df.pivot_table(index = 'age_group', values = 'days_employed', aggfunc = 'mean')
df_mean_days_employed 

Unnamed: 0_level_0,days_employed
age_group,Unnamed: 1_level_1
+60,799.550825
19-30,1276.700146
31-40,2075.768902
41-50,2685.878763
51-60,1937.100928


In [51]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados

df_median_days_employed = df.pivot_table(index = 'age_group', values = 'days_employed', aggfunc = 'median')
df_median_days_employed


Unnamed: 0_level_0,days_employed
age_group,Unnamed: 1_level_1
+60,0.0
19-30,1041.692949
31-40,1601.812856
41-50,1931.819208
51-60,551.486703


Acá la media se usa porque representaría mejor el valor de la columna "days_employed", además que la mediana tiene un valor de 0.


In [52]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado

pivot_income = df.pivot_table(index = 'age_group', values = 'days_employed', aggfunc = 'median')

    
def fill_days(row):
    days_employed = row['days_employed']
    age_group = row['age_group']

    if pd.isna(days_employed):
        return pivot_income.loc[age_group]['days_employed']
    return total_income

df['days_employed'] = df.apply(fill_income, axis = 1)
    

In [54]:
# Comprueba si funciona

df['total_income'].describe()
print(df.shape)

count     21453.000000
mean      26447.790172
std       15706.204720
min        3306.762000
25%       17211.711000
50%       22815.103500
75%       31327.922000
max      362496.645000
Name: total_income, dtype: float64

In [244]:
# Comprobar el número de entradas en las columnas

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_group         21453 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.1+ MB


Ahora bien, ya no contamos con valores ausentes en todas nuestras columnas.

## Clasificación de datos



In [245]:
# Muestra los valores de los datos seleccionados para la clasificación

df['purpose'].value_counts()


wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
housing                                     646
purchase of the house                       646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
purchase of my own house                    620
buy real estate                             620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

In [246]:
# Comprobar los valores únicos

df['purpose'].sort_values().unique()

array(['building a property', 'building a real estate',
       'buy commercial real estate', 'buy real estate',
       'buy residential real estate', 'buying a second-hand car',
       'buying my own car', 'buying property for renting out', 'car',
       'car purchase', 'cars', 'construction of own property',
       'education', 'getting an education', 'getting higher education',
       'going to university', 'having a wedding', 'housing',
       'housing renovation', 'housing transactions', 'profile education',
       'property', 'purchase of a car', 'purchase of my own house',
       'purchase of the house', 'purchase of the house for my family',
       'real estate transactions', 'second-hand car purchase',
       'supplementary education', 'to become educated', 'to buy a car',
       'to get a supplementary education', 'to have a wedding',
       'to own a car', 'transactions with commercial real estate',
       'transactions with my real estate', 'university education',
       'we

In [247]:
# Escribamos una función para clasificar los datos en función de temas comunes

def purpose_common(purpose):
    
    if 'property' in purpose:
        return 'property'
    elif 'estate' in purpose:
        return 'property'
    elif 'hous' in purpose:
        return 'property'
    elif 'car' in purpose:
        return 'car'
    elif 'educ' in purpose:
        return 'education'
    elif 'univ' in purpose:
        return 'education'
    elif 'wedd' in purpose:
        return 'wedding'


In [248]:
# Crea una columna con las categorías y cuenta los valores en ellas

df['general_purpose'] = df['purpose'].apply(purpose_common)

df['general_purpose'].count()



21453

In [249]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación

df['general_purpose'].value_counts().sort_index()


car           4306
education     4013
property     10810
wedding       2324
Name: general_purpose, dtype: int64

In [250]:
# Obtener estadísticas resumidas para la columna

df['general_purpose'].describe()


count        21453
unique           4
top       property
freq         10810
Name: general_purpose, dtype: object

In [251]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

def income_class(total_income):
 
    if total_income <= 32000:
        return 'poor'
    elif total_income <= 53000:
        return 'lower middle class'
    elif total_income <= 106000:
        return 'middle class'
    elif total_income <= 373000:
        return 'upper middle class'
    else:
        return 'rich'



In [252]:
# Crear una columna con categorías

df['economic_class'] = df['total_income'].apply(income_class)


In [253]:
# Contar los valores de cada categoría para ver la distribución

df['economic_class'].value_counts()


poor                  16388
lower middle class     3985
middle class           1000
upper middle class       80
Name: economic_class, dtype: int64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [254]:
# Comprueba los datos sobre los hijos y los pagos puntuales

pt_children_pay = df.pivot_table(index = 'children', values = 'debt', aggfunc = 'mean')
pt_children_pay


Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075444
1,0.091658
2,0.094925
3,0.081818
4,0.097561
5,0.0


**Conclusión**

Se puede apreciar lo siguiente: los clientes que tienen de 1-4 hijos tienen un porcentaje del 8%-9%. Los clientes que tienen 5 hijos es muy poca la informacion, pero expresa que no tienen deuda. Los clientes que no tienen hijos son aquellos que tienen la tasa de reembolso más baja, con un 7%, debido a que tienen menos gastos y responsabilidades que los que si tienen hijos.

Cliente que no tenga hijos puede ser más fácil acceder a un crédito.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [255]:
# Comprueba los datos del estado familiar y los pagos a tiempo

pt_family_pay = df.pivot_table(index = 'family_status', values = 'debt', aggfunc = 'mean')
pt_family_pay


Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
civil_partnership,0.093494
divorced,0.07113
married,0.075452
unmarried,0.097509
widow_widower,0.065693


**Conclusión**

Se puede demostrar que los clientes solteros y los que están en unión muestran más del 9% de endeudamiento.
Los clientes que están divorciados y casados se encuentran en el 7%, menor que la primera pauta, lo cual nos lleva a una idea que al momento de pagar puede ser que sea compartida. Mientra sque los viudos tienen el menor porcentaje con el 6%.


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [256]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

pt_level_pay = df.pivot_table(index = 'economic_class', values = 'debt', aggfunc = 'mean')
pt_level_pay 


Unnamed: 0_level_0,debt
economic_class,Unnamed: 1_level_1
lower middle class,0.070514
middle class,0.072
poor,0.084391
upper middle class,0.0625


**Conclusión**

Se puede apreciar que los clientes que socioeconómicamente son de clase media baja y media tienen un 7%, lo cual acá los que son de clase baja tienen una posibilidad de no pagar el crédito en un 8% mientras que son clase alta en un 6%.

El riesgo entra con las personas que se catalogan con los parametros acordados en clase baja, puedan atrasarse en pagar sus créditos.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [257]:
pt_general_purpose = df.pivot_table(index='general_purpose', values='debt', aggfunc='mean')
pt_general_purpose


Unnamed: 0_level_0,debt
general_purpose,Unnamed: 1_level_1
car,0.09359
education,0.0922
property,0.07234
wedding,0.080034


**Conclusión**

En primer lugar, los clientes que solicitan préstamos para automóviles y educación tienen un riesgo de impago del 9%. En segundo lugar, los clientes que solicitan para bodas tienen un riesgo de impago del 8% y de último, los clientes que se endeudan para la adquisión de una propiedad, es el 7% el riesgo de endeudamiento.


# Conclusión general 

Se realizó un proceso de limpieza en el proyecto, lo cual se determinó que existian valores ausentes en par de columnas y que eran simétricos, al mismo tiempo se arreglaron los valores duplicados que entorpecen los análisis para una efectiva visualización y estudio de los datos. También se destaca que se modificaron registros irregulares, llevandolos a un orden para que el estudio sea más ameno.

Se evidenció que hay una correlación entre el número de hijos y el estado civil con respecto a pagar un crédito. En primer lugar, los clientes que no tienen hijos pueden pagar con mayor facilidad sus deudas con respecto a aquellos que si tengan hijos. Asimismo, los clientes que están casados o han tenido pareja presentan un riesgo de impago mucho menor que los clientes que están solteros o viven solos. Por último, los clientes que tienen ingresos más bajos tienen probabilidades de poseer deudas de préstamos así como los clientes que usan el préstamo para fines domésticos.

Por ende, ¿qué recomendamos a hacer desde el estudio de los datos que se nos fueron suministrados? Poder seguir aplicando créditos a personas con responsabilidades de hijos, que vivan en pareja y que expliquen que la utilización del crédito sea para adquisiones de bienes muebles e inmuebles, asi como pagos de educación.

