<a href="https://colab.research.google.com/github/belentorassa/Practicum-/blob/main/Proyecto_sprint2_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis del riesgo de incumplimiento de los prestatarios

El obejtivo es preparar un informe para la división de préstamos de un banco para el cual se averiguará si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.



Para llevar adelante el proyecto, comenzaremos por analizar los datos. Evaluar datos faltantes, repetidos, y formatos.


# Introducción

En base a los datos de solvencia crediticia proporcionados por el banco, se buscará establecer que caracteristicas de los clientes se realcionan con el cumplimiento de pago de los creditos tomados.
El informe resultante de este estudio se tendrá en cuenta al crear una puntuación de crédito para un cliente potencial. La puntuación de crédito se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

# Etapas:

1) Comenzaremos por evaluar dos datos proporcionados: existencia de datos faltantes o repetidos, coherencia de formatos etc.

2) Luego procesaremos los datos para solucionar los posible inconvenientes detectados 

3) Posteriormente se buscará aceptar o rechazar las siguietnes hipotesis:

    - El estado civil de un cliente tienen un impacto en el incumplimiento de pago de un préstamo
    
    - La cantidad de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo
    
    - El nivel de ingresos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo
    
    - El proposito de un cliente tienen un impacto en el incumplimiento de pago de un préstamo
    
4) Finalmente se resumirán las conslusiones a modo de informe

## Abre el archivo de datos y mira la información general. 

Comenzamos con la importación de las librerías y la carga de los datos.

In [None]:
# Cargar todas las librerías
import numpy as np
import pandas as pd



In [None]:
# Carga los datos

df = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo



In [None]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos

df.shape



(21525, 12)

In [None]:
# vamos a mostrar las primeras filas 
df.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family



- Los datos de experiencia laboral en días presentan valores negativos que deberan analizarse y ajustarse para poder obtener informacion relevante del dataset.

- Los datos de educacion del cliente se muestran en algunos casos en minúscula y otros en mayúscula, lo que podría dificultar en análisis por grupos


In [None]:
# Obtener información sobre los datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



- El dataset presenta 2174 valores ausentes tanto en los datos de 'days_employed' como en 'total_income'
- El tipo de objeto de cada columna aparenta ser el correcto

In [None]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

df[df['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Los valores ausentes del dato "days_employed" parecen ser simetricos con los valores ausentes del dato "total_income". El primer filtro con la condicion de valores ausentes para "days_employed" arroja 2174 filas (tal como se observo al inicio del análisis). 
Dado que se conoce que el total de valores ausentes de "total _income" tambien es 2174, se aplica la condicion de datos nulos para ambas columnas y se evalua el tamaõ de la tabla

In [None]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

df_nan = df[df['days_employed'].isna()& df['total_income'].isna()]
df_nan.shape


(2174, 12)

**Conclusión intermedia**


- El número de filas de la tabla filtrada con ambas condiciones coincide con el numero de filas de la tabla filtrada con una condicion. Es decir que los valores ausentes para 'days_employed' tambien lo son para 'total_income'. 

- El porcentaje de valores ausentes respecto del total es de un 10%. Es un porcentaje alto para deshacernos de dichos valores, por lo que deberá definirse un criterio para rellenrlos

- Exploramos los datos para evaluar si los clientes que presentan datos ausentes en estas dos columnas simultaneamente tienen alguna caracteristica en común.

- Para evaluar correlación entre dichos valores nulos y otras variables, se realizan agrupaciones segun distintos criterios para evaluar la concentracion de los datos. Abordaremos las variables: educacion, tipo de empleo y edad de los clientes 

- Unificamos la columna "education", llevando todas las fuentes a minuscula
- Creamos un df que contiene solo los registrso con datos ausentes
- Evaluar concentracion de dicho Df para educacion y para tipo de ingreso

In [None]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

df['education'] = df['education'].str.lower()
df_nan = df[df['days_employed'].isna()& df['total_income'].isna()]
df_nan.groupby('education').education.count()/len(df_nan) #analizamos la columna "education" para la tabla filtrada
#len(df_nan)



education
bachelor's degree      0.250230
primary education      0.009660
secondary education    0.708372
some college           0.031739
Name: education, dtype: float64

In [None]:
df_nan.groupby('income_type').gender.count()/len(df_nan)

income_type
business         0.233671
civil servant    0.067617
employee         0.508280
entrepreneur     0.000460
retiree          0.189972
Name: gender, dtype: float64

Dentro del grupo de clientes con valores ausentes, se observa que: 
- 70% corresponden a "secondary education", seguida por un 25% de "bachelor's degree"
- 50% corresponden a la categoría "employee" 

Evaluaremos la distribucion el DF entero. 



In [None]:
# Comprobando la distribución en el conjunto de datos entero

df.groupby('income_type').education.count()/len(df)

income_type
business                       0.236237
civil servant                  0.067782
employee                       0.516562
entrepreneur                   0.000093
paternity / maternity leave    0.000046
retiree                        0.179141
student                        0.000046
unemployed                     0.000093
Name: education, dtype: float64

In [None]:
df.groupby('education').education.count()/len(df)

education
bachelor's degree      0.244367
graduate degree        0.000279
primary education      0.013101
secondary education    0.707689
some college           0.034564
Name: education, dtype: float64

**Conclusión intermedia**

La distrubicion del conjunto de datos enteros es muy similar a la de los datos de valores ausentes. Por lo tanto no se puede establecer un patron para dichos ausentes. 

Los valores ausentes se presentan al azar. 


**Conclusiones**

Los valores ausentes se presentan aleatoriamente. 

Podria deberse a clientes que no han trabajado por lo tanto no cuentan ni con experiencia ni con ingreso.

Evaluaremos a continuacion si existe alguna correlacion entre los valores ausentes y otras variables para luego definir un criterio que permita rellenar los valores ausentes


<div class="alert alert-block alert-info">
<b>Se realizo una division entre los datos que tienen los valores ausentes y el total de todas y se observo que la distribucion es muy similiar en ambos casos</b> <a class="tocSkip"></a>
</div>


## Transformación de datos



In [None]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [None]:
# Arregla los registros si es necesario
df['education'] = df['education'].str.lower()


In [None]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
df['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [None]:
# Veamos la distribución de los valores en la columna `children`
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Los datos en la columna "children" presentan dos valores extraños: -1 y 20. Analizamos la tabla filtraba para evaluar que porcentaje de la muestra representan

In [None]:
df_child_conflict = df[(df['children']==-1) | (df['children']==20)]
df_child_conflict.shape

(123, 12)

El total de datos problematicos en la columna "children" es de 123 es decir un 0,05% de los datos totales. Para corregir dichos valores asumimos que el -1 tiene un error de signo y el 20 tiene un error de cero adicional. 

In [None]:
#eliminamos datos conflictivos de "children"

df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)

In [None]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

df['children'].unique()

array([1, 0, 3, 2, 4, 5])

- Comprobamos que se eliminaron los datos conflictivos del la columna "children" del df ya que no aparecen mas los valoes -1 y 20




- Los datos de 'days_employed' presentan inconvenientes:
    - Valores negativos
    - Valores positivos extremadamente altos

In [None]:
##Evaluamos los valores positivos de days employed que aparentan ser muy altos
df_aux = df[df['dob_years']>0]
edad_min = df_aux[df_aux['days_employed']>0]['dob_years'].min()
edad_max = df_aux[df_aux['days_employed']>0]['dob_years'].max()
exp_min = df_aux[df_aux['days_employed']>0]['days_employed'].min()

print("edad minima:", edad_min )
print("experiencia minima años:", exp_min/360 )
print("experiencia minima años(suponiendo unidad horas):", exp_min/360/24 )


edad minima: 22
experiencia minima años: 913.1353350125507
experiencia minima años(suponiendo unidad horas): 38.047305625522945


- El conjunto de datos con valores de 'days employed' positivos, presenta valore extremadamente altos. De Hecho el valor minimo de experiencia (suponiendo que estuviera expresado en horas) es mayor a la edad minima del conjunto. 
Dado que se desconoce el motivo del error trataremos estos datos como valores ausentes para luego rellenarlos con el criterio que se defina oportunamente

In [None]:
#reemplazo los valores positivos de days employed por NAN para luego tratarlos junto con los otros valores ausentes de days employed

df.loc[df['days_employed'] > 0, 'days_employed'] = float('nan')


In [None]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
df_empl_neg = df[df['days_employed']<0]
df_empl_neg.shape


(15906, 12)


Los datos problematicos (valores negativos) son 15809 (de un total de 21542), es decir un 73%. dado que es un porcentaje tan alto, asumimos que se debe a problema tecnico de signo. Procedemos a cambiarle el singo a los datos negativos. 
A su vez se observa valores de dias muy elevados, lo que hace pensar que los datos pueden estar expresados en horas en lugar de dias. 


In [None]:
#corregimos el signo de "days_employes"
#def days_to_positive (days_employed):
  #return abs(days_employed)

#df['days_employed'] = df['days_employed'].apply(days_to_positive)

df['days_employed'] = df['days_employed'].abs()




In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado

df.sort_values(by= 'days_employed', ascending= True).head()
df['days_employed'].min()

24.14163324048118

- el menor valor de days employes es 24, por lo que confirmamos que ya no hay valores negativos

- Se analizan a continuacion los datos de la edad de los clientes

In [None]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje

df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])



- Los valores de edad cero no tienen sentido. Filtramos dichos datos para analizarlos en detalle y evaluar el porcentaje sobre el total de la muestra.

In [None]:
# Resuelve los problemas en la columna `dob_years`, si existen
df[df['dob_years']<=0].shape

(101, 12)

- Tenemos 100 registros con edad cero. dado que no tiene sentido la edad nula, vamos a reemplazar dicho valor con la mediana de edad de la muestra (no se observan valores atipicos de edad)

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado 
df_years_positivo = df[df['dob_years']>0]

years_median = df_years_positivo['dob_years'].median()
df['dob_years'] = df['dob_years'].replace(0, years_median)
df['dob_years'].unique()


array([42., 36., 33., 32., 53., 27., 43., 50., 35., 41., 40., 65., 54.,
       56., 26., 48., 24., 21., 57., 67., 28., 63., 62., 47., 34., 68.,
       25., 31., 30., 20., 49., 37., 45., 61., 64., 44., 52., 46., 23.,
       38., 39., 51., 59., 29., 60., 55., 58., 71., 22., 73., 66., 69.,
       19., 72., 70., 74., 75.])


- Evaluamos los datos de "family_status"

In [None]:
# Veamos los valores de la columna

df['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

- No se encuentran valores conflictivos en "family status"


- Evaluamos los datos de "gender"

In [None]:
# Veamos los valores en la columna

df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

- No se encuentran valores conflictivos en "gender"


- Evaluamos la columna "income_type"

In [None]:
# Veamos los valores en la columna
df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

- No se encuentran valores conflictivos en "income_type" 
- Evaluamos duplicados en los datos

In [None]:
# Comprobar los duplicados

df.duplicated().sum()


71

In [None]:
# Aborda los duplicados, si existen
df[df.duplicated()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41.0,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34.0,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60.0,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58.0,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64.0,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60.0,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47.0,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30.0,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


- Encontramos 71 duplicados en los datos que porcedemos a eliminar debido a que representan un minimo porcentaje del total de los datos

In [None]:
# Última comprobación para ver si tenemos duplicados
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum()


0

In [None]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.shape

(21454, 12)

- Con la cantidad de filas actuales corroboramos que se han eliminado los duplicados de df


Al data set original:
- Se corrigieron los datos conflictivos de cantidad de hijos, reemplazando los valores -1 por 1 y los valores 20 por 2 (123 registros)
- Se corrigieron los datos conflictivos de edad (valores 0), reemplazandolos por la media de edad de todos los clientes
- Se le eliminarion los duplicados (71 registros)


A su vez: 
- Se han corregido los valores negativos de experiencia laboral
- Se ha comprobado que los valores nulos en experiencia laboral coinciden con valores nulos en Ingresos
- Se han detectado valores muy elevados para datos de dias de experiencia laboral, deberá estudiarse de ser necesario, si se trata de un error en la unidad
 



# Trabajar con valores ausentes

In [None]:
# Encuentra los diccionarios

df.pivot_table(index = ['education', 'education_id'], values = 'gender', aggfunc = 'count')


Unnamed: 0_level_0,Unnamed: 1_level_0,gender
education,education_id,Unnamed: 2_level_1
bachelor's degree,0,5250
graduate degree,4,6
primary education,3,282
secondary education,1,15172
some college,2,744


In [None]:

df.pivot_table(index = ['family_status', 'family_status_id'], values = 'gender', aggfunc = 'count')

Unnamed: 0_level_0,Unnamed: 1_level_0,gender
family_status,family_status_id,Unnamed: 2_level_1
civil partnership,1,4151
divorced,3,1195
married,0,12339
unmarried,4,2810
widow / widower,2,959


Definimos 2 diccionarios para Educacion y Estado civil segun los pares que se observan al generar las tablas dinamicas

In [None]:
dicc_education = {0 : "bachelor's degree", 1: 'secondary education', 2:'some college', 3:'primary education', 4:'graduate degree'}
dicc_family_status =  {0 : "married", 1: 'civil partnership', 2:'widow widower', 3:'divorced', 4:'unmarried'}

### Restaurar valores ausentes en `total_income`

Se han detectado valores ausentes en las columnas "days employed" y "total_income".

Inicialmente, se abordaran los valores ausentes de la columna ingresos. Para ello se creara un df sin datos ausentes y se evaluara la relacion de distintas variables con el total de ingresos


In [None]:
# Vamos a escribir una función que calcule la categoría de edad
def age_range (dob_years):
  if dob_years < 20:
    return ' 0 a 20'
  if dob_years < 30:
    return ' 20 a 30'
  if dob_years < 40:
    return ' 30 a 40'
  if dob_years < 50:
    return ' 40 a 50'
  if dob_years < 60:
    return ' 50 a 60'
  return '+60'


In [None]:
# Prueba si la función funciona bien
age_range(45)

' 40 a 50'

In [None]:
# Crear una nueva columna basada en la función


df['age_range'] = df['dob_years'].apply(age_range)
    

In [None]:
# Comprobar cómo los valores en la nueva columna

df.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_range
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 a 50
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30 a 40
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30 a 40
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30 a 40
4,0,,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50 a 60


Se crea una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.

In [None]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
df_sin_nan = df[df['days_employed'].notnull()& df['total_income'].notnull()]

df_sin_nan.sort_values(by = 'total_income', ascending = True).head()
print(len(df_sin_nan[df_sin_nan['total_income'].isna()]))
len(df_sin_nan[df_sin_nan['days_employed'].isna()])

0


0

1) Análisis por tipo de ingreso
- Se crea una tabla la media y la mediana de ingresos para los distintos tipo de ingreso y se calcula el desvio porcentual respecto de la media general

In [None]:

mean_income_gral = df_sin_nan['total_income'].mean()
median_income_gral = df_sin_nan['total_income'].median()
type_range_table = df_sin_nan.groupby('income_type').agg({'total_income':['mean', 'median']})
type_range_table['porc_mean'] = ((type_range_table['total_income']['mean']/mean_income_gral)-1)*100
type_range_table['porc_median'] = ((type_range_table['total_income']['median']/median_income_gral)-1)*100
type_range_table

Unnamed: 0_level_0,total_income,total_income,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
business,32386.793835,27577.272,16.342282,14.042686
civil servant,27343.729582,24071.6695,-1.773794,-0.454336
employee,25820.841683,22815.1035,-7.244427,-5.650723
entrepreneur,79866.103,79866.103,186.901034,230.277226
paternity / maternity leave,8612.661,8612.661,-69.06095,-64.383316
student,15712.26,15712.26,-43.557236,-35.023728


Se evalua el peso relativo de cada tipo de ingreso

In [None]:
df_sin_nan.groupby('income_type')['income_type'].count()/len(df_sin_nan)

income_type
business                       0.287753
civil servant                  0.082485
employee                       0.629574
entrepreneur                   0.000063
paternity / maternity leave    0.000063
student                        0.000063
Name: income_type, dtype: float64

- Los grupos de "income type" con mayor desvio (entrepreneur, paternity, studen), tienen bajo peso relativo en los datos del df 

2) Análisis por rango etario 
- Se crea una tabla la media y la mediana de ingresos para los distintos rangos etarios y se calcula el desvio porcentual respecto de la media general. Luego se evalua el peso relativo de cada grupo etario en la muestra

In [None]:
mean_income_gral = df_sin_nan['total_income'].mean()
median_income_gral = df_sin_nan['total_income'].median()
age_range_table = df_sin_nan.groupby('age_range').agg({'total_income':['mean', 'median']})
age_range_table['porc_mean'] = ((age_range_table['total_income']['mean']/mean_income_gral)-1)*100
age_range_table['porc_median'] = ((age_range_table['total_income']['median']/median_income_gral)-1)*100
age_range_table

Unnamed: 0_level_0,total_income,total_income,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
age_range,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0 a 20,16993.942462,14934.901,-38.953079,-38.238408
20 a 30,25598.743252,22812.9535,-8.042265,-5.659614
30 a 40,28345.798076,24731.451,1.825912,2.274115
40 a 50,28552.731786,24795.3485,2.569275,2.538356
50 a 60,27820.40201,23807.982,-0.061455,-1.544786
+60,29055.97344,25195.173,4.377058,4.191785


In [None]:
df_sin_nan.groupby('age_range')['education'].count()/len(df_sin_nan)

age_range
 0 a 20     0.000817
 20 a 30    0.180058
 30 a 40    0.319313
 40 a 50    0.300516
 50 a 60    0.168427
+60         0.030869
Name: education, dtype: float64

- El grupo de 0 a 20 presenta el mayor desvio pero representa un porcentaje minimo dentro del total de los datos

3) Análisis por nivel de educación
- Se crea una tabla la media y la mediana de ingresos para los distintos niveles de educacion y se calcula el desvio porcentual respecto de la media general. Luego se evalua el peso relativo de cada grupo etario en la muestra

In [None]:

educ_table = df_sin_nan.groupby('education').agg({'total_income':['mean', 'median']})
mean_income_gral = df_sin_nan['total_income'].mean()
median_income_gral = df_sin_nan['total_income'].median()
educ_table['porc_mean'] = ((educ_table['total_income']['mean']/mean_income_gral)-1)*100
educ_table['porc_median'] = ((educ_table['total_income']['median']/median_income_gral)-1)*100
educ_table

Unnamed: 0_level_0,total_income,total_income,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bachelor's degree,33866.37523,28744.434,21.657345,18.869352
graduate degree,27772.9295,25161.5835,-0.23199,4.05288
primary education,22990.762982,20823.959,-17.410849,-13.884875
secondary education,25498.606991,22673.422,-8.401982,-6.236631
some college,29423.635397,26119.0075,5.6978,8.012198


In [None]:
##evaluamos peso relativo de aquellos valores que mas se alejan de la muestra
print(df_sin_nan.groupby('education')['education'].count()/len(df_sin_nan))


education
bachelor's degree      0.263737
graduate degree        0.000251
primary education      0.010562
secondary education    0.685213
some college           0.040236
Name: education, dtype: float64


- El grupo de mayor peso dentro de la muestra (secondary education) presenta un desvio relativamente bajo (-8%)

4) Análisis por days employed


In [None]:
##agrupamos por days employed. Para poder evaluar la concentracion agrupamos por años (aumiendo que los datos estan en horas)
#Creamos una columna para la cantidad e años
import numpy as np
df["years_employed"] = df['days_employed']/360

def years_range (years_employed):
  if years_employed < 1:
    return ' 0 a 1'
  if years_employed < 2:
    return ' 1 a 2'
  if years_employed < 3:
    return ' 2 a 3'
  if years_employed < 4:
    return ' 3 a 4' 
  if years_employed < 5:
    return ' 4 a 5'
  if years_employed < 6:
    return ' 5 a 6'
  if years_employed < 7:
    return ' 6 a 8'
  if years_employed < 8:
    return ' 8 a 10'
  return '+10'

df['years_range'] = df['years_employed'].apply(years_range)




In [None]:
df_sin_nan = df[df['days_employed'].notnull()& df['total_income'].notnull()]

days_table = df_sin_nan.groupby('years_range').agg({'total_income':['mean', 'median']})
mean_income_gral = df_sin_nan['total_income'].mean()
median_income_gral = df_sin_nan['total_income'].median()
days_table['porc_mean'] = ((days_table['total_income']['mean']/mean_income_gral)-1)*100
days_table['porc_median'] = ((days_table['total_income']['median']/median_income_gral)-1)*100
days_table

Unnamed: 0_level_0,total_income,total_income,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
years_range,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0 a 1,25995.908712,22806.783,-6.615538,-5.685131
1 a 2,26873.151018,23777.856,-3.464242,-1.669369
2 a 3,26637.266217,23034.544,-4.311605,-4.743251
3 a 4,28093.007525,24781.243,0.917819,2.480025
4 a 5,27781.749112,24226.294,-0.200307,0.185096
5 a 6,29027.012245,24815.0895,4.273021,2.619993
6 a 8,29037.926014,24705.955,4.312226,2.16868
8 a 10,29221.17571,24828.916,4.97051,2.677171
+10,28641.650416,24910.511,2.888695,3.014598


In [None]:
print(df_sin_nan.groupby('years_range')['years_range'].count()/len(df_sin_nan))


years_range
 0 a 1     0.113605
 1 a 2     0.124418
 2 a 3     0.117440
 3 a 4     0.098139
 4 a 5     0.084434
 5 a 6     0.065258
 6 a 8     0.058657
 8 a 10    0.051616
+10        0.286433
Name: years_range, dtype: float64


In [None]:
mean_income_gral = df_sin_nan['total_income'].mean()
median_income_gral = df_sin_nan['total_income'].median()
print("media: ", mean_income_gral)
print("media: ", median_income_gral)


media:  27837.509633848862
media:  24181.535000000003



- La media y la mediana no difieren significativamente, por lo que deducimos que no hay presencia de valores atipico. Por este motivo, podemos tomar la media para rellenar valores ausentes.

- Se utilizara la variable "income type' para rellenar los valores de income ausentes



- Creamos una funcion que permita completar los datos ausentes de ingreso con la media de los days_employes


In [None]:


df_mean_type = df.groupby('income_type')['total_income'].mean()

def fill_nan_income (row, criterio, diccionario):
    criterio = row[criterio]
    income = row['total_income']
  
    if  np.isnan(income):
        return diccionario[criterio]

    return income

##pruebo funcion
row_values = ['employee', float('nan') ]
row_columns = ['income_type', 'total_income']
row = pd.Series(data = row_values, index = row_columns)
print(fill_nan_income (row, 'income_type', df_mean_type))



25820.84168324344


In [None]:
df_mean_type

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

<div class="alert alert-block alert-info">
Los valores altos fueron transformados a NAN
    </div>

In [None]:
#APlicamos la funcion a todo el DF

df['total_income'] = df.apply(lambda fila: fill_nan_income(fila, 'income_type', df_mean_type), axis = 1)


In [None]:
df['total_income'].isna().sum()


0

In [None]:
# Comprobar el número de entradas en las columnas

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_range         21454 non-null  object 
 13  years_employed    15906 non-null  float64
 14  years_range       21454 non-null  object 
dtypes: float64(4), int64(4), object(7)
memory usage: 2.5+ MB


###  Restaurar valores en `days_employed`


- Se crea una tabla con la media y la mediana "days employed" para los distintos rangos etarios y para los distintos niveles de educacion. Se analiza el desvio respecto de la media y mediana general


In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados

df_sin_nan_days = df[df['days_employed'].notnull()]
df_sin_nan_days.sort_values(by = 'days_employed', ascending = True).head()

years_table_days = df_sin_nan_days.groupby('age_range').agg({'days_employed':['mean', 'median']})
mean_days_employed = df_sin_nan_days['days_employed'].mean()
median_days_employed = df_sin_nan_days['days_employed'].median()
years_table_days['porc_mean'] = ((years_table_days['days_employed']['mean']/mean_days_employed)-1)*100
years_table_days['porc_median'] = ((years_table_days['days_employed']['median']/median_days_employed)-1)*100

print(mean_days_employed)
print(median_days_employed)
years_table_days


2353.0159319988766
1630.0193809778218


Unnamed: 0_level_0,days_employed,days_employed,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
age_range,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0 a 20,633.678086,724.49261,-73.069537,-55.553129
20 a 30,1212.543927,999.575144,-48.46852,-38.677101
30 a 40,2026.411457,1589.781401,-13.880249,-2.468558
40 a 50,2724.978063,2009.652768,15.807888,23.290115
50 a 60,3260.836218,2261.863018,38.581136,38.762952
+60,3854.966662,2669.073965,63.830878,63.744922


In [None]:
df_sin_nan_days.groupby('age_range')['age_range'].count()/len(df_sin_nan_days)

age_range
 0 a 20     0.000817
 20 a 30    0.180058
 30 a 40    0.319313
 40 a 50    0.300516
 50 a 60    0.168427
+60         0.030869
Name: age_range, dtype: float64

In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df_sin_nan_days = df[df['days_employed'].notnull()]
df_sin_nan_days.sort_values(by = 'days_employed', ascending = True).head()
educ_table_days = df_sin_nan_days.groupby('education').agg({'days_employed':['mean', 'median']})
mean_days_employed = df_sin_nan_days['days_employed'].mean()
median_days_employed = df_sin_nan_days['days_employed'].median()
educ_table_days['porc_mean'] = ((educ_table_days['days_employed']['mean']/mean_days_employed)-1)*100
educ_table_days['porc_median'] = ((educ_table_days['days_employed']['median']/median_days_employed)-1)*100
educ_table_days


Unnamed: 0_level_0,days_employed,days_employed,porc_mean,porc_median
Unnamed: 0_level_1,mean,median,Unnamed: 3_level_1,Unnamed: 4_level_1
education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bachelor's degree,2277.81871,1611.056758,-3.19578,-1.163337
graduate degree,3520.186537,3851.735057,49.603175,136.299955
primary education,1940.672957,1189.581396,-17.52402,-27.020414
secondary education,2434.270703,1684.271101,3.453218,3.328287
some college,1563.112086,1148.77682,-33.569847,-29.523732


In [None]:
df_sin_nan_days.groupby('education')['education'].count()/len(df_sin_nan_days)

education
bachelor's degree      0.263737
graduate degree        0.000251
primary education      0.010562
secondary education    0.685213
some college           0.040236
Name: education, dtype: float64

- Se observa una fuerte dispersion en los datos agrupados por grupo etario, con un peso retalivo de cada grupo muy similar.
- La mayor concentracion de datos agrupados por educacion se da en "secondary education". Este grupo cuenta con un desvio mucho menor al observado en la agrupacion por grupos etarios
- Dado que la media difiere significativamente de la mediana, se utilizara la mediana para restaurar valores ausentes de days_employed.

In [None]:


df_median_age = df_sin_nan.groupby('age_range')['days_employed'].median()

def fill_nan_days (row, criterio, diccionario):
    age_range = row[criterio]
    days_employed = row['days_employed']
  
    if  np.isnan(days_employed):
        return diccionario[age_range]

    return days_employed


# Comprueba si funciona

row_values = [' 20 a 30', float('nan') ]
row_columns = ['age_range', 'days_employed']
row = pd.Series(data = row_values, index = row_columns)
print(fill_nan_days(row, 'age_range', df_median_age))



999.575143988219


In [None]:
# Aplicar la función al income_type

df['days_employed'] = df.apply(lambda fila: fill_nan_days(fila, 'age_range', df_median_age), axis = 1)



In [None]:
# Comprueba si la función funcionó

df['days_employed'].isna().sum()

0

Comprobamos que el número total de valores en la columna 'days_employed' coincida con el número de valores en otras columnas

In [None]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_range         21454 non-null  object 
 13  years_employed    15906 non-null  float64
 14  years_range       21454 non-null  object 
dtypes: float64(4), int64(4), object(7)
memory usage: 2.5+ MB


## Clasificación de datos

Para responder las preguntas formuladas se evaluaran la tasa de pago en funcion a la cantidad de hijos, la sitaucion familiar, el nivel de ingresos y el propósito del credito


Vamos a comprobar los valores únicos de los datos que vamos a evaluar 

In [None]:
# Comprobar los valores únicos
df['family_status'].unique()
df['children'].unique()
df['purpose'].unique()
df['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

- Dada la gran cantidad de registros tanto en la columna de ingreso total como en la columna de proposito, se le asignara una categoria para poder analizar los datos con mayor facilidad

In [None]:
# Escribamos una función para clasificar los datos en función de temas comunes
#se crea una funcion para agrupar niveles de ingreso

def income_group(total_income):
    
    if total_income <= 25000:
        return 'de 0K a 25K'
    if total_income <= 75000:
        return 'de 25K a 75K'
    if total_income <= 125000:
        return 'de 75K a 125K'
    return '+ 125K'



In [None]:
# Crea una columna con las categorías y cuenta los valores en ellas

df['income_group'] = df['total_income'].apply(income_group)


In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_range,years_employed,years_range,income_group,purpose_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 a 50,23.437981,10,de 25K a 75K,real estate
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30 a 40,11.18001,10,de 0K a 25K,car purchase
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30 a 40,15.620618,10,de 0K a 25K,real estate
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30 a 40,11.457631,10,de 25K a 75K,education
4,0,2261.863018,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50 a 60,,10,de 25K a 75K,wedding


In [None]:
# Crear una columna con categorías
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [None]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos



def agrupar_purpose (purpose):
    
    
    if ('education' or 'educated' or 'university') in purpose:
        return "education"
    if 'car' in purpose:
        return "car purchase"
    if 'wedding' in purpose:
        return "wedding"
    return "real estate"

agrupar_purpose('get a car')

'car purchase'

In [None]:
df['purpose_group'] = df['purpose'].apply(agrupar_purpose)
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_range,years_employed,years_range,income_group,purpose_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 a 50,23.437981,10,de 25K a 75K,real estate
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30 a 40,11.18001,10,de 0K a 25K,car purchase
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30 a 40,15.620618,10,de 0K a 25K,real estate
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30 a 40,11.457631,10,de 25K a 75K,education
4,0,2261.863018,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50 a 60,,10,de 25K a 75K,wedding


## Comprobación de las hipótesis


Evaluamos las tasas de incumplimiento de los distintos grupos

In [None]:
##evaluamos tasa de deuda por proposito
debt_by_purpose = df.groupby('purpose_group').agg({'debt':['sum', 'count']})
debt_by_purpose['rate'] = debt_by_purpose['debt']['sum']/debt_by_purpose['debt']['count']*100
debt_by_purpose

Unnamed: 0_level_0,debt,debt,rate
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
purpose_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
car purchase,403,4306,9.359034
education,288,3109,9.263429
real estate,864,11715,7.37516
wedding,186,2324,8.003442


- La tasa de deuda es relativamente similar para los distintos propositos del credito


In [None]:
debt_by_children = df.groupby('children').agg({'debt':['sum', 'count']})
debt_by_children['rate'] = debt_by_children['debt']['sum']/debt_by_children['debt']['count']*100
debt_by_children

Unnamed: 0_level_0,debt,debt,rate
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,7.543822
1,445,4855,9.165808
2,202,2128,9.492481
3,27,330,8.181818
4,4,41,9.756098
5,0,9,0.0


- La tasa de deuda es relativamente similar para las distintas cantidad de hijos de los clientes



In [None]:
debt_by_family_status = df.groupby('family_status').agg({'debt':['sum', 'count']})
debt_by_family_status['rate'] = debt_by_family_status['debt']['sum']/debt_by_family_status['debt']['count']*100
debt_by_family_status

Unnamed: 0_level_0,debt,debt,rate
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
civil partnership,388,4151,9.347145
divorced,85,1195,7.112971
married,931,12339,7.545182
unmarried,274,2810,9.75089
widow / widower,63,959,6.569343


- Los clientes unidos civilmente y los no casados presentan tasas de deuda levemente superiores a los demas grupos

In [None]:
##Evaluamos las tasas de deuda segun ingresos

debt_by_income = df.groupby('income_group').agg({'debt':['sum', 'count']})
debt_by_income['rate'] = debt_by_income['debt']['sum']/debt_by_income['debt']['count']*100
debt_by_income

Unnamed: 0_level_0,debt,debt,rate
Unnamed: 0_level_1,sum,count,Unnamed: 3_level_1
income_group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
+ 125K,4,44,9.090909
de 0K a 25K,931,11134,8.361775
de 25K a 75K,794,10031,7.915462
de 75K a 125K,12,245,4.897959


- Al evaluar los deudores segun los niveles de ingresos se observa que aquellos con menores ingresos cuentan la las mayores tasas de deuda. Cabe resaltar que para ingresos superiores a 1250 mil, la tasa resulto algo superior pero dado que la muestra es pequeña en relaciona las otras, no puede establecerse un patron a partir de ella. 

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

La tasa de deudores para los grupos analizamos por cantidad de hijos son relativamente similares, por lo que no se puede afirmar que el pago a tiempo dependa de la cantidad de hijos



**¿Existe una correlación entre la situación familiar y el pago a tiempo?**


- Los clientes unidos civilmente y los no casados presentan tasas de deuda levemente superiores a los demas grupos. sin embargo la diferencia es leve y no permite afirmar que exista un patron relacionado al estado civil de los clientes

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

Al evaluar los deudores segun los niveles de ingresos se observa que aquellos con menores ingresos cuentan la las mayores tasas de deuda. Cabe resaltar que para ingresos superiores a 300 mil, la tasa resulto del 50% pero dado que la muestra es muy pequeña (solo 2 clientes), no se considerara para establecer una relacion con el nivel de ingresos.


**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

La tasa de deuda es levemente superior para propositos relacionados con educacion y compra de autos. Sin embargo la diferencia de tasas no es demasiado significativa como para establecer un patron de dependencia entra dicahas categorias

# Conclusión general 




Inicialmente se trabajo en el procesamiento de datos: 

- Se le eliminaron los datos conflictivos de cantidad de hijos:  alos valores -1 se los reemplazo por 1 y a los valores 20 se los reemplazo por 2 (asuemiento que se trato de algun tipo de error de tipeo o tecnico)
- Se le eliminaron los datos conflictivos de edad (valores 0), que fueron reemplazados por el valor medio de la edad
- Se le eliminarion los duplicados (71 registros)
- Los valores extremadamente grandes de experiencia laboral, fueron reemplazados por NAN, para luego ser tratados junto con el resto de los valores ausentes para dicha variable
- Los valores ausentes de ingresos fueron rellenados de acuerdo a la media de ingresos para los ditintos tipos de ingresos
- Los valores ausentes de experiencia fueron rellenados de acuerdo a la media de ingresos para los ditintosrangos etarios


A su vez se pudo determinar que:

- los valores negativos de experiencia laboral se debian a problemas tecnicos de signo por lo que se procedio a corregir los mismos
- los valores nulos en experiencia laboral eran simetricos con valores nulos en Ingresos, no encontrasndose ningun patron para la aparicion de dichos registros

Del analisis de las tasas de incumplimiento de pago, se concluyo que:

- La mayor tasa de incumplimiento de pago se da en clientes de menores ingresos
- Para el resto de las variables analizadas (proposito, cantidad de hijos y estado civil), no se pude identificar un patron entre dichas variables y la tasa de incumplimiento de pago de deuda