# Análisis del riesgo de incumplimiento de los prestatarios

El proyecto consiste en preparar un informe para la división de préstamos de la institución financiera. Deberá comprobar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El instituto ya tiene algunos datos sobre la solvencia crediticia de sus clientes.

El informe buscará demostrar mediante tendrá una **puntuación de crédito**, para un cliente potencial, la capacidad del de ese cliente para cumplir con las obligaciones de un prestamo bancario.

## Explorando el archivo de datos y examinando la información general. 

In [1]:
# Cargar todas las librerías
import pandas as pd
import numpy as np 

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

Ahora vamos a explorar nuestros datos. Para observar cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.

In [2]:
# Carga los datos
creditos = pd.read_csv('/datasets/credit_scoring_eng.csv')

In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
creditos.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [4]:
# Vamos a ver cuántas filas tiene nuestro conjunto de datos
'Row count is:', creditos.shape

('Row count is:', (21525, 12))

In [5]:
# vamos a mostrar las primeras filas N
creditos.head(40)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


La columna con la descripción 'days_employed' - experiencia laboral en días, tienen valores ausentes, tiene decimales y valores de negativos. ¿ Cómo devemos interpretar los días con decimales?, ¿Cómo debemos interpretar los registros en esta columna si tienen valores negativos?.


In [6]:
# Obtener información sobre los datos
creditos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


En la columna 'total_income' - ingreso mensual tenemos un total de 19351 registros contra 21525 la diferencia indica un total de registros 2174  ausentes. Misma cantidad para la diferencia entre los registros totales y los valores ausentes de la columna 'days_employed'.

In [7]:
# Veamos la tabla filtrada con valores ausentes de
#la primera columna donde faltan datos
filtro_dias_empleado = creditos.loc[creditos['days_employed'].isna() == True]
filtro_dias_empleado

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Tenemos filtrados en la tabla que se muestra arriba de estas lineas, los valores ausentes para la columna 'days_employed' y se observa que para la columna 'total_income',hay una simetría refiriendonos que en las lineas de registro donde tenemos valor ausente en la columna 'days_employed' también en tenemos valor ausente en la columna 'total_income'. Esto desde la perspectiva que tenemos en la tabla falta comprobar si es lo mismo en todos los 2174 registros con valores ausentes de ambas columnas.

In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos 
#el número de filas en la tabla filtrada.
registros_faltantes = creditos.loc[(creditos['days_employed'].isna() == True) & (creditos['total_income'].isna() == True)] 
registros_faltantes

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusión intermedia**
Definitivamente la causa que genero la ausencia de datos en las columnas 'days_employed' y 'total_income' con mucha probabilidad que sea la misma.

Calculemos el porcentaje de los valores ausentes en comparación con el conjunto de datos completo. ¿Se trata de una porción de datos considerablemente grande? Si es así, es posible que necesitemos completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. Con eso decidir qué característica, podría ser la razón. En segundo lugar, debemos verificar si los valores ausentes dependen de alguna manera del valor de otros indicadores con las columnas con características de clientes, específicas e identificadas.

In [9]:
# Calculando el porcentaje de los valores ausentes en comparación con el 
#conjunto de datos completo, para tener una perspectiva de si es relevante ajustarlos ó 
# será mejor prescindir de ellos para realizar el análisis.

porcentaje_dato_ausente = (len(registros_faltantes) / len(creditos))  # registros incompletos / registros totales
#porcentaje_dato_ausente = round(porcentaje_dato_ausente)
'porcentaje de los valores ausentes en comparación con el '  + 'conjunto de datos completo,' + "{: .2%}".format(porcentaje_dato_ausente)

'porcentaje de los valores ausentes en comparación con el conjunto de datos completo, 10.10%'

In [10]:
#Calculando el porcentaje observando las columnas
( creditos.isna().sum()/len(creditos) )*100

children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

Se trata de una porción de datos considerablemente grande. Es necesario completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. 

In [11]:
# Vamos a investigar a los clientes que no tienen datos 
#sobre la característica identificada y la columna con los valores ausentes

registros_ausente = creditos.loc[creditos['days_employed'].isna() == True, 'education_id']. value_counts()
registros_ausente

1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64

In [12]:
# Comprobación de la distribución

# definimos una función para calcular el porcentaje
def porcentaje (parte , total):
    return float (parte  / total) 

#vamos a llamar y a comparar 'days_employed', frente a las columnas 'education_id'
print('Comparando frente a los registros de days_employed con valores nulos')
total_registros_ausentes = registros_ausente.sum()
for renglon in registros_ausente.index:
    print('valor education_id ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(registros_ausente[renglon],total_registros_ausentes)))

Comparando frente a los registros de days_employed con valores nulos
valor education_id 1:  70.84%
valor education_id 0:  25.02%
valor education_id 2:  3.17%
valor education_id 3:  0.97%


El valor - uno 1 - en la columna 'education_id', corresponde al valor -secondary education- en la columna 'education' con a mas del 70 % del total de valores ausentes, mientras que el valor - cero 0- en la columna  'education_id', corresponde al valor -Bachelor's Degree com mas del 25 % del total de la muestra de valores ausentes. Lo que significa que las personas con grado menor al universitario suman mas del 95 % del total de valores ausentes.

**Posibles razones por las que hay valores ausentes en los datos**

Se puede presumir que esta muestra de la población total presenta la ausencia de los datos en las columnas 'days_employed' y 'total_income' debido a que se encuentran en constante movilidad laboral. Por lo que no fué posible dar un datos especificamente concretos para esta muestra de nuestra población.

In [13]:
# Comprobando la distribución en el conjunto de datos entero
print('Comparando frente a los registros de days_employed de toda el frame')
datos_entero = creditos['education_id']. value_counts()
total_registros = datos_entero.sum()
for renglon in datos_entero.index:
    print('valor education_id ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(datos_entero[renglon],total_registros)))
    

Comparando frente a los registros de days_employed de toda el frame
valor education_id 1:  70.77%
valor education_id 0:  24.44%
valor education_id 2:  3.46%
valor education_id 3:  1.31%
valor education_id 4:  0.03%


In [14]:
# Comprobando la distribución en el conjunto de datos sin regisros con valores ausentes
print('Comparando frente a los registros de days_employed de toda el frame excluyendo sus registros con valores nulos')

datos_sin_ausentes = creditos.loc[creditos['days_employed'].isna() == False, 'education_id'].value_counts()
total_registros_sin_ausentes = datos_entero.sum() - registros_ausente.sum()
for renglon in datos_sin_ausentes.index:
    print('valor education_id ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(datos_sin_ausentes[renglon],total_registros_sin_ausentes)))

Comparando frente a los registros de days_employed de toda el frame excluyendo sus registros con valores nulos
valor education_id 1:  70.76%
valor education_id 0:  24.37%
valor education_id 2:  3.49%
valor education_id 3:  1.35%
valor education_id 4:  0.03%


**Conclusión intermedia**

La distribución de los datos completos nos da como resultado, la misma que para la muestra de los datos ausentes, en los casos con valores de la columna education_id. Los valores rellenados con cadenas vacias son una muestra representativa del conjunto entero. Sea ejecutando el análisis del porcentaje que examina el nivel de estudios de los clientes, tres veces, una con los valores ausentes, otra con los valores ausentes eliminados y una última con todos los registros proporcionados por el archivo CSV. Los resultados para estos casos no son significativamente diferentes.

 Como los valores no muestran cambio en la sensibilidad de los porcentajes, se concluye que muy probablemente las ausencia de valores sea aleatoria. 

Como se verificó la simetría de los datos ausentes entre las columnas 'education_id' y la columna 'total_income', las conluciones anteriores serán tambien válidas para la columna 'total_income'. 

In [15]:
# Comprobando otras razones y patrones que podrían llevar a valores ausentes para el caso de 
# de la columna 'total_income' comprobando la simetria con respecto a 'days_employed'
print('Distribución de datos vacios en la columna total_income' )
registros_ausente = creditos.loc[creditos['total_income'].isna() == True, 'education_id']. value_counts()
total_registros_ausentes = registros_ausente.sum()
for renglon in registros_ausente.index:
    print('valor education_id ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(registros_ausente[renglon],total_registros_ausentes)))

Distribución de datos vacios en la columna total_income
valor education_id 1:  70.84%
valor education_id 0:  25.02%
valor education_id 2:  3.17%
valor education_id 3:  0.97%


In [16]:
# Comprobando otras razones y patrones que podrían llevar a valores ausentes para el caso de 
# de la columna 'total_income' comprobando la simetria con respecto a 'education_id'

def compara_columnas (col_vacia, col_compara, valores_ausente):
    if valores_ausente == 'solo':
        registro = creditos.loc[creditos[col_vacia].isna() == True, col_compara]. value_counts()
        total_reg = registro.sum()
        print('Distribución de datos vacios en la columna ' + col_vacia)
        for renglon in registro.index:
            print('valor ' + col_compara + ' ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(registro[renglon],total_reg)))
    elif valores_ausente == 'excluir':
        datos_sin_ausentes = creditos.loc[creditos[col_vacia].isna() == False, col_compara].value_counts()
        total_registros_sin_ausentes = datos_sin_ausentes.sum()
        print('Distribución de datos en la columna  omitiendo a los nulos en ' + col_vacia)
        for renglon in datos_sin_ausentes.index:
            print('valor ' + col_compara + ' ' + str(renglon) + ': '+ "{: .2%}".format(porcentaje(datos_sin_ausentes[renglon],total_registros_sin_ausentes)))
    
        


In [17]:
 # Comprobando otras razones y patrones que podrían llevar a valores ausentes para el caso de 
# de la columna 'family_status_id' con los registros ausentes de la columna 'total_income'
compara_columnas ('total_income', 'family_status_id', valores_ausente = 'solo')

Distribución de datos vacios en la columna total_income
valor family_status_id 0:  56.90%
valor family_status_id 1:  20.33%
valor family_status_id 4:  13.25%
valor family_status_id 3:  5.15%
valor family_status_id 2:  4.37%


In [18]:
# Comprobando otras razones y patrones que podrían llevar a valores ausentes para el caso de 
# de la columna 'family_status_id' con los datos nulos de la columna 'total_income'
compara_columnas ('total_income', 'family_status_id', valores_ausente = 'excluir')

Distribución de datos en la columna  omitiendo a los nulos en total_income
valor family_status_id 0:  57.58%
valor family_status_id 1:  19.30%
valor family_status_id 4:  13.05%
valor family_status_id 3:  5.60%
valor family_status_id 2:  4.47%


**Conclusión intermedia**
El valor de columna 'family_status', frente a los valores nulos de la columna 'total_income', no presenta una sesibilidad de datos, frente con los valores ausentes y el resto de los valores. Por lo que no es posible concluir un patrón para explicar la ausencia de registros en las columna 'total_income'.

Conjeturando que la experiencia laboral se encuentre sin valor por ser una persona muy joven, sondeando los datos de la falta de captura de la  columna 'total_income' que son la captura de ingreso mensual.

In [19]:
# Comprobación de otros patrones: explica cuáles
compara_columnas ('total_income', 'dob_years', valores_ausente = 'solo')

Distribución de datos vacios en la columna total_income
valor dob_years 34:  3.17%
valor dob_years 40:  3.04%
valor dob_years 31:  2.99%
valor dob_years 42:  2.99%
valor dob_years 35:  2.94%
valor dob_years 36:  2.90%
valor dob_years 47:  2.71%
valor dob_years 41:  2.71%
valor dob_years 30:  2.67%
valor dob_years 28:  2.62%
valor dob_years 57:  2.58%
valor dob_years 58:  2.58%
valor dob_years 54:  2.53%
valor dob_years 38:  2.48%
valor dob_years 56:  2.48%
valor dob_years 37:  2.44%
valor dob_years 52:  2.44%
valor dob_years 39:  2.35%
valor dob_years 33:  2.35%
valor dob_years 50:  2.35%
valor dob_years 51:  2.30%
valor dob_years 45:  2.30%
valor dob_years 49:  2.30%
valor dob_years 29:  2.30%
valor dob_years 43:  2.30%
valor dob_years 46:  2.21%
valor dob_years 55:  2.21%
valor dob_years 48:  2.12%
valor dob_years 53:  2.02%
valor dob_years 44:  2.02%
valor dob_years 60:  1.79%
valor dob_years 61:  1.75%
valor dob_years 62:  1.75%
valor dob_years 64:  1.70%
valor dob_years 32:  1.70%

In [20]:
compara_columnas ('total_income', 'dob_years', valores_ausente = 'excluir')

Distribución de datos en la columna  omitiendo a los nulos en total_income
valor dob_years 35:  2.86%
valor dob_years 41:  2.83%
valor dob_years 38:  2.81%
valor dob_years 40:  2.81%
valor dob_years 34:  2.76%
valor dob_years 42:  2.75%
valor dob_years 33:  2.74%
valor dob_years 39:  2.70%
valor dob_years 44:  2.60%
valor dob_years 29:  2.56%
valor dob_years 31:  2.56%
valor dob_years 36:  2.54%
valor dob_years 48:  2.54%
valor dob_years 37:  2.50%
valor dob_years 30:  2.49%
valor dob_years 32:  2.44%
valor dob_years 50:  2.39%
valor dob_years 43:  2.39%
valor dob_years 49:  2.37%
valor dob_years 27:  2.36%
valor dob_years 45:  2.31%
valor dob_years 28:  2.30%
valor dob_years 56:  2.24%
valor dob_years 52:  2.23%
valor dob_years 46:  2.21%
valor dob_years 54:  2.19%
valor dob_years 47:  2.18%
valor dob_years 53:  2.14%
valor dob_years 59:  2.12%
valor dob_years 58:  2.09%
valor dob_years 57:  2.09%
valor dob_years 51:  2.06%
valor dob_years 55:  2.04%
valor dob_years 26:  1.93%
valor d

**Conclusiones**

No se encuentra sensibilidad en la muestra del porcentaje de valores en las columnas 'total_income' y 'days_employed' por simetría de registros, frente a la columna 'dob_years'
Como se presume que la ausencia de valores en las columnas 'days_employed' y 'total_income' se entiende como resultado de diferentes errores aleatorios sin que se tenga una causa especifica.

Como se estima que la falta de los valores ausentes esta relacionada con la población con movilidad laboral, nos lleva a pensar que sus ingresos mensuales no son fijos y por lo tanto sus dias laborables serían dificiles de estimar debido a los saltos que presenta una persona que trabaja por temporadas no especificas en cada registro. 

Como el objeto de estudio es evaluar su disposición para cumplir con las obligaciones de un crédito, surge la pregunta de ¿Sera relevante excluirlos?. La inclución en la tabla es porque de hecho se acercarón a ser capturados para ser considerados para adquirir el crédito. Lo que nos lleva a evitar su exclución del análisis. Por otro lado es evidente que producen actividad económica de lo contrario no se explica el rango de edades que van de 0 años hasta 75 años.

Dado que se tiene un subconjunto que no se capturo a plenitud sus registros pensemos que en el peor de los casos si tienen dias de empleo y si tiene capacidad de pago pero aleatoria. Podemos hacer una captura con la mínima de los datos capturados

Los valores ausentes de las columnas 'days_employed que describe la  experiencia laboral en días' y 'total_income - ingreso mensual' se pueden llenar con los valores promedio en total_income​ y promedio en days_employed para los datos que se encuentran completos.


## Transformación de datos

Repasemos cada columna para ver qué problemas podemos tener en ellas.
Procedemos con la eliminación de duplicados y la corrección de la información educativa si es necesario

In [21]:
# Veamos todos los valores en la columna de educación para verificar si
# será necesario corregir la ortografía y qué habrá que corregir exactamente
visits = creditos['education'].value_counts()
visits

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [22]:
# Arreglando los registros si es necesario
creditos['education'] = creditos['education'].str.lower() 


In [23]:
# Comprobando todos los valores en la columna para asegurarnos de que los hayamos corregido
print(creditos['education'].value_counts())

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64


In [24]:
# Veamos la distribución de los valores en la columna `children`
creditos['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Tenemos datos problemáticos, en la columna de `children`. ¿Qué significa -1 como valor en esa columna?, además tenemos un valor de 20 ¿Son exagerados?. 

In [25]:
#observemos en un aparte los registros con 'children' en -1
creditos.loc[creditos['children']==-1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,-4417.703588,46,secondary education,1,civil partnership,1,F,employee,0,16450.615,profile education
705,-1,-902.084528,50,secondary education,1,married,0,F,civil servant,0,22061.264,car purchase
742,-1,-3174.456205,57,secondary education,1,married,0,F,employee,0,10282.887,supplementary education
800,-1,349987.852217,54,secondary education,1,unmarried,4,F,retiree,0,13806.996,supplementary education
941,-1,,57,secondary education,1,married,0,F,retiree,0,,buying my own car
1363,-1,-1195.264956,55,secondary education,1,married,0,F,business,0,11128.112,profile education
1929,-1,-1461.303336,38,secondary education,1,unmarried,4,M,employee,0,17459.451,purchase of the house
2073,-1,-2539.761232,42,secondary education,1,divorced,3,F,business,0,26022.177,purchase of the house
3814,-1,-3045.290443,26,secondary education,1,civil partnership,1,F,civil servant,0,21102.846,having a wedding
4201,-1,-901.101738,41,secondary education,1,married,0,F,civil servant,0,36220.123,transactions with my real estate


Tenemos que son 47 registros con el valor de -1 en la columna 'children' de un total de 21,525 lo que nos da un porcentaje de alrededor de 0.5 %. Se observa que 'days_employed' la mayoría de estos registros problema tienen valores negativos ¿Porqué razón?. Además la columna 'total_income' tiene los mismos datos para todos estos registros problemáticos.

Podemos interpretar que el valor -1 se puede referir a que tenia un hijo y este falleció. Pero que hay de la situación de las personas que tienen 1 hijo y se les muere 1, es evidente que esa notación no es la mas adecuada para usarla. Si pensamos que debido a eso cada registro presenta una persona que esta solicitando un crédito. 

In [26]:
#observemos en un aparte los registros con 'children' en 20
creditos.loc[creditos['children']== 20]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,secondary education,1,married,0,M,business,0,23253.578,purchase of the house
720,20,-855.595512,44,secondary education,1,married,0,F,business,0,18079.798,buy real estate
1074,20,-3310.411598,56,secondary education,1,married,0,F,employee,1,36722.966,getting an education
2510,20,-2714.161249,59,bachelor's degree,0,widow / widower,2,F,employee,0,42315.974,transactions with commercial real estate
2941,20,-2161.591519,0,secondary education,1,married,0,F,employee,0,31958.391,to buy a car
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,secondary education,1,married,0,F,employee,1,21363.842,to own a car
21325,20,-601.174883,37,secondary education,1,married,0,F,business,0,16477.771,profile education
21390,20,,53,secondary education,1,married,0,M,business,0,,buy residential real estate
21404,20,-494.788448,52,secondary education,1,married,0,M,business,0,25060.749,transactions with my real estate


In [27]:
#veamos la media y la mediana para children
creditos['children'].mean()

0.5389082462253194

Tenemos una situación similar en la columna 'children' debido a que ahora en el valor 20 tenemos registros negativos en la columna 'days_employed', junto una duplicación de los registros en la columna 'total_income' y son tan solo 74 registros que presentan esta condición problemática.

Las personas que tienen 20 niños son poco frecuentes, son valores atípicos, y alrededor de los 0 niños es el valor promedio en la columna 'children'; no hay muchos registros así, por lo que se sería no un credito personal, si de alguna persona que representa alguna institución de beneficiencia.Por lo que no alteramos el análisis si los ignoramos.

Por otra consideración tenemos que debido a que no observamos, una proyección de datos como personas que van de 15, 11, 9 ... 20 podemos pensar que son errores de captura de tipo técnico con el teclado de donde se capturo es decir en lugar de 20 se refiere a 2 hijos. De la misma manera tenemos que el valor -1 es relativo a un error en el teclado ó del equipo al guardar un valor 1.


In [28]:
# arreglando los datos
creditos['children'] = creditos['children'].replace(20, 2)
creditos['children'] = creditos['children'].replace(-1, 1)

In [29]:
# Comprobando la columna `children` de nuevo para asegurarnos de que todo está arreglado
creditos['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Dado que en un año tenemos alrededor de los 364 días, tomando la edad de labores ronda a los 18 años, la métrica de estos parametros nos dan una medida de que el número de días para una persona que cumple los 18 años es de 364, para 19 años 364 * 2 años, para 20 años de 364 * 3,... etc. 

In [30]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje 
creditos['años_labora'] = creditos['days_employed']/364
examen_days_empleado = creditos[['days_employed', 'dob_years','años_labora']]
examen_days_empleado = examen_days_empleado.sort_values(by='days_employed')
examen_days_empleado

Unnamed: 0,days_employed,dob_years,años_labora
16335,-18388.949901,61,-50.519093
4299,-17615.563266,61,-48.394405
7329,-16593.472817,60,-45.586464
17838,-16264.699501,59,-44.683240
16825,-16119.687737,64,-44.284856
...,...,...,...
21489,,47,
21495,,50,
21497,,48,
21502,,42,


Tenemos registros problemáticos como lo señala la columna 'años_labora' personas con ¿ 35 años y 0 años laborados? ó ¿Que tiene mas de 900 años laborando?
Buscando categorizar aplicamos una función que devuelva categorizar los valores de las columnas dob_years y años_labora. Definimos una columna 'estimado_años_labora'.

In [31]:

#entidiendo que el inicia la experiencia laboral a los 18 años estimamos los años laborales
creditos['estimado_años_labora'] = creditos[creditos['dob_years'] > 18]['dob_years'] - 18 
#entidiendo que las personas menores que 18 se les estima un año
creditos.loc[creditos['dob_years'] <= 18,  'estimado_años_labora'] = 1
examen_days_empleado = creditos[['days_employed' ,'dob_years','años_labora', 'estimado_años_labora']]
examen_days_empleado = examen_days_empleado.sort_values(by='años_labora')

filtro = creditos[['estimado_años_labora','años_labora', 'dob_years']].sort_values(by ='años_labora')
reg_neg_prob = filtro [(filtro ['años_labora'] < 0)]
reg_neg_prob


Unnamed: 0,estimado_años_labora,años_labora,dob_years
16335,43.0,-50.519093,61
4299,43.0,-48.394405,61
7329,42.0,-45.586464,60
17838,41.0,-44.683240,59
16825,46.0,-44.284856,64
...,...,...,...
2127,13.0,-0.095333,31
9683,25.0,-0.092090,43
6157,29.0,-0.082954,47
8336,14.0,-0.066595,32


In [32]:
print('porcentaje de registros problemáticos negativos: ' + str( int(len(reg_neg_prob) *100 /len(creditos)) ) + '%') 

porcentaje de registros problemáticos negativos: 73%


In [33]:
reg_pos_prob = filtro [(filtro['años_labora'] > 0) & ((filtro['años_labora'] - filtro['estimado_años_labora']) > 10 )]
reg_pos_prob

Unnamed: 0,estimado_años_labora,años_labora,dob_years
20444,54.0,903.100881,72
9328,23.0,903.117923,41
17782,38.0,903.217971,56
14783,44.0,903.284964,62
7229,14.0,903.371829,32
...,...,...,...
7794,43.0,1103.472116,61
2156,42.0,1103.501282,60
7664,43.0,1103.503004,61
10006,51.0,1103.614867,69


In [34]:
print('porcentaje de registros problemáticos no realistas y que son positivos: ' + str( int(len(reg_pos_prob) *100 /len(creditos)) ) + '%')

porcentaje de registros problemáticos no realistas y que son positivos: 16%


La cantidad de datos problemáticos es alta en esta columna de 'days_employed'. La mejor forma que fueron capturados nos hace pensar de que fueron antepuestos por un procedimiento externo a los datos reales, nos referimos a que fueron antepuestos y no obtenidos por información de la muestra real. Lo cual nos lleva a pensar que esta columna se encuentra totalmente corrupta. 

¿Como explicar la causa de esta gran cantidad de datos problemáticos? Esta columna tiene 2 factores que la vuelven problemática, caracterizando por areas los valores negativos y los valores que no van con la norma que nos indica la columna 'estimado_años_labora'.

In [35]:
# Abordando los valores problemáticos, si existen.
#definimos una función que estima el numero de de dias en labores tomando el dato de los años estimandos
#laborando como multiplicar los años_estimados por 364 dias y proponer ese como base para el ajuste de los valores
#problemáticos.

# en primer lugar los que tiene registro negativos 
creditos ['days_employed'] = abs(creditos ['days_employed'])
creditos ['estimado_años_labora'] =  abs(creditos ['estimado_años_labora'])
creditos['años_labora'] = abs(creditos['años_labora'])


In [36]:
# en segundo lugar los que tiene registro positivos con valores irreales, vamos a considerar los que
#tienen valores muy alejados de la estimación de la columna 'estimado_años_labora' mayor a 10 años
#estimar la media por categoria de edades de los datos que consideramos correctos en los datas para 'day_employed'
problemas_days_empleados = creditos.loc [ abs(creditos['años_labora'] 
                                              - creditos['estimado_años_labora']) <= 10] 
problemas_days_empleados.sort_values(by ='años_labora',ascending=True)
#realizamos una tabla dinámica para poder estimar por categorias de edad, los valores promedios
tasa_base = problemas_days_empleados.pivot_table(index='dob_years', values = 'days_employed', aggfunc = 'mean')
tasa_base


Unnamed: 0_level_0,days_employed
dob_years,Unnamed: 1_level_1
0,1369.100628
19,633.678086
20,684.944308
21,709.44093
22,781.376775
23,827.309437
24,1026.405485
25,1088.406453
26,1200.288052
27,1358.153479


In [37]:
#definimos una función para usarla como auxiliar para componer los valores problemáticos de la tabla 
#'days_employed'
def rellenar_ausentes_days(renglon):    
    try:
        return tasa_base['days_employed'][renglon['dob_years']]
    except:
#si no encuentra valores en la table dinámica tasa_base pasamos asignando valores desde la columna
#'estimado_años_labora'
        renglon['days_employed']= renglon['estimado_años_labora']*364
                
#con los valores promedios de las tabla dinámica de los datos que consideramos correctos, buscamos aplicarlos a
#los valores problemáticos tomando en cuenta la tabla 'dob_years'
creditos.loc [ abs(creditos['años_labora'] - creditos['estimado_años_labora']) > 10, 'days_employed'] = creditos.apply(rellenar_ausentes_days, axis = 1)


In [38]:
#hacenmos actualización de la columna 'años_labora' 
creditos['años_labora'] = creditos['days_employed'] / 364
#con un dataframe ahora verificamos que no tenemos mas valores problemáticos en 
#la columna 'days_employed' atravez de 'años_labora'
verifica = creditos.loc [ abs(creditos['años_labora'] - creditos['estimado_años_labora']) > 10, 'años_labora']
verifica

Series([], Name: años_labora, dtype: float64)

In [39]:
# Comprobando el resultado
creditos['days_employed'].sort_values(ascending=True).unique()

array([   51.49688496,    70.09170994,    75.14877255, ...,
       17615.56326563, 18388.94990057,            nan])

Ahora hechemos un vistazo a la edad de clientes para ver si hay algún problema allí. 
Entonces ajustemos primero los datos en age_years para terminar de ajustar los de days_employed

In [40]:
# Revisando `dob_years` en busca de valores sospechosos y cuenta el porcentaje 0 años!!!!!
creditos['dob_years'].sort_values(ascending=True).unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [41]:
# Revisando `dob_years` en busca de valores sospechosos y cuenta el porcentaje 0 años!!!!!
creditos.loc[creditos['dob_years'] == 0, 'dob_years'].count()

101

Suponemos que los 101 registros con valor cero en la columna 'dob_years' se debieron a que son personas que no tiene la edad para trabajar de manera legalmente formal, normalmente pensariamos en personas de entre los 15-18 años de edad, aunque la columna income_type nos dice -retiree- en algunos registros. Como son solo 101 rgistros no afectará mucho la muestra si los sustituimos por la mediana de los datos.

In [42]:
# Resolviendo los problemas en la columna `dob_years`, si existen
#calculado la mediana de todo el dataframe
creditos.loc[creditos['dob_years'] == 0, 'dob_years'] = creditos.loc[creditos['dob_years'] != 0, 'dob_years'].median()
print('Valor con el que se sustituye los registros que tiene 0: ' + str(creditos['dob_years'].median()))

Valor con el que se sustituye los registros que tiene 0: 43.0


In [43]:
# Comprobando el resultado - asegúrate de que esté arreglado
creditos.loc[creditos['dob_years'] == 0, 'dob_years']

Series([], Name: dob_years, dtype: float64)

Demos resolución ahora a la columna de days_employed

In [44]:
#asignar con el nuevo valor en dob_years para los valores problemáticos de days employed
creditos.loc[creditos['days_employed'] == -6552, 'days_employed'] = creditos ['dob_years'] * 364
#verificamos 
creditos['days_employed'].sort_values().unique()

array([   51.49688496,    70.09170994,    75.14877255, ...,
       17615.56326563, 18388.94990057,            nan])

Ahora revisemos la columna `family_status`. Observemos qué tipo de valores hay y qué problemas hay  que tener que abordar.

In [45]:
# Veamos los valores de la columna
creditos['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

Tenemos ciertos espacios en los -civil partnership- y -widow / widower-  vamos a eliminarlos, por lo demas no presentan mas problemas esta columna family_status

In [46]:
# Abordando los valores problemáticos en `family_status` 
creditos.loc[ creditos['family_status']== 'civil partnership', 'family_status']=  'civil_partnership'
creditos.loc[ creditos['family_status']== 'widow / widower', 'family_status']=  'widow_widower'


In [47]:
# Comprobando el resultado - asegúrate de que esté arreglado
creditos['family_status'].value_counts()

married              12380
civil_partnership     4177
unmarried             2813
divorced              1195
widow_widower          960
Name: family_status, dtype: int64

Ahora revisemos la columna `gender`. Obsevemos qué tipo de valores hay y qué problemas se tienen que abordar

In [48]:
# Veamos los valores en la columna
creditos['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [49]:
# Abordando los valores problemáticos, si existen
creditos.loc [creditos['gender']=='XNA', 'gender'] = 'M'

In [50]:
# Comprobando el resultado - asegúrate de que esté arreglado quien es 1
creditos['gender'].value_counts()

F    14236
M     7289
Name: gender, dtype: int64

Ahora vamos a revisar la columna `income_type`. Observar qué tipo de valores hay y qué problemas se abordarán.

In [51]:
# Veamos los valores en la columna
creditos['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [52]:
# Abordando los valores problemáticos, si existen
creditos.loc[ creditos['income_type']== 'paternity / maternity leave', 'income_type']=  'paternity_maternity_leave'
creditos.loc[ creditos['income_type']== 'civil servant', 'income_type']=  'civilservant'

In [53]:
# Comprobando el resultado - asegúrate de que esté arreglado
creditos['income_type'].value_counts()

employee                     11119
business                      5085
retiree                       3856
civilservant                  1459
entrepreneur                     2
unemployed                       2
student                          1
paternity_maternity_leave        1
Name: income_type, dtype: int64

Ahora veamos si hay duplicados en nuestros datos. Si los hay, hay decidir qué si se procede a depurarlos ó eliminarlos.

In [54]:
# Comprobando los duplicados
creditos.duplicated().sum()

71

Tenemos que son 293 registros y tenemos un total de 21525 lo que nos da un porcentaje de 1.36 por no ser significativo tenemos que no afecta mucho a los datos del DataFrame excluirlos.

In [55]:
# Abordando los duplicados, si existen
creditos = creditos.drop_duplicates()

In [56]:
# Última comprobación para ver si tenemos duplicados
creditos.duplicated().sum()

0

In [57]:
# Comprobando el tamaño del conjunto de datos que  se tiene ahora, 
# después de haber ejecutado estas primeras manipulaciones
creditos.shape

(21454, 14)

Tenemos ahora un conjunto de datos sin registros duplicados, además tenemos definidos de manera integra los registros para los días en el cliente ha laborado, por otra parte también se ha corregido los datos con valores no reales, es decir problemáticos. Se ha eliminado los datos nulos de las columnas correspondientes.

### Trabajar con valores ausentes

En las columnas de family_status, education ya tiene una columna de identificación; aparte de estas columnas tomaremos y crearemos diccionarios para las columnas de income_type y purpose.

In [58]:
#acondicionando las diversos registros para describir los diccionarios
creditos = creditos.replace('secondary education', 'secondary')
creditos = creditos.replace("bachelor's degree", 'bachelors')
creditos = creditos.replace('some college', 'some_college')
creditos = creditos.replace('primary education', 'primary')
creditos = creditos.replace( 'graduate degree', 'graduate_degree')
creditos['education'].unique()

array(['bachelors', 'secondary', 'some_college', 'primary',
       'graduate_degree'], dtype=object)

In [59]:
creditos['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [60]:
# Encuentrando los diccionarios
dic_icome_type = {
    'activo': ['employee', 'business', 'civilservant', 'entrepreneur'],
    'inactivo': ['retiree', 'unemployed', 'paternity_maternity_leave', 'student']
} 

dic_purpose = {
    'casa': ['purchase of the house', 'housing transactions', 'building a property',
          'purchase of the house for my family', 'construction of own property', 'property', 
          'housing', 'purchase of my own house', 'housing renovation'],
    'auto': ['car purchase', 'buying a second-hand car', 'car',
          'buying my own car', 'cars', 'second-hand car purchase', 'to own a car', 
          'purchase of a car', 'to buy a car'],
    'educacion': ['supplementary education', 'education', 
                 'to become educated', 'getting an education','to get a supplementary education', 
                'getting higher education', 'profile education', 'university education',
                  'going to university'],
    'evento': ['to have a wedding', 'having a wedding','wedding ceremony'],
    'emprender': ['buy real estate', 'buy commercial real estate', 
                 'buy residential real estate', 'transactions with commercial real estate', 
                 'building a real estate', 'transactions with my real estate', 
                'real estate transactions', 'buying property for renting out']
} 


dic_educacion = { 
    'secondary': 1,
    'bachelors':  0,
    'some_college': 2,
    'primary': 3,
    'graduate_degree': 4
}

dic_familia = {
    'married': 0,             
    'civil_partnership': 1,
    'unmarried': 4,
    'divorced': 3,
    'widow_widower': 2
}


In [61]:
creditos['debt'].sort_values().unique()

array([0, 1])

### Restaurar valores ausentes en `total_income`

Para verificar que valores nulos tenemos en el dataframe de creditos usamos la función isna y contamos de esos cuales son de valor 1 es decir true, usando la instrucción sum.

In [62]:
creditos.isna().sum()

children                   0
days_employed           2506
dob_years                  0
education                  0
education_id               0
family_status              0
family_status_id           0
gender                     0
income_type                0
debt                       0
total_income            2103
purpose                    0
años_labora             2506
estimado_años_labora       0
dtype: int64

In [63]:
# Vamos a escribir una función que calcule la categoría de edad
def categoria_edad(edad_cliente):
    if edad_cliente < 11:
        return '0-10'
    elif edad_cliente < 21:
        return  '11-20'
    elif edad_cliente < 31:
        return  '21-30'
    elif edad_cliente < 41:
        return  '31-40'
    elif edad_cliente < 51:
        return  '41-50'    
    elif edad_cliente < 61:
        return  '51-60'    
    elif edad_cliente < 71:
        return  '61-70'  
    elif edad_cliente < 81:
        return  '71-80'      
    else:
        return  'mas de 80'      

In [64]:
# Pruebar si la función funciona bien
print(categoria_edad(80))
print(categoria_edad(25))
print(categoria_edad(52))
categoria_edad(18)

71-80
21-30
51-60


'11-20'

In [65]:
# Crear una nueva columna basada en la función
creditos['categoria_edad'] = creditos['dob_years'].agg(categoria_edad)

In [66]:
# Comprobar cómo los valores en la nueva columna
creditos[['categoria_edad','dob_years', 'total_income']].sort_values(by ='dob_years')

Unnamed: 0,categoria_edad,dob_years,total_income
5563,11-20,19.0,14575.717
13021,11-20,19.0,26443.044
9218,11-20,19.0,16588.237
20230,11-20,19.0,12125.986
2725,11-20,19.0,21114.762
...,...,...,...
4895,71-80,74.0,21589.657
12317,71-80,74.0,19972.813
3460,71-80,74.0,8760.759
2557,71-80,74.0,6868.368


Normalmente se espera que las personas que tienen mas ingreso, son las que mayor preparación tienen. Para suplir los valores ausentes debemos decir si usar los un valor medio ó el valor mediano, pues el usar un valor mediano puede afectar de cierta manera mayor el perfíl de los datos y no veo necesidad de eso, si podemos usar el estadístico del valor medio. Para asegur nuestra desción podemos verlo creando una tabla de datos sin valores ausentes, estos datos se utilizarán para restaurar los valores ausentes; usaremos una tabla dinámica a continuación.

Crearemos una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.

In [67]:
# Crear una tabla sin valores ausentes y muestrar algunas de sus filas para asegurarte de que se ve bien
creditos_correctos = creditos.dropna()
print(creditos_correctos.head(10))

   children  days_employed  dob_years  education  education_id  \
0         1    8437.673028       42.0  bachelors             0   
1         1    4024.803754       36.0  secondary             1   
2         0    5623.422610       33.0  secondary             1   
3         3    4124.747207       32.0  secondary             1   
4         0   11426.049865       53.0  secondary             1   
5         0     926.185831       27.0  bachelors             0   
6         0    7393.475737       43.0  bachelors             0   
7         0   10371.138803       50.0  secondary             1   
8         2    6929.865299       35.0  bachelors             0   
9         0    6408.337855       41.0  secondary             1   

       family_status  family_status_id gender income_type  debt  total_income  \
0            married                 0      F    employee     0     40620.102   
1            married                 0      F    employee     0     17932.802   
2            married          

In [68]:
# Examinar los valores medios de los ingresos en función de los factores que se identificarón
examen_ingreso =creditos_correctos.pivot_table(index='categoria_edad', 
                                               values='total_income', aggfunc='mean')
examen_ingreso

Unnamed: 0_level_0,total_income
categoria_edad,Unnamed: 1_level_1
11-20,19586.303559
21-30,25928.848368
31-40,28376.735148
41-50,28332.806009
51-60,25482.856294
61-70,23750.294207


Los ingresos aumentan en promedio para las personas que se encuentran entre los 41 a los 50 años, pero comienzan a disminuir apartir de esa categoría.

In [69]:
# Examinar los valores medianos de los ingresos en función de los factores que se identificarón
examen_ingreso =creditos_correctos.pivot_table(index='categoria_edad', 
                                               values='total_income', aggfunc='median')
examen_ingreso

Unnamed: 0_level_0,total_income
categoria_edad,Unnamed: 1_level_1
11-20,17257.277
21-30,23079.382
31-40,24825.1865
41-50,24563.65
51-60,22056.771
61-70,20326.9015


In [70]:
# Examinar los valores medianos de los ingresos en función de los factores que se identificarón
examen_ingreso =creditos_correctos.pivot_table(index='education', 
                                               values='total_income', aggfunc= ['median', 'mean'])
examen_ingreso


Unnamed: 0_level_0,median,mean
Unnamed: 0_level_1,total_income,total_income
education,Unnamed: 1_level_2,Unnamed: 2_level_2
bachelors,28147.231,33250.502159
graduate_degree,31771.321,30391.9498
primary,19139.8955,21443.610798
secondary,21921.751,24707.670551
some_college,25709.898,29113.154332


Los ingresos de las personas que tienen bachillerato son los mayores para la media de datos de la tabla anterior.

Por los datos de la tabla anterior observe, que estos son menos dispares si usamos el valor de las medianas que el de los valores medios. Pues la diferencia de las medianas de la tabla en total_income vs education es menor frente a los valores de la tabla total_income vs  categoria_edad, si la comparamos contra los valores de las medias para ambas tablas. 

In [71]:
#  Escribir una función que usaremos para completar los valores ausentes
def poner_mediana(datos):
    if pd.isna(datos['total_income']):
        return examen_ingreso ['median', 'total_income'][datos['education']]
    return datos['total_income']       

In [72]:
# Compruebar si funciona
prueba_datos =[ np.nan, "primary"]
prueba_col = ['total_income', 'education']
serie_prueba = pd.Series(data = prueba_datos, index =prueba_col)
poner_mediana(serie_prueba)

19139.8955

In [73]:
# Aplícalo a cada fila
creditos['total_income'] = creditos.apply(poner_mediana, axis= 1)
creditos.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,años_labora,estimado_años_labora,categoria_edad
0,1,8437.673028,42.0,bachelors,0,married,0,F,employee,0,40620.102,purchase of the house,23.18042,24.0,41-50
1,1,4024.803754,36.0,secondary,1,married,0,F,employee,0,17932.802,car purchase,11.057153,18.0,31-40
2,0,5623.42261,33.0,secondary,1,married,0,M,employee,0,23341.752,purchase of the house,15.448963,15.0,31-40
3,3,4124.747207,32.0,secondary,1,married,0,M,employee,0,42820.568,supplementary education,11.331723,14.0,31-40
4,0,11426.049865,53.0,secondary,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,31.390247,35.0,51-60
5,0,926.185831,27.0,bachelors,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,2.544467,9.0,21-30
6,0,7393.475737,43.0,bachelors,0,married,0,F,business,0,38484.156,housing transactions,20.311747,25.0,41-50
7,0,10371.138803,50.0,secondary,1,married,0,M,employee,0,21731.829,education,28.49214,32.0,41-50
8,2,6929.865299,35.0,bachelors,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,19.038091,17.0,31-40
9,0,6408.337855,41.0,secondary,1,married,0,M,employee,0,23108.15,purchase of the house for my family,17.605324,23.0,41-50


In [74]:
# Compruebar si tenemos algún error
creditos['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

[Si has encontrado errores al preparar los valores para los datos ausentes, probablemente signifique que hay algo especial en los datos de la categoría. Piénsalo un poco: tal vez hará falta arreglar algunas cosas manualmente, si hay suficientes datos para encontrar medianas/medias.]


In [75]:
# Reemplazar los valores ausentes si hay algún error
# NO ENCONTRE NINGUN ERRROR
creditos['total_income'].isna().sum()

0

Podemos apreciar que el numero total de registros es de 21454, y tenemos en la descripción de la columna 'total_income' el mismo número con la aclaración de que son non-null lo que nos garantiza que los registros han sido corregidos en sus valores.

In [76]:
# Comprobar el número de entradas en las columnas
creditos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21454 non-null  int64  
 1   days_employed         18948 non-null  float64
 2   dob_years             21454 non-null  float64
 3   education             21454 non-null  object 
 4   education_id          21454 non-null  int64  
 5   family_status         21454 non-null  object 
 6   family_status_id      21454 non-null  int64  
 7   gender                21454 non-null  object 
 8   income_type           21454 non-null  object 
 9   debt                  21454 non-null  int64  
 10  total_income          21454 non-null  float64
 11  purpose               21454 non-null  object 
 12  años_labora           18948 non-null  float64
 13  estimado_años_labora  21454 non-null  float64
 14  categoria_edad        21454 non-null  object 
dtypes: float64(5), int6

###  Restaurar valores en `days_employed`

Si partimos del los que habiamos expuesto en la sección, de que una persona en promedio empieza a laborar apartir de los 18 años, podemos usar las columnas de 'dob_years' y las que construimos anteriormente como fueron 'años_labora' y 'estimado_años_labora'. El tipo de empleo en la columna 'income_type', puede decirnos una cierta referencia si estamos hablando de una persona retirada,
el numero de dias empleado ya no se incrementará apartir de cierta edad, el de una persona empleada se incrementara a la par de su edad, pero el de una persona emprendedora podría no ser tan constante debido a la volatilidad de sus periodos de trabajo entre proyectos que este grupo realiza.

In [77]:
# Actualizamos dataframe sin valores nulos
creditos_correctos = creditos.dropna()
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
# Distribución de las medias de `days_employed` en función de los parámetros identificados
examen_diastype =creditos_correctos.pivot_table(index='income_type', 
                                               values='days_employed', aggfunc= ['median', 'mean'])
examen_diastype

Unnamed: 0_level_0,median,mean
Unnamed: 0_level_1,days_employed,days_employed
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
business,5818.223887,6071.177423
civilservant,6133.765576,6484.017739
employee,5818.223887,6161.042711
entrepreneur,520.848083,520.848083
paternity_maternity_leave,5818.223887,5818.223887
retiree,13594.591843,12928.366794
student,578.751554,578.751554
unemployed,5243.412972,5243.412972


In [78]:
# Actualizamos dataframe sin valores nulos
creditos_correctos = creditos.dropna().copy()    
# Vamos a la categoríazar la columna ´años_labora´ y 'estimado_años_labora'
creditos_correctos['estimado_años_labora'] =  creditos_correctos['estimado_años_labora']/10
creditos_correctos['estimado_años_labora'] = round(creditos_correctos['estimado_años_labora'])
creditos_correctos['estimado_años_labora'] = creditos_correctos['estimado_años_labora']*10
creditos_correctos.loc[creditos_correctos['estimado_años_labora'] <= 0, 'estimado_años_labora'] = 10


In [79]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
# Distribución de las medias de `days_employed` en función de los parámetros identificados
examen_dias =creditos_correctos.pivot_table(index='estimado_años_labora', 
                                               values='days_employed', aggfunc= ['median', 'mean'])
examen_dias

Unnamed: 0_level_0,median,mean
Unnamed: 0_level_1,days_employed,days_employed
estimado_años_labora,Unnamed: 1_level_2,Unnamed: 2_level_2
10.0,1504.620661,1640.386076
20.0,5278.632909,5288.702258
30.0,9316.202336,9343.799377
40.0,12516.930746,12838.420887
50.0,14730.6217,15059.787164


Es mejor utilizar los valores de la mediana, para este caso debido a que los valores problemáticos influyen más en la media que en la mediana, sobre todo cuando se observa en grupos con alrededor de 10 años o menos laborando.

In [80]:
# Escribamos una función que calcule  medianas 
#según el parámetro identificado
def poner_mediana(registro):
    if pd.isna(registro['days_employed']):
        return examen_dias ['median', 'days_employed'][registro['estimado_años_labora']]
    return registro['days_employed']    

In [81]:
# Compruebar que la función funciona
prueba_datos =[ np.nan, 20]
prueba_col = ['days_employed', 'estimado_años_labora']
serie_prueba = pd.Series(data = prueba_datos, index =prueba_col)
poner_mediana(serie_prueba)

5278.632908561276

In [82]:
# Vamos a la categoríazar la columna ´años_labora´ y 'estimado_años_labora' en creditos
creditos['estimado_años_labora'] =  creditos['estimado_años_labora']/10
creditos['estimado_años_labora'] = round(creditos['estimado_años_labora'])
creditos['estimado_años_labora'] = creditos['estimado_años_labora']*10
#el siguiente grupo considero incluirlo dentro de la categoria de 10 ó menos 'estimado_labora' debido 
#a que se bajan mucho de 18 años en los que estimo inicio de actividad laboral
creditos.loc[creditos['estimado_años_labora'] == 0, 'estimado_años_labora'] = 10
#el siguiente grupo considero incluirlo dentro los 50 - 59 años de 'estimado_labora' debido a que
#origina un 60 ó mas años de 'estimado_labora' por lo que la mayoria es gente de jubilada y son de adultos mayores
creditos.loc[creditos['estimado_años_labora'] == 60, 'estimado_años_labora'] = 50
creditos['estimado_años_labora'].unique()

array([20., 10., 40., 30., 50.])

In [83]:
print(creditos.loc[creditos['estimado_años_labora'] == 60, ['days_employed', 'años_labora', 'dob_years'] ])

Empty DataFrame
Columns: [days_employed, años_labora, dob_years]
Index: []


In [84]:
# Reemplazar valores ausentes
creditos['days_employed'] = creditos.apply(poner_mediana, axis= 1)
creditos.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,años_labora,estimado_años_labora,categoria_edad
0,1,8437.673028,42.0,bachelors,0,married,0,F,employee,0,40620.102,purchase of the house,23.18042,20.0,41-50
1,1,4024.803754,36.0,secondary,1,married,0,F,employee,0,17932.802,car purchase,11.057153,20.0,31-40
2,0,5623.42261,33.0,secondary,1,married,0,M,employee,0,23341.752,purchase of the house,15.448963,20.0,31-40
3,3,4124.747207,32.0,secondary,1,married,0,M,employee,0,42820.568,supplementary education,11.331723,10.0,31-40
4,0,11426.049865,53.0,secondary,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,31.390247,40.0,51-60
5,0,926.185831,27.0,bachelors,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,2.544467,10.0,21-30
6,0,7393.475737,43.0,bachelors,0,married,0,F,business,0,38484.156,housing transactions,20.311747,20.0,41-50
7,0,10371.138803,50.0,secondary,1,married,0,M,employee,0,21731.829,education,28.49214,30.0,41-50
8,2,6929.865299,35.0,bachelors,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,19.038091,20.0,31-40
9,0,6408.337855,41.0,secondary,1,married,0,M,employee,0,23108.15,purchase of the house for my family,17.605324,20.0,41-50


In [85]:
# Compruebar si la función funcionó
creditos['days_employed'].isna().sum()

0

In [86]:
#hay todavia valores nulos pero es un nuestra columna 'años_labora '
#volvemos a calcular para los valores nulos para estas celdas de 'años_labora' ahora que existen
#valores ya completos para la columna 'days_employed'
creditos.loc[creditos['años_labora'].isna() == True, 'años_labora'] = creditos['days_employed'] / 364
# Compruebar numero de registros por columnas
creditos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21454 non-null  int64  
 1   days_employed         21454 non-null  float64
 2   dob_years             21454 non-null  float64
 3   education             21454 non-null  object 
 4   education_id          21454 non-null  int64  
 5   family_status         21454 non-null  object 
 6   family_status_id      21454 non-null  int64  
 7   gender                21454 non-null  object 
 8   income_type           21454 non-null  object 
 9   debt                  21454 non-null  int64  
 10  total_income          21454 non-null  float64
 11  purpose               21454 non-null  object 
 12  años_labora           21454 non-null  float64
 13  estimado_años_labora  21454 non-null  float64
 14  categoria_edad        21454 non-null  object 
dtypes: float64(5), int6

In [87]:
# Compruebar las entradas en todas las columnas para asegurar de que hayamos corregido
#todos los valores ausentes
creditos.isnull().sum()

children                0
days_employed           0
dob_years               0
education               0
education_id            0
family_status           0
family_status_id        0
gender                  0
income_type             0
debt                    0
total_income            0
purpose                 0
años_labora             0
estimado_años_labora    0
categoria_edad          0
dtype: int64

## Clasificación de datos
Todas las columnas que se pueden clasificar por categorías, se propusierón en la sección , en el apartado para conformar diccionarios. Resta por realizar categorías de los datos que son cualitativos, lo podemos hacer mediante funciones especificando diferentes escalones de crecimiento.

Como las preguntas propuestas son :

¿Existe una correlación entre tener hijos y pagar a tiempo?
¿Existe una correlación entre la situación familiar y el pago a tiempo?
¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?

Los columnas que nos describen estos datos en nuestro DataFrame son:
children,
family_status,
total_income y
purpose
De estas tres la única que falta categorizar es 'total_income', por lo que estableceremos una jerarquía por escalones atravez de una función, exploraremos designaremos una columna para agruparlos.

In [88]:
# Muestrar los valores de los datos seleccionados para la clasificación
creditos['total_income'].sort_values(ascending=True).unique()
#mediante una lista presentamos los valores seleccionados
escalones_income = [10.000, 20.000, 30.000, 37.0000]

Vamos a comprobar los valores únicos.

In [89]:
# Comprobar los valores únicos
creditos['total_income'].describe()

count     21454.000000
mean      26475.018509
std       15699.465615
min        3306.762000
25%       17219.817250
50%       22583.630500
75%       31330.237250
max      362496.645000
Name: total_income, dtype: float64

Como  el 25% de los datos  se encuentran antes del valor 17219.817250, el  50%   antes del 22583.630500 y el 75%   antess del    31330.237250

In [90]:
# Escribamos una función para clasificar los datos en función de temas comunes
def clase_salarios(registro_salario):
    if registro_salario <= 10000:
        return 'menos de 10,000'
    if registro_salario <= 20000:
        return 'de 10,000 menos de 20,000'
    if registro_salario <= 30000:
        return 'de 20,000 menos de 30,000'
    if registro_salario <= 370000:
        return 'de 30,000 menos de 370,000'

In [91]:
# Crear una columna con las categorías y cuenta los valores en ellas
creditos['categoria_income'] = creditos['total_income'].apply(clase_salarios)

In [92]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
creditos['categoria_income'].value_counts()

de 20,000 menos de 30,000     8145
de 10,000 menos de 20,000     6464
de 30,000 menos de 370,000    5919
menos de 10,000                926
Name: categoria_income, dtype: int64

In [93]:
# Obtener estadísticas resumidas para la columna
creditos['categoria_income'].describe()


count                         21454
unique                            4
top       de 20,000 menos de 30,000
freq                           8145
Name: categoria_income, dtype: object

In [94]:
# Realizamos un procedimiento para clasificar en diferentes grupos  basándose 
#reglon en rangos de la columna 'purpose'

for key_name, dict_value in dic_purpose.items():
    for  element in dict_value:
        creditos.loc[ creditos['purpose'] == element, 'categoria_purpose'] = key_name
      
            
creditos['categoria_purpose'].sort_values(ascending=True).value_counts()      

casa         5696
emprender    5115
auto         4306
educacion    4013
evento       2324
Name: categoria_purpose, dtype: int64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [95]:
# Compruebar los datos sobre los hijos y los pagos puntuales
pregunta1 = creditos.pivot_table(index= 'children', values = 'debt', 
                                 aggfunc= ['sum', 'count'] )
pregunta1
# Calcular la tasa de incumplimiento en función del número de hijos
tasa_incumplir = creditos.pivot_table(index='children', values = 'debt', aggfunc = ['sum', 'count'])
tasa_incumplir['sum', 'debt'] = tasa_incumplir['sum', 'debt'] / tasa_incumplir['count', 'debt']
tasa_incumplir

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,0.075438,14091
1,0.091658,4855
2,0.094925,2128
3,0.081818,330
4,0.097561,41
5,0.0,9


In [96]:
#vamos analizar los que tiene hijos contra los que no tienen hijos
# relicemos la tabla dinámica
creditos.loc[creditos['children'] == 0, 'con_hijos'] = False
creditos.loc[creditos['children'] != 0, 'con_hijos'] = True
analisis = creditos.pivot_table(index='con_hijos', values = 'debt', aggfunc = ['sum', 'count'])
analisis['sum', 'debt'] = analisis['sum', 'debt'] / analisis['count', 'debt']
analisis 

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
con_hijos,Unnamed: 1_level_2,Unnamed: 2_level_2
False,0.075438,14091
True,0.092082,7363


**Conclusión**

Sucede que no hay evidencia concluyente de que el número de hijos, es factor para observar que disminuye la tasa de incumplimientos. El número de personas con hijos no es compatible con la tasa de incumplimiento, hay
mas personas sin hijos que con 2, ó más hijos. Existe un incremento importante de la tasa de incumplimiento cuando observamos a personas con 4 hijos, pero el numero de registros en esta categoría no indica algo concluyente.

Por otra parte en la tabla comparativa nos indica una cierta tendencia que cuando las personas tienen hijos se puede esperar que crezca mas su tasa de incumplimiento.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [97]:
# Compruebar los datos del estado familiar y los pagos a tiempo
pregunta1 = creditos.pivot_table(index= 'family_status_id', values = 'debt', 
                                 aggfunc= ['sum', 'count'] )
pregunta1
# Calcular la tasa de incumplimiento basada en el estado familiar
tasa_incumplir = creditos.pivot_table(index='family_status_id', values = 'debt', aggfunc = ['sum', 'count'])
tasa_incumplir['sum', 'debt'] = tasa_incumplir['sum', 'debt'] / tasa_incumplir['count', 'debt']
tasa_incumplir

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,0.075452,12339
1,0.093471,4151
2,0.065693,959
3,0.07113,1195
4,0.097509,2810


**Conclusión**

Tenemos una situación parecida a la del apartado de arriba antes descrito; no podemos concluir nada debido a que el número de personas con 'family_status_id' igual 0, es mucho mayor al de los otros estados familiares.


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [98]:
# Compruebar los datos del nivel de ingresos y los pagos a tiempo

pregunta1 = creditos.pivot_table(index= 'categoria_income', values = 'debt', 
                                 aggfunc= ['sum', 'count'] )
pregunta1
# Calcular la tasa de incumplimiento basada en el nivel de ingresos
tasa_incumplir = creditos.pivot_table(index='categoria_income', values = 'debt', aggfunc = ['sum', 'count'])
tasa_incumplir['sum', 'debt'] = tasa_incumplir['sum', 'debt'] / tasa_incumplir['count', 'debt']
tasa_incumplir


Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
categoria_income,Unnamed: 1_level_2,Unnamed: 2_level_2
"de 10,000 menos de 20,000",0.085551,6464
"de 20,000 menos de 30,000",0.085206,8145
"de 30,000 menos de 370,000",0.073661,5919
"menos de 10,000",0.062635,926


**Conclusión**

Las diferencias entre las categorías de ingreso, no es concluyente pues la disminución de puntos porcentuales no es significativa y se corresponde con el número de registros que se agruparon en cada categoría.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [99]:
# Consultar los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízarlos
#utilizamos la tabla de categorias de purpose 'categoria_purpose'
pregunta1 = creditos.pivot_table(index= 'categoria_purpose', values = 'debt', 
                                 aggfunc= ['sum', 'count'] )
pregunta1
tasa_incumplir = creditos.pivot_table(index='categoria_purpose', values = 'debt', aggfunc = ['sum', 'count'])
tasa_incumplir['sum', 'debt'] = tasa_incumplir['sum', 'debt'] / tasa_incumplir['count', 'debt']
tasa_incumplir


Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,debt,debt
categoria_purpose,Unnamed: 1_level_2,Unnamed: 2_level_2
auto,0.09359,4306
casa,0.069171,5696
educacion,0.0922,4013
emprender,0.075855,5115
evento,0.080034,2324


**Conclusión**

Por las mismas condiciones de paridad en el número de personas para las diferentes categorías, y una variación poco significativa para las tasas de incumplimiento, podemos referirnos que no se cuenta con evidencia contundente para afirmar que el propósito del solicitante para adquirir un crédito se ha indicador de que solventará sus responsabilidades.


# Conclusión general 


El número de hijos de un cliente, con los datos obtenidos no muestra evidencia sustencial para afirmar que es un factor para reducir la tasa de incumplimiento de una deuda. Aunque existe una posible tendencia para formular de que las personas con hijos incrementa la tasa de incumplimiento; teniendo en observación el grupo de las personas que tiene 4 hijos. Sin embargo la cantidad de datos para este grupo no permite afirmarlo. 

El estado civil con los datos obtenidos no muestra evidencia sustencial para afirmar que es un factor para reducir la tasa de incumplimiento de una deuda.

Los ingresos de un cliente según los datos obtenidos no muestra evidencia sustencial para afirmar que es un factor para reducir la tasa de incumplimiento de una deuda.

Los datos registrados en el concepto de proposito por el cual el cliente, solicita un crédito; junto con los datos obtenidos para la tasa de incumplimiento, no muestran evidencia sustencial para afirmar que es un factor para reducir la tasa de incumplimiento de una deuda.

Se concluye que con los datos con los cuales se tiene acceso, no existe un factor determinante que permita inferir un grupo con una tasa de incumplimiento de deuda en reducción de riesgo.

