# CONTENIDO <a id='back'></a>

* [Introducción](#intro)
* [Descripción de datos](#description)
    * [Patrones en valores ausentes](#null_values)
    * [Conclusión](#conclusion_1)
* [Transformación de datos](#data_transformation)
    * [Verificación columna education](#education)
    * [Verificación columna children](#children)
    * [Verificación columna days_employed](#days)
    * [Verificación columna dob_years](#years)
    * [Verificación columna family_status](#family)
    * [Verificación columna gender](#gender)
    * [Verificación columna income_type](#income)
    * [Verificación de duplicados](#duplicados)
    * [Conclusión](#conclusion_2)
* [Tratamiento de valores Ausentes](#null_values)
    * [Columna total_income](#null_income)
    * [Columna days_employed](#null_days)
* [Clasificación de datos](#data)
    * [Creación de purpose_category](#purpose_category)
    * [Creación de total_income_category](#total_income_category)
* [Comprobación de hipótesis](#hipotesis)
* [Conclusión General](#final_conclution)

## Introducción <a id ='intro'></a>

### Análisis del riesgo de incumplimiento de los prestatarios


El proyecto consiste en preparar un informe para la división de préstamos de un banco. para ello se han formulado las siguientes hipóteis:

* ¿Hay alguna conexión entre tener hijos y pagar un préstamo a tiempo?
* ¿Existe una conexión entre el estado civil y el pago a tiempo de un préstamo?
* ¿Existe una conexión entre el nivel de ingresos y el pago a tiempo de un préstamo?
* ¿Cómo afectan los diferentes propósitos del préstamo al reembolso a tiempo del préstamo?

Este informé ayudará a la división para crear un esquema de **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

## Descripción de datos  <a id ='description'></a>

In [1]:
# Cargar todas las librerías
import pandas as pd

In [2]:
# Carga los datos
credit_scoring_data = pd.read_csv('/datasets/credit_scoring_eng.csv')

In [3]:
# Observemo el contenido de nuestra tabla
credit_scoring_data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [4]:
# Obtener información sobre los datos
credit_scoring_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Contamos con una tabla de un tamaños de 21525 filas y 12 columnas, contamos con datos de tipo object, float e int. A continuación presentaremos la descripción de las columnas

- **`children`** - el número de hijos en la familia
- **`days_employed`** - experiencia laboral en días
- **`dob_years`** - la edad del cliente en años
- **`education`**- la educación del cliente
- **`education_id`** - identificador de educación
- **`family_status`** - estado civil
- **`family_status_id`** - identificador de estado civil
- **`gender`** - género del cliente
- **`income_type`** - tipo de empleo
- **`debt`** - ¿había alguna deuda en el pago de un préstamo?
- **`total_income`** - ingreso mensual
- **`purpose`** - el propósito de obtener un préstamo

De la información de la tabla podemos ver los siguiente:

- En las columnas `days_employed` y `total_income` tenemos menos valores respecto a los demás, por lo que tenemos valores nulos
- En la columa `education` hay valores en minusculas, mayusculas y combinadas
- Hay valores negativos en la columna `days_employed` y valores que no tienen mucho sentido por que tienen un rango muy grande

### Patrones en valores ausentes <a id = 'null_values'></a>

visualicemos la tabla filtrada por valores ausentes

In [5]:
# Filtrado por valores ausentes
credit_scoring_data[credit_scoring_data['days_employed'].isna()].head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


Vamos a verificar que cuantos valores ausentes tenemos en nuestras columnas `days_employed` y `total_income`

In [6]:
#Verificación de cantidad de valores ausentes
credit_scoring_data[['days_employed', 'total_income']].isna().sum()


days_employed    2174
total_income     2174
dtype: int64

**Conclusión intermedia**

verificaremos filtrando la tabla Las columnas `days_employed` y `total_income` ambas cuentan con la misma cantidad de valores nulos, ambas son variables cuantitativas de tipo float, podemos ver que estos valores estan presentes en las mismas filas, por lo que nos hacen pensar que tenemos valores simétricos

A continuación vamos a la proporción de datos nulos presenten en nuestra tabla con la finalidad de ver si impacta en nuestra tabla, además veremos algunas relaciones de las columnas con los valores nulos

In [7]:
#Vamos a calcular la proporción de los valores ausentes con el total de datos

value_null = credit_scoring_data['days_employed'].isna().sum()

# guardaremos el tamaño total de nuestra tabla en una variable

len_dataset = len(credit_scoring_data)
                                 
proporcion = value_null / len_dataset
                                 
print(f'La proporción de números ausentes es:{proporcion: .2%}')

La proporción de números ausentes es: 10.10%


Como se puede obervar el porcentaje de valores es significativo, por lo que se procede a verificar si estos valores pueden ser completados o no tienen relevancia para el análisis, se selecciona la columna `income_type` como carácteristica epecífica, debido a que puede ser que esa porción de clientes no quiera revelar su forma de ingreso o no tenga una fuente de ingreso fija

In [8]:
# Vamos a investigar a los clientes que no tienen datos sobre income_type y la columna con los valores ausentes
income_type_count = credit_scoring_data[credit_scoring_data['days_employed'].isna()]['income_type'].value_counts()

print(income_type_count)

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64


In [9]:
# Comprobación de la distribución

null_elements = credit_scoring_data['days_employed'].isna().sum()

print(f'La distrubución de la tabla filtrada es:\n{income_type_count / null_elements}')

La distrubución de la tabla filtrada es:
employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64


Obsrevamos que la mayor cantidad de datos nulos están en la categoría de empleados representa un 50% de la tabla filtadra, Estas ausencias pueden ser debido a que su salario no sea lo suficiente para conseguir un crédito y poder dar la certeza de que podrán pagar.

Ahora veamos la distribución de todos nuestros valores de nuestra columna 'income_type' con la tabla total 

In [10]:
# Comprobando la distribución en el conjunto de datos entero

income_type_distribution = credit_scoring_data['income_type'].value_counts()

distribution = income_type_distribution / len_dataset

print(f'La distrubución total es:\n{distribution}')


La distrubución total es:
employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unemployed                     0.000093
entrepreneur                   0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64


**Conclusión intermedia**

La diferencia en los casos en los que se presentan los valores nulos com respecto a la tabla original es menor a un 1% por los que los valores tienen más o meno la misma proporcion

### Conclusiones <a id =conclusion_1></a>


En general vimos que tenemos las misma cantidad de valores nulos en nuestras columnas `days_employed` y `total_income`, haciendo una investigación tomando como carácteristica nuestra columna `income_type` observamos que la mayoría de los datos nulos son las personas empleadas, esto puede deberse a que estás personas estaban ingresando o por ingresar a un nuevo empleo y por dicha razón aun no contaban con la información de esas categorías


## Transformación de datos<a id=data_transformation></a>

### Verificación columna `education`<a id = education></a>

In [11]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
credit_scoring_data['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Observamos que no hay faltas de ortografía, el único error en los nombres estan en tienen minusculas,mayusculas o mezcladas,
por lo que se pasaran los valores a minúsculas

In [12]:
#Transformando las palabras a minusculas
credit_scoring_data['education'] = credit_scoring_data['education'].str.lower()

# Comprobamos que tengamos valores únicos
credit_scoring_data['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [13]:
#Veamos en nuestra tabla si los valores fueron modificados
credit_scoring_data['education']

0          bachelor's degree
1        secondary education
2        secondary education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object

### Verificación columna `children`<a id = children>

In [14]:
# Veamos la distribución de los valores en la columna `children`
credit_scoring_data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Observamos un valor inusual "-1" y "20" en la columna de cantidad de hijos, veamos las filas en donde la columna `children` sea -1 para ver si hay algún patrón

In [15]:
distribution_children = credit_scoring_data.loc[(credit_scoring_data['children'] == -1) 
                                             | (credit_scoring_data['children'] == 20)]

rate_distribution = len(distribution_children) / len_dataset

print(f'El porcentaje es:{rate_distribution: .2%}')

El porcentaje es: 0.57%


In [16]:
credit_scoring_data.loc[credit_scoring_data['children'] == -1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,-4417.703588,46,secondary education,1,civil partnership,1,F,employee,0,16450.615,profile education
705,-1,-902.084528,50,secondary education,1,married,0,F,civil servant,0,22061.264,car purchase
742,-1,-3174.456205,57,secondary education,1,married,0,F,employee,0,10282.887,supplementary education
800,-1,349987.852217,54,secondary education,1,unmarried,4,F,retiree,0,13806.996,supplementary education
941,-1,,57,secondary education,1,married,0,F,retiree,0,,buying my own car
1363,-1,-1195.264956,55,secondary education,1,married,0,F,business,0,11128.112,profile education
1929,-1,-1461.303336,38,secondary education,1,unmarried,4,M,employee,0,17459.451,purchase of the house
2073,-1,-2539.761232,42,secondary education,1,divorced,3,F,business,0,26022.177,purchase of the house
3814,-1,-3045.290443,26,secondary education,1,civil partnership,1,F,civil servant,0,21102.846,having a wedding
4201,-1,-901.101738,41,secondary education,1,married,0,F,civil servant,0,36220.123,transactions with my real estate


In [17]:
credit_scoring_data.loc[credit_scoring_data['children'] == -1]['family_status'].value_counts()

married              29
civil partnership     5
unmarried             5
divorced              4
widow / widower       4
Name: family_status, dtype: int64

De la tabla se tomó como referencia el estado civil de los encuestados para saber si hay alguna relación. Observamos que la mayoría de las personas tienen o han tenido pareja por lo que se puede consedirar que si han tenido un hijo al menos y pudo haber sido un error de transcripción, a continuación correjiremos estos valores volviendolos positivos.

In [18]:
#Convirtiendo valores negativos a positivos
credit_scoring_data.loc[credit_scoring_data['children'] == -1, 'children'] = 1
#Comprobando corrección del problema
credit_scoring_data.loc[credit_scoring_data['children'] == -1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Ahora veamos los valores 20 en la columna `children`, es muy complicado que varias personas tengan esa contidad de hijos por lo que muy posiblemente en realidad sea un valor de 2, veamos la tabla en la columna de edad para ver cual es la minima edad presente con ese valor y ver si tiene sentido

In [19]:
credit_scoring_data.loc[credit_scoring_data['children'] == 20]['dob_years'].head(10)

606     21
720     44
1074    56
2510    59
2941     0
3302    35
3396    56
3671    23
3697    40
3735    26
Name: dob_years, dtype: int64

Observamos que la cantidad de hijos en algunos casos no tiene mucho sentido respecto a la edad, en cambio si podriamos pensar que tienen al menos 2 hijos, corrijamos el problema dividiendo el valor entre 10. Existe un valor de edad 0 que se tratará después

In [20]:
#Convirtiendo valores negativos a positivos
credit_scoring_data.loc[credit_scoring_data['children'] == 20, 'children'] = 2
#Comprobando corrección del problema
credit_scoring_data.loc[credit_scoring_data['children'] == 20]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [21]:
credit_scoring_data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Ahora ya tenemos corregido nuestros valores en nuestra columna children

### Verificación columna  `days_employed`<a id=day></a>

In [22]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
days_employed_wrong_data = credit_scoring_data.loc[credit_scoring_data['days_employed'] < 0]


wrong_data_rate = len(days_employed_wrong_data) / len_dataset
print(f'El porcentaje es:{wrong_data_rate: .2%}')


El porcentaje es: 73.90%


En el caso de la columna `days_employed` tenemos tres problemas valores ausentes, números negativos y valores que tienen un valor muy grande.
El porcentaje de números negativos en la columna es de 73.87% es un número bastante significativo para eliminarlos asi que 
cambiaremos los valores a positivos. Atenderemos primero los números negativos cambiando a positivos

In [23]:
# Aborda los valores problemáticos, si existen.
#Convirtiendo los números negativos a positivos
credit_scoring_data['days_employed'] = abs(credit_scoring_data['days_employed'])

In [24]:
# Comprobamos que no tenga ningun valor negativo
len(credit_scoring_data.loc[credit_scoring_data['days_employed']<0])

0

Ahora veamos la caracteristicas de la tabla con el método describe

In [25]:
credit_scoring_data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

Observamos que tenemos puntos decimales en los días lo cual no suena muy lógico, asi que vamos a intentar cambiarla por tipo entero,en el paso siguiente en una nueva variable visualizaremos la distribución de los empleados en años

In [26]:
try:
    credit_scoring_data['days_employed'] = credit_scoring_data['days_employed'].astype('int16')
except:
    print("No es posible realizarlo en estos momentos, intenta corregir valores problemáticos e intenta después")
        
        

No es posible realizarlo en estos momentos, intenta corregir valores problemáticos e intenta después


In [27]:
years_employed = credit_scoring_data['days_employed'] / 365
years_employed.describe()

count    19351.000000
mean       183.328024
std        380.906522
min          0.066141
25%          2.539751
50%          6.011563
75%         15.172281
max       1100.699727
Name: days_employed, dtype: float64

Observamos que la media es de 183 años, por lo que deben de haber valores con un rango muy alto, considerando que la edad de retiro es de 65 años y un promedio de 42 años de vida laboral filtremos los valores por encima de eso

In [28]:
years_employed[years_employed > 51].agg(['max','min'])

max    1100.699727
min     900.626632
Name: days_employed, dtype: float64

Se observó que haciendo el filtrado para experiencia laboral mayor a 51 el mínimo se dispara a 900 años que ya es una valor ilógico, probablemente esos valores estén representados en horas dividiremos entre 24 nuestra variable

In [29]:
years_employed[years_employed > 51] = years_employed[years_employed > 51] / 24
years_employed.describe()

count    19351.000000
mean        12.716825
std         14.673875
min          0.066141
25%          2.539751
50%          6.011563
75%         15.172281
max         50.380685
Name: days_employed, dtype: float64

Ahora vemos unos valores más lógico, como último compondremos los valores de nuestro dataset, dejaremos los valores en días por lo que multiplicaremos nuestra variable de nuevo por 365

In [30]:
days_employed = years_employed * 365
credit_scoring_data['days_employed'] = days_employed

In [31]:
#credit_scoring_data['days_employed'] =  credit_scoring_data['days_employed']

### Verificación de columna `dob_years` <a id='years'></a>

In [32]:
# Veamos los valores únicos de la columna para ver si hay valores extraños
credit_scoring_data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

In [33]:
credit_scoring_data.loc[credit_scoring_data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,14439.234121,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,16577.356876,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,14113.952856,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,13822.552977,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


Observamos un valor de 0 años en la columa veamos la proporción respecto a la tabla

In [34]:
zero_age_values = credit_scoring_data.loc[credit_scoring_data['dob_years']==0]

rate_zero_age = len(zero_age_values) / len_dataset

print(f'El porcentaje es:{rate_zero_age: .2%}')

El porcentaje es: 0.47%


Es un porcentaje menor al 1% por lo que no tendría mucha influencia en la tabla, por lo que se removeran

In [35]:
# Resuelve los problemas en la columna `dob_years`, si existen
credit_scoring_data.drop(credit_scoring_data.loc[credit_scoring_data['dob_years']==0].index, inplace= True)

In [36]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_scoring_data.loc[credit_scoring_data['dob_years']==0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Verificación de columna `family_status`<a id= 'family'></a>

In [37]:
# Veamos los valores de la columna
credit_scoring_data['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Esta columna no tiene valores extraños ni problemáticos


In [38]:
#Observemos nuestra columna
credit_scoring_data['family_status']

0                  married
1                  married
2                  married
3                  married
4        civil partnership
               ...        
21520    civil partnership
21521              married
21522    civil partnership
21523              married
21524              married
Name: family_status, Length: 21424, dtype: object

### Verificación columna `gender`<a id= 'gender'></a>

In [39]:
# Veamos los valores en la columna
credit_scoring_data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [40]:
# Aborda los valores problemáticos, si existen
credit_scoring_data['gender'] = credit_scoring_data['gender'].replace('XNA','undefined')

In [41]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_scoring_data['gender'].unique()

array(['F', 'M', 'undefined'], dtype=object)

### Veridicación columna `income_type` <a id= 'income_type'></a>

In [42]:
# Veamos los valores en la columna
credit_scoring_data['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [43]:
#Observemos nuestra columna
credit_scoring_data['income_type']

0        employee
1        employee
2        employee
3        employee
4         retiree
           ...   
21520    business
21521     retiree
21522    employee
21523    employee
21524    employee
Name: income_type, Length: 21424, dtype: object

In [44]:
credit_scoring_data['income_type'].value_counts()

employee                       11064
business                        5065
retiree                         3836
civil servant                   1453
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [45]:
#Veamos filas donde existan personas desempleadas
credit_scoring_data.loc[credit_scoring_data['income_type'] == 'unemployed']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,14063.519451,31,secondary education,1,married,0,M,unemployed,1,9593.119,buying property for renting out
14798,0,16470.951611,45,bachelor's degree,0,civil partnership,1,F,unemployed,0,32435.602,housing renovation


Se observa que en  la columna de income_type el valor de desempleado tiene ingresos, lo cual no parece ser coherente  modificaremos el valor por 0 de ingresos

In [46]:
# Cambiamos los valores por 0
credit_scoring_data.loc[credit_scoring_data['income_type'] == 'unemployed' , 'total_income'] = 0

In [47]:
# Verificamos que se haya aplicado
credit_scoring_data.loc[credit_scoring_data['income_type'] == 'unemployed']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,14063.519451,31,secondary education,1,married,0,M,unemployed,1,0.0,buying property for renting out
14798,0,16470.951611,45,bachelor's degree,0,civil partnership,1,F,unemployed,0,0.0,housing renovation


### Verificación de duplicados<a id= 'duplicados'></a>

In [48]:
# Comprobar los duplicados
print(f'Número de valores duplicados: {credit_scoring_data.duplicated().sum()}')
# Observemos los números duplicados
credit_scoring_data.loc[credit_scoring_data.duplicated()].head(10)

Número de valores duplicados: 71


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
6312,0,,30,secondary education,1,married,0,M,employee,0,,building a real estate
7808,0,,57,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
7921,0,,64,bachelor's degree,0,civil partnership,1,F,retiree,0,,having a wedding
7938,0,,71,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
8583,0,,58,bachelor's degree,0,unmarried,4,F,retiree,0,,supplementary education


No contamos con un ID del encuestado para asegurarnos que son valores unicos, más sin embargo, no es muy probable que varias personas coincidan con tanta precisión rn los valores de las columnas como purpose por lo que eliminaremos los valores duplicados.

In [49]:
# Aborda los duplicados, si existen
credit_scoring_data = credit_scoring_data.drop_duplicates().reset_index(drop= True)

In [50]:
# Última comprobación para ver si tenemos duplicados
print(f'Número de valores duplicados: {credit_scoring_data.duplicated().sum()}')

Número de valores duplicados: 0


In [51]:
# Veamos como queda nuestra tabla con la eliminación de datos duplicados
credit_scoring_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21353 non-null  int64  
 1   days_employed     19260 non-null  float64
 2   dob_years         21353 non-null  int64  
 3   education         21353 non-null  object 
 4   education_id      21353 non-null  int64  
 5   family_status     21353 non-null  object 
 6   family_status_id  21353 non-null  int64  
 7   gender            21353 non-null  object 
 8   income_type       21353 non-null  object 
 9   debt              21353 non-null  int64  
 10  total_income      19260 non-null  float64
 11  purpose           21353 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [52]:
print(f'Porcentaje de perdida de tabla nueva entre tabla original: {1-21471/21525: .2%}')

Porcentaje de perdida de tabla nueva entre tabla original:  0.25%


**Conclusión** <a id='conclusion_2'></a>

La tabla se redujo un .25% por lo que la perdida de información no es significativa, en resumen se observaron las columnas:

* `education`: En ella se pasaron todos los strings en minúsculas.
*`children`: Se encontró un valor atípico "-1" y "20". lo cambiamos por sus absolutos y el valor de 20 se cambió por un valor de dos hijos
*`days_employed`: Presentaba valores nulos, valores negativos y números muy grandes, se trataron los valores negativos volviendolos absolutos con la función abs(), y se transformaron los valores grandes
*`dob_years`: Existia un valor atípico "0", no representaba mucho en proporción a la tabla original por lo que se eliminaron
*`famili_status`: No se detectó algún problema
*`gender`: Solo se reemplazó el string "XNA" por "undefined"
*`income_type`: Observamos que para las personas que estaban desempleadas tenian un ingreso, lo cual no es congruente, así que se tomo la decisión de poner en 0 el ingreso para esa categoría.

## Tratamiento de  valores ausentes <a id='null_values'></a>

Trabajaremos con diccionarios que nos faciliten la escritura de codigo y la forma de comparar valores, alguno de ellos seran:

In [53]:
#Diccionarios
age_min_max = {'dob_years':['min','max']} # Para conocer nuestro rango de edades
total_income_mean_median = {'total_income':['mean','median','count']} # Para conocer media, mediana y cantidades de nuestras agrupaciones respecto a total_income
days_employed_mean_median = {'days_employed':['mean','median','count']}#Para conocer media, mediana y cantidades de nuestras agrupaciones respecto a days_employed

### Restaurar valores ausentes en `total_income` <a id= 'null_income'></a>

Encontramos dos columnas con valores ausentes la columna `days_employed` Y `total_income` calcularemos la media y la mediana para ver su distribución y poder tomar una decision de como rellenar los valores ausentes.

In [54]:
#Veamos como está la distribución de edades
credit_scoring_data.agg(age_min_max)

Unnamed: 0,dob_years
min,19
max,75


Observamos que nuestro rango es de 19 a 75 años asi que vamos a categorizarlos por grupos de 10 años es decir de 30 a 39, 40 a 49... hasta los 70

In [55]:
# Vamos a escribir una función que calcule la categoría de edad
def dob_year_calculation(age):

    if age < 0 or pd.isna(age):
        return 'NA'
    elif age < 10:
        return '0-9'
    elif 10<= age < 20:
        return '10-19'
    elif 20<= age < 30:
        return '20-29'
    elif 30<= age < 40:
        return '30-39'
    elif 40<= age < 50:
        return '40-49'
    elif 50<= age < 60:
        return '50-59'
    elif 60<= age < 70:
        return '60-69'
    else:
        return '70+'
    

In [56]:
# Prueba si la función funciona bien
print( dob_year_calculation(62))

60-69


In [57]:
# Crear una nueva columna basada en la función
credit_scoring_data['group_years'] =credit_scoring_data['dob_years'].apply(dob_year_calculation)

In [58]:
# Comprobar cómo los valores en la nueva columna
credit_scoring_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,group_years
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59


In [59]:
# Creacion de tabla sin valores ausentes
df_data = credit_scoring_data.loc[credit_scoring_data['total_income'] > 0]
df_null = df_data['total_income'].isna().sum()
print(f'Número de valores ausentes: {df_null}')

Número de valores ausentes: 0


**Medias y medianas por columnas income_type, group_years, children, education y gender**

In [60]:
print('Valores medios y mediana por tipo de ingreso:')
df_data.groupby('income_type').agg(total_income_mean_median)

Valores medios y mediana por tipo de ingreso:


Unnamed: 0_level_0,total_income,total_income,total_income
Unnamed: 0_level_1,mean,median,count
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
business,32397.357125,27564.893,4559
civil servant,27361.316126,24083.5065,1306
employee,25824.679592,22815.1035,9964
entrepreneur,79866.103,79866.103,1
paternity / maternity leave,8612.661,8612.661,1
retiree,21939.310393,18969.149,3426
student,15712.26,15712.26,1


In [61]:
print('Valores medios y mediana por grupo de edad:')
df_data.groupby('group_years').agg(total_income_mean_median)

Valores medios y mediana por grupo de edad:


Unnamed: 0_level_0,total_income,total_income,total_income
Unnamed: 0_level_1,mean,median,count
group_years,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
10-19,16993.942462,14934.901,13
20-29,25572.630177,22799.258,2871
30-39,28316.144678,24679.989,5108
40-49,28550.571947,24762.676,4833
50-59,25811.700327,22203.0745,4178
60-69,23242.812818,19817.44,2095
70+,20125.658331,18751.324,160


In [62]:
print('Valores medios y mediana por hijos:')
df_data.groupby('children').agg(total_income_mean_median)

Valores medios y mediana por hijos:


Unnamed: 0_level_0,total_income,total_income,total_income
Unnamed: 0_level_1,mean,median,count
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,26429.598132,23033.33,12648
1,27381.575379,23655.611,4371
2,27469.471068,23127.793,1904
3,29366.910652,25191.619,293
4,27289.829647,24981.634,34
5,27268.84725,29816.2255,8


In [63]:
print('Valores medios y mediana por educacion:')
df_data.groupby('education').agg(total_income_mean_median)

Valores medios y mediana por educacion:


Unnamed: 0_level_0,total_income,total_income,total_income
Unnamed: 0_level_1,mean,median,count
education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
bachelor's degree,33172.585728,28043.322,4683
graduate degree,27960.024667,25161.5835,6
primary education,21144.882211,18741.976,261
secondary education,24601.454257,21840.467,13635
some college,29040.391842,25618.464,673


Verificamamos 4 caractersticas:
* `income_type`: Veremos como es el tipo de ingreso total por estudio se aprecia que la mejor remunireción es el emprendedor pero solo tenemos un caso, seguido por los que tienen un negocio
* `groups_age`: Por rango de edades vemos que la distribución entre 30-39 es donde hay un mayor ingreso
* `children`: Las personas que tienen un pormedio de 3 hijos tienen mayor ingreso, encuanto a las personas con más de 1 hijo sus ingresos son bastantes similares en la media, pero dispersos en la mediana
* `education`: Este puede ser un buen indicador ya que entre más preparación tiene una persona puede tener un mejor ingreso.

Los valores para realizar la sustitución de los números ausentes se tomaran de la columna education, como se mencionó puede ser un poco más lógico pensar que dependiendo del nivel de estudios se tenga un mejor ingreso,utilizaremos la mediana por que se ven valores dispersos, primero guardaremos la tabla de las medianas en una variable para despues crear una función.


In [64]:
#Adquirir nuestras mediadas
education_income_median = df_data.groupby('education')['total_income'].median()
print(education_income_median)

education
bachelor's degree      28043.3220
graduate degree        25161.5835
primary education      18741.9760
secondary education    21840.4670
some college           25618.4640
Name: total_income, dtype: float64


In [65]:
#  Escribe una función que usaremos para completar los valores ausentes
def fillna_total_income(row):
    
    education_row = row['education']
    total_income_row = row['total_income']

    if education_row == 'bachelor\'s degree':
        return education_income_median[0]
    elif education_row == 'graduate degree':
        return education_income_median[1]
    elif education_row == 'primary education':
        return education_income_median[2]
    elif education_row == 'secondary education':
        return education_income_median[3]
    elif education_row == 'some college':
        return education_income_median[4]
    else:
        return  total_income_row
    

In [66]:
# Comprueba si funciona
fillna_total_income(credit_scoring_data.loc[12]) # el índice 12 es donde se encuentra nuestro primer valor nulo

21840.467

In [67]:
# Aplícalo a cada fila

credit_scoring_data.loc[credit_scoring_data['total_income'].isna(),'total_income'] =credit_scoring_data.loc[credit_scoring_data['total_income'].isna()].apply(fillna_total_income, axis = 1)



In [68]:
# Comprueba si tenemos algún error
credit_scoring_data['total_income'].isna().sum()

0

In [69]:
# Comprobar el número de entradas en las columnas
credit_scoring_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21353 non-null  int64  
 1   days_employed     19260 non-null  float64
 2   dob_years         21353 non-null  int64  
 3   education         21353 non-null  object 
 4   education_id      21353 non-null  int64  
 5   family_status     21353 non-null  object 
 6   family_status_id  21353 non-null  int64  
 7   gender            21353 non-null  object 
 8   income_type       21353 non-null  object 
 9   debt              21353 non-null  int64  
 10  total_income      21353 non-null  float64
 11  purpose           21353 non-null  object 
 12  group_years       21353 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Verificamos que el número de entradas de total_income coindide con las otras columnas que no tenían valor nulo

###  Restaurar valores en `days_employed` <a id= 'null_days'></a>

In [70]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df_data.groupby('education').agg(days_employed_mean_median)

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,mean,median,count
education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
bachelor's degree,3703.772368,1895.223639,4683
graduate degree,7304.159324,5660.057032,6
primary education,6627.971198,3043.933615,261
secondary education,5039.424676,2392.724485,13635
some college,2287.060653,1209.230373,673


In [71]:
df_data.groupby('group_years').agg(days_employed_mean_median)

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,mean,median,count
group_years,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
10-19,633.678086,724.49261,13
20-29,1246.231977,1005.629955,2871
30-39,2101.359201,1601.654097,5108
40-49,3063.193788,2111.008029,4833
50-59,7541.593571,4796.767897,4178
60-69,12657.43408,14801.234092,2095
70+,13873.801149,15055.70806,160


In [72]:
df_data.groupby('income_type').agg(days_employed_mean_median)

Unnamed: 0_level_0,days_employed,days_employed,days_employed
Unnamed: 0_level_1,mean,median,count
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
business,2112.79833,1548.637544,4559
civil servant,3388.508552,2673.404956,1306
employee,2328.603723,1576.067689,9964
entrepreneur,520.848083,520.848083,1
paternity / maternity leave,3296.759962,3296.759962,1
retiree,15208.988648,15215.680699,3426
student,578.751554,578.751554,1


Para la sustitución de valore nulos en nuestra columna `days_employed`vamos a utilizar el promedio agrupado por años debido a que en tiempo debe de tener valores cercanos a los días de experiencias, es decir puede ser que tenga una cantidad baja de valores atípicos

In [73]:
# Obtengamos nuestros valores medios y guardemoslos en una variable
mean_days_employed = df_data.groupby('group_years')['days_employed'].mean()
mean_days_employed

group_years
10-19      633.678086
20-29     1246.231977
30-39     2101.359201
40-49     3063.193788
50-59     7541.593571
60-69    12657.434080
70+      13873.801149
Name: days_employed, dtype: float64

In [74]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def fillna_days_employed(row):
    
    group_years = row['group_years']
    days_employed = row['days_employed']

    if group_years == '10-19':
        return mean_days_employed[0]
    elif group_years == '20-29':
        return mean_days_employed[1]
    elif group_years == '30-39':
        return mean_days_employed[2]
    elif group_years == '40-49':
        return mean_days_employed[3]
    elif group_years == '50-59':
        return mean_days_employed[4]
    elif group_years == '60-69':
        return mean_days_employed[5]
    elif group_years == '70+':
        return mean_days_employed[6]
    else:
        return days_employed

In [75]:
# Comprueba que la función funciona
fillna_days_employed(credit_scoring_data.loc[12]) # el índice 12 es donde se encuentra nuestro primer valor nulo


12657.434080015977

In [76]:
# Aplicar la función al income_type

credit_scoring_data.loc[credit_scoring_data['days_employed'].isna(),'days_employed'] =credit_scoring_data.loc[credit_scoring_data['days_employed'].isna()].apply(fillna_total_income, axis = 1)


In [77]:
# Comprobando que se haya reemplaado los valores
credit_scoring_data.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,group_years
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


In [78]:
# Intentemos convertir nuestros valores de nuevo a enteros
try:
    credit_scoring_data['days_employed'] = credit_scoring_data['days_employed'].astype('int16')
    credit_scoring_data.info()
except:
    print("No es posible realizarlo en estos momentos, intenta corregir valores problemáticos e intenta después")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21353 non-null  int64  
 1   days_employed     21353 non-null  int16  
 2   dob_years         21353 non-null  int64  
 3   education         21353 non-null  object 
 4   education_id      21353 non-null  int64  
 5   family_status     21353 non-null  object 
 6   family_status_id  21353 non-null  int64  
 7   gender            21353 non-null  object 
 8   income_type       21353 non-null  object 
 9   debt              21353 non-null  int64  
 10  total_income      21353 non-null  float64
 11  purpose           21353 non-null  object 
 12  group_years       21353 non-null  object 
dtypes: float64(1), int16(1), int64(5), object(6)
memory usage: 2.0+ MB


In [79]:
# Compruobando la eliminación de valores nulos
credit_scoring_data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
group_years         0
dtype: int64

## Clasificación de datos <a id= 'data'></a>

Para poder responder a las preguntas relacionadas con las cateogias de `purpose` y `total_income` vamos a hacer dos columnas nuevas con categorías de estas. También haremos una nueva columna llamada `debt_category` de la columna `debt` donde tendremos dos categorías: payment on time y late payment, esto para ayudarnos en la creación de nuestras tablas dinámicas

### Creación de `purpose_category`<a id= 'purpose_category'></a>

In [80]:
# Muestra los valores de los datos seleccionados para la clasificación
credit_scoring_data['purpose']

0          purchase of the house
1                   car purchase
2          purchase of the house
3        supplementary education
4              to have a wedding
                  ...           
21348       housing transactions
21349          purchase of a car
21350                   property
21351          buying my own car
21352               to buy a car
Name: purpose, Length: 21353, dtype: object

In [81]:
# Comprobar los valores únicos
credit_scoring_data['purpose'].sort_values().unique()

array(['building a property', 'building a real estate',
       'buy commercial real estate', 'buy real estate',
       'buy residential real estate', 'buying a second-hand car',
       'buying my own car', 'buying property for renting out', 'car',
       'car purchase', 'cars', 'construction of own property',
       'education', 'getting an education', 'getting higher education',
       'going to university', 'having a wedding', 'housing',
       'housing renovation', 'housing transactions', 'profile education',
       'property', 'purchase of a car', 'purchase of my own house',
       'purchase of the house', 'purchase of the house for my family',
       'real estate transactions', 'second-hand car purchase',
       'supplementary education', 'to become educated', 'to buy a car',
       'to get a supplementary education', 'to have a wedding',
       'to own a car', 'transactions with commercial real estate',
       'transactions with my real estate', 'university education',
       'we

De los valores unicos podemos observamos que existen varias formas de especificar el proposito por lo que se van a definir cinco categorías:

* buying a car
* construction
* buying a property
* education
* wedding
 

In [82]:
# Escribamos una función para clasificar los datos en función de temas comunes

def purpose_category(value):
    
  
    if 'car' in value:
        return 'buying a car'
    elif 'building' in value or 'construction' in value or 'housing' in value:
        return 'construction'
    elif 'buy' in value or 'transactions' in value or 'property' in value or 'purchase' in value:
        return 'buying a property'
    elif 'education' in value or 'university' in value or 'educated' in value:
        return 'education'
    elif 'wedding' in value:
        return 'wedding'
    else:
        return 'sin clasificar'
    

In [83]:
#probemos nuestra función 
print(purpose_category('transactions with commercial real estate'))
print(purpose_category('second-hand car purchase'))
print(purpose_category('construction of own property'))
print(purpose_category('to become educated'))
print(purpose_category('to have a wedding'))

buying a property
buying a car
construction
education
wedding


In [84]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit_scoring_data['purpose_category'] = credit_scoring_data['purpose'].apply(purpose_category)

In [85]:
#Echemos un vistazo a la tabla con la nueva categoría
credit_scoring_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,group_years,purpose_category
0,1,8437,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49,buying a property
1,1,4024,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39,buying a car
2,0,5623,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39,buying a property
3,3,4124,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39,education
4,0,14177,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59,wedding


In [86]:
credit_scoring_data['purpose_category'].value_counts()

buying a property    7000
buying a car         4284
education            3995
construction         3764
wedding              2310
Name: purpose_category, dtype: int64

Pdemos observar que las columna esta creada y ya tiene los valores de nuestra clasificación siendo el más recurrente el comprar una propiedad

### Creación de `total_income_category`<a id='total_income_category' ></a>

In [87]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
credit_scoring_data['total_income']

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21348    35966.698
21349    24959.969
21350    14347.610
21351    39054.888
21352    13127.587
Name: total_income, Length: 21353, dtype: float64

Por la naturaleza de esta característica tenemos muchos valores por lo que sin una categorización será muy dificil poder llegar a una conclusión asi que lo agruparemos en 4 categorías estos rangos los tomaremos de los valores por porcentaje de ocurrencia que nos presenta el método "describe"

In [88]:
# Transformemos nuestra columna total_income a tipo entero para simplificar los rangos
credit_scoring_data['total_income'] = credit_scoring_data['total_income'].astype('int')
#Obtengamos la información con el método describe
credit_scoring_data['total_income'].describe()

count     21353.000000
mean      26469.805039
std       15720.353536
min           0.000000
25%       17222.000000
50%       22584.000000
75%       31320.000000
max      362496.000000
Name: total_income, dtype: float64

Observando lo que nos arroja el método nuestras categorías quedarían de la suigiente forma:

* **'bajo'** valores entre 0 a 17222
* **'medio bajo'** valores mayores de 17222 a 22584
* **'medio'** valores mayore a 22584 a 31320
* **'alto'** valores mayores 31320

In [89]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

def purpose_category(value):
    
    if value <= 17222:
        return 'bajo'
    elif  17222 < value <= 22584:
        return 'medio bajo'
    elif 22584 < value <= 271812:
        return 'medio'
    elif value > 31320: 
        return 'alto'


In [90]:
#Verifiquemos la función
print(purpose_category(18452))

medio bajo


In [91]:
# Crear una columna con categorías
credit_scoring_data['total_income_category'] = credit_scoring_data['total_income'].apply(purpose_category)

In [92]:
#Echemos un vistazo a la tabla con la nueva categoría
credit_scoring_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   children               21353 non-null  int64 
 1   days_employed          21353 non-null  int16 
 2   dob_years              21353 non-null  int64 
 3   education              21353 non-null  object
 4   education_id           21353 non-null  int64 
 5   family_status          21353 non-null  object
 6   family_status_id       21353 non-null  int64 
 7   gender                 21353 non-null  object
 8   income_type            21353 non-null  object
 9   debt                   21353 non-null  int64 
 10  total_income           21353 non-null  int64 
 11  purpose                21353 non-null  object
 12  group_years            21353 non-null  object
 13  purpose_category       21353 non-null  object
 14  total_income_category  21353 non-null  object
dtypes: int16(1), int64(

In [93]:
#verificación de la distribución
credit_scoring_data['total_income_category'].value_counts()
credit_scoring_data[credit_scoring_data['total_income_category'] == 'medio']['debt'].value_counts()

0    9836
1     835
Name: debt, dtype: int64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [94]:
# Comprueba los datos sobre los hijos y los pagos puntuales
# Obtengamos nuestros valores donde las personas pagan a tiempo 

credit_scoring_data.pivot_table(
    index= 'children', 
    values = 'debt', 
    aggfunc=['count','sum','mean']
)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14022,1058,0.075453
1,4839,442,0.091341
2,2114,202,0.095553
3,328,27,0.082317
4,41,4,0.097561
5,9,0,0.0


**CONCLUSIÓN**

Observamos que la mayor ocurrencia son en las personas que tienen 4 hijos, en este caso las personas de más de 5 no tienen ninguna incidencia, pero vemos de igual forma que los datos de las personas con esa cantidad de hijos son pocas. Tambien se observa una tendencia de incremento de más hijos exceptuando los que tienen 3 hijos por aquí la tendencia es inclusive menor que las personas con un hijo.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [95]:
# Comprueba los datos del estado familiar y los pagos a tiempo
# Calcular la tasa de incumplimiento basada en el estado familiar

credit_scoring_data.pivot_table(
    index= 'family_status', 
    values = 'debt', 
    aggfunc=['count','sum','mean']
)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
civil partnership,4130,386,0.093462
divorced,1185,85,0.07173
married,12290,927,0.075427
unmarried,2794,273,0.097709
widow / widower,954,62,0.06499


**Conclusión**

Para esta hipótesis observamos que las persona solteras son las más probables que no realicen su pago a tiempo, mientras que los de menor riesgo son las personas viudas. Vemos que tener o no pareja no influye en el incumplimiento.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [96]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

credit_scoring_data.pivot_table(
    index= 'total_income_category', 
    values = 'debt', 
    aggfunc= ['count','sum','mean']
)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
alto,5,1,0.2
bajo,5339,425,0.079603
medio,10671,835,0.078249
medio bajo,5338,472,0.088423


**Conclusión**

Aqui observamos algo interesante vemos que las personas con mayor poder adquisitivo (nivel alto) tienen una probabilidad del 20% contrario a lo que se podría pensar,aunque como en el caso de las personas con 5 hijos, tenemos pocos datos por lo que eso hizo que nuestro porcentaje sea tan alto, Observamos que los mejores calificados fueron las personas de clase media.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [97]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

#Obtenemos una tabla en donde tengamos nuestos valores de personas incumplidas

credit_scoring_data.pivot_table(
    index= 'purpose_category',
    values = 'debt', 
    aggfunc=['count','sum','mean']
)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
buying a car,4284,400,0.093371
buying a property,7000,507,0.072429
construction,3764,272,0.072264
education,3995,370,0.092616
wedding,2310,184,0.079654


**Conclusión**

Vemos que las personas que quieren comprarse un auto tienen más problema de pago, seguido las personas de la categoría de education esto puede deberse a lo caro que puede ser costearse una educación y lo dificíl que puede ser para estas personas juntar dinero para su vida diaría y sus estudios. También vemos que las categorias de compra de propiedad y contrucción tienen valores bastantes parecidos lo que nos puede indicar que este tipo de personas tienen una mejor planificación para este tipo de créditos.


## Conclusión general <a id = 'final_conclution'></a>

De nuestra tabla original visualisamos que teniamos valores nulos en dos de nuestras columnas 

Nuestra tabla credit_scoring_data presentaba varios detalles por la cual se tuvo que realizar un preprocesamiento antes de poder contestar nuestras hipótesis entre las cuales encontramos

1. Valores ausentes

Estos valores representaban el 10% de nuestra tabla por lo cual pudo modificar nuestros resultados, tenian un patrón simétrico por que estaban presentes en las mismas filas

2. Valores duplicados

En este caso se optó por eliminar los valores duplicados debido a que es complicado que dos personas coincidan en características como el ingreso y los días de experiencia

3. Valores atípicos
Encontramos columnas que tenían valores no lógicos entre las cuales están
* `days_employed`
    * Se encontraron números negativos los cuales se convirtieon en su parte positiva
    * Se encontraron valores muy grandes que daban más de 100 años de experiencia para ello se asumió que esos datos estaban       incluidos como horas, así que se procedió a transformar las horas en días dividiendo por 24

* `children`
    * Al igual que en `days_employed` teníamos valores en negativos muy probablemente por error de transcripción para           resolverlo convertimos los valores a positvos
    * Nos encontra con un valor de 20, un valor ilógico aquí se decidió que ese valor en realidad era un dos y que fue un       error de transcripción, para llegar a esa conclusión nos apoyamos de la edades en donde se presentaban ese caso

4. Valores escritos distintos pero con un mismo significado


* Para este problema nos encontramos con la columna `education`:
    * Encontramos categorias iguales pero escritas en minúsculas, mayúsculas o una mezcla de ambas por lo que al obtener         valores únicos teníamos teniamos distintos aunque varios fuesen lo mismo, aquí resolvimos convirtiendo a minúsculas         nuestras categorías
    

Creamos dos columnas nuevas para poder contestar nuestras hipotesis acerca de relación entre ingresos y propositos con el cumplimiento del pago, las columnas creadas fueron

* `purpose_category`: En ella creamos 5 categorias presentadas a continuación:

    * buying a car
    * construction
    * buying a property
    * education
    * wedding
    
La asignación de estas categorías dependía de los propositos de nuestra columna `purpose`, se obtuvieron valores unicos de esa columna y se observaron conceptos con un mismo significado pero con distinta forma de describirlo
    
* `total_income_category`: En ella se crearon 5 categorías

    * 'bajo'
    * 'medio bajo
    * 'medio'
    * 'alto'

Para decidir como categorizar utilizamos nuestros percentiles de 25%,50%,75%,100% haciendo una distribución de nuestros datos

Observamos que la mayor ocurrencia son en las personas que tienen 4 hijos, en este caso las personas de más de 5 no tienen ninguna incidencia, pero vemos de igual forma que los datos de las personas con esa cantidad de hijos son pocas. Tambien se observa una tendencia de incremento de más hijos exceptuando los que tienen 3 hijos por aquí la tendencia es inclusive menor que las personas con un hijo.

Para esta hipótesis observamos que las persona solteras son las más probables que no realicen su pago a tiempo, mientras que los de menor riesgo son las personas viudas.

Aqui observamos algo interesante vemos que las personas con mayor poder adquisitivo (nivel alto) tienen una probabilidad del 20% contrario a lo que se podría pensar,aunque como en el caso de las personas con 5 hijos, tenemos pocos datos por lo que eso hizo que nuestro porcentaje sea tan alto, Observamos que los mejores calificados fueron las personas de clase media.

Vemos que las personas de la categoría de education son las que tienden a tener problemas en los pagos, esto puede deberse a lo caro que puede ser costearse una educación y lo dificíl que puede ser para estas personas juntar dinero para su vida diaría y sus estudios. También vemos que las categorias de compra de propiedad y contrucción tienen valores bastantes parecidos lo que nos puede indicar que este tipo de personas tienen una mejor planificación para este tipo de créditos.


Una vez que nuestras tabla estaba tratada pudimos responder nuestras hipótesis que acontinuación se resumen

1. Relación entre número de hijos con incumplimiento de pagos:

Observamos una tendencia de incremento de incendencia conforme se tenían más hijos, excepto para el caso donde se tienen tres hijos aquí disminuye. Tambien notamos ninguna incidencia con personas que tienen 5 hijos, pero nuestra muestra es muy chica para esas personas y poder decir algo concluyente de ellas.

2. Relación entre nivel de ingresos con cumplimiento de pago:

Las personas solteras fueron las de más riesgo en esta hipótesis tambíen no hay una relación clara entre tener o no pareja para decir que esto influye en el incumplimiento.


3. Relación entre ingresos y cumplimiento de pago:

Se observo que las personas de alto poder adquisitivo tienen una probabilidad alta de fallar, pero hay que aclarar que nuestros datos son pocos por lo que las probabilidades tienden a ser más grandes.
Vimos que las personas de niel medio son las mejores calificadas, mientras que después de las personas de ingreso alto siguen las personas de medio bajo.


Vemos que las personas de la categoría de education son las que tienden a tener problemas en los pagos, esto puede deberse a lo caro que puede ser costearse una educación y lo dificíl que puede ser para estas personas juntar dinero para su vida diaría y sus estudios. También vemos que las categorias de compra de propiedad y contrucción tienen valores bastantes parecidos lo que nos puede indicar que este tipo de personas tienen una mejor planificación para este tipo de créditos.

4. Relación con proposito y cumplimiento de pago:

Las personas que tuvieron más problema fueron las personas que querían comprar un auto, seguido por las personas que invierten en su educación, siendo las mejores calificadas las oersinas que quieren adquirir una propiedad o realizar algún tipo de construcción. Se podría inferir que no depende del costo de un proposito la probabilidad de que incumpla.
