# Contents <a id='back'></a>

* [Introducción](#intro)
* [1. Descripción de los datos](#data_review)
* [2. Exploración de datos](#data_preprocessing)
    * [2.1 Ejercicio 1](#header_style)
    * [2.2 Conclusiones](#data_preprocessing_conclusions)
* [3. Exploración de datos](#hypotheses) 
    * [3.1 Restaurar valores ausentes en total_income](#activity)
    * [3.2 Restaurar valores en days_employed](#week) 
* [4. Clasificación de datos](#hypotheses)
* [5. Comprobación de las hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: ¿Existe una correlación entre tener hijos y pagar a tiempo?](#activity)
    * [3.2 Hipótesis 2: ¿Existe una correlación entre la situación familiar y el pago a tiempo?](#week)
    * [3.3 Hipótesis 3: ¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?](#genre)
      [3.4 Hipótesis 3: ¿afecta el propósito del crédito a la tasa de incumplimiento?](#genre)
* [Conclusiones](#end)

Introducción

Este Trabajo consiste en preparar un informe para la división de préstamos de un banco.
Vamos a averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.
Este informe se tendrá en cuenta al crear una puntuación de crédito para un cliente potencial. Se utiliza una puntuación de crédito para evaluar la capacidad de un prestatario potencial para pagar su préstamo.
Para poder desarrollar este informe, lo primero será preprocesamiento de datos, identificando y completando los valores ausentes, reemplazando el tipo de datos de número real con el tipo de número entero, eliminar datos duplicados, y por último clasificar los datos, para poder responder nuestra hipótesis.



# Descripción de los datos:
- children: el número de hijos en la familia
- days_employed: por cuánto tiempo ha estado trabajando el cliente
- dob_years: la edad del cliente
- education: el nivel educativo del cliente
- education_id: identificador de la educación del cliente
- family_status: estado civil del cliente
- family_status_id: identificador del estado civil del cliente
- gender: el género del cliente
- income_type: el tipo de ingreso del cliente
- debt: si el cliente ha incumplido alguna vez un préstamo
- total_income: ingresos mensuales
- purpose: motivo por el que se solicita un préstamo

In [None]:
import pandas as pd

# Carga los datos

In [None]:
df = pd.read_csv('/datasets/credit_scoring_eng.csv') 

In [None]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.shape

(21525, 12)

In [None]:
# vamos a mostrar las primeras filas N

df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


En la comumna 'days_employed' tiene numeros negativos y la columna 'education' esta escrita con mayuscula y miniscula ademas se repiten los nombres.

In [None]:
# Obtener información sobre los datos
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


solo en 2 en la columna 'days_employed' y en la columna 'total_income' se encuentran valores ausentes

In [None]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Si, los valores son simetricos faltan 2174 en ambas columnas tanto en la columna 'days_employed' como en la columna 'total_income', ademas deben estar relacionadas los valores ausentes.

In [None]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
df_filtered = df[(df['days_employed'].isnull()) & (df['total_income'].isnull())]
print(f'Tenemos un total de {len(df_filtered)} datos ausentes')

Tenemos un total de 2174 datos ausentes


In [None]:
por_ausentes = round(len(df_filtered) / len(df) * 100,1)
print(f'Los valores ausentes equivalen a un {por_ausentes}% del total de los datos')

Los valores ausentes equivalen a un 10.1% del total de los datos


Si, coincide los valores ausentes en la tabla filtrada, aún es muy pronto para saber que hacer con los valores ausentes, seguire avanzando, para tener un mejor análisis.

en los proximos pasos, analisare los datos ausentes, para tener los datos limpios y ademas Ahora crearé 2 tablas una sin valores ausentes y otra filtrada con valores ausentes.

In [None]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

df_drop = df.dropna()
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [None]:
variable = 'education_id'

serie_limpia = df_drop[variable]
serie_filtrada = df_filtered[variable]

print(serie_limpia.value_counts())
print(serie_filtrada.value_counts())
# Ahora crearé 2 tablas una sin valores ausentes y otra filtrada con valores ausentes

1    13693
0     4716
2      675
3      261
4        6
Name: education_id, dtype: int64
1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64


In [None]:
# Comprobación de la distribución

n_serie_limpia = len(serie_limpia)
n_serie_filtrada = len(serie_filtrada)

print(round(serie_limpia.value_counts() / n_serie_limpia * 100,2))
print()
print(round(serie_filtrada.value_counts() / n_serie_filtrada * 100,2))

1    70.76
0    24.37
2     3.49
3     1.35
4     0.03
Name: education_id, dtype: float64

1    70.84
0    25.02
2     3.17
3     0.97
Name: education_id, dtype: float64


Al comprobar la distribución podemos apreciar que la diferencia entre una tabla sin valores ausentes y otra con valores ausentes, sus diferencias son mínimas también observamos que los valores faltantes exhiben un patrón 'sistemático'. Para cada fila con datos faltantes, faltan los valores de días_empleados y total_ingresos. Esto significa que los datos "no faltan al azar (MNAR)".Apesar que el tamaño de la muestra es lo suficientemente grande, no podemos descartar el 10 % de los datos que faltan sin una pérdida sustancial del análisis estadístico.

In [None]:
# Comprobando la distribución en el conjunto de datos entero

variable = 'education'
serie_limpia = df_drop[variable]
serie_filtrada = df_filtered[variable]

n_serie_limpia = len(serie_limpia)
n_serie_filtrada = len(serie_filtrada)

print(round(serie_limpia.value_counts() / n_serie_limpia * 100,1))
print('--------------------------------------------------------------')
print(round(serie_filtrada.value_counts() / n_serie_filtrada * 100,1))

secondary education    63.8
bachelor's degree      21.8
SECONDARY EDUCATION     3.6
Secondary Education     3.3
some college            3.2
BACHELOR'S DEGREE       1.3
Bachelor's Degree       1.3
primary education       1.2
Some College            0.2
SOME COLLEGE            0.1
PRIMARY EDUCATION       0.1
Primary Education       0.1
graduate degree         0.0
Graduate Degree         0.0
GRADUATE DEGREE         0.0
Name: education, dtype: float64
--------------------------------------------------------------
secondary education    64.8
bachelor's degree      22.8
SECONDARY EDUCATION     3.1
Secondary Education     3.0
some college            2.5
Bachelor's Degree       1.1
BACHELOR'S DEGREE       1.1
primary education       0.9
SOME COLLEGE            0.3
Some College            0.3
Primary Education       0.0
PRIMARY EDUCATION       0.0
Name: education, dtype: float64


Si la distribución de datos es similar, por el momento la conclusión que puedo sacar es que los datos ausentes son aleatorios y no son significativos para el análisis de datos.

In [None]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes

print(df_filtered['income_type'].value_counts())
print('----------------------------------')
print(df['income_type'].value_counts())
# Las personas cesantes,estudiantes y con fueros maternales, No presentan valores ausentes

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64
----------------------------------
employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


Los datos ausentes están más en la columna 'employee' que en las otras columnas, pero también en la base de datos es proporcional a la cantidad de datos, por ende se podría concluir que los datos ausentes son aleatorios, además que no significa una gran cantidad de datos a comparación con la base de datos

Se imputarán los datos duplicados, se corregir los datos mal escritos y se analizaran los datos ausentes

In [None]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [None]:
# Arregla los registros si es necesario
df['education'] = df['education'].str.lower()

In [None]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido

df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [None]:
# Veamos la distribución de los valores en la columna `children`
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [None]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Si, se encuentra un numero negativo y un numero grande para la variable que estamos preguntando que es 'children', 
ahora bien son insignificantes a comparación de la cantidad de otros datos, por ende se eliminaran sin afectar nuestro analisis

In [None]:
# [arregla los datos según tu decisión]
df.loc[df['children'] == -1,'children'] = 1

In [None]:
df.loc[df['children'] == 20,'children'] = 2


In [None]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

df['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [None]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

Aqui lo que vamos a hacer es pasar los números a positivos debido que el alto el % de la columna con estos números, de esta forma nos aseguramos que los datos no generen problema para nuestro análisis

In [None]:
# Aborda los valores problemáticos, si existen.
df[df['days_employed'] <= 0].count()
# En la columna 'days_employed' existen 15809 registro negativos

children            15906
days_employed       15906
dob_years           15906
education           15906
education_id        15906
family_status       15906
family_status_id    15906
gender              15906
income_type         15906
debt                15906
total_income        15906
purpose             15906
dtype: int64

In [None]:
datos_negativos = 15906
total_datos = 19351
resultado = round(datos_negativos / total_datos * 100)
print(f'El porcentaje de participacion de numeros negativos dentro de la columna es {resultado}%')

El porcentaje de participacion de numeros negativos dentro de la columna es 82%


In [None]:
df['days_employed'] = df['days_employed']

In [None]:
filtro = df['days_employed']>0

In [None]:
df.loc[filtro,'days_employed'] = df.loc[filtro,'days_employed'] / 24

In [None]:
df['days_employed'].describe()

count    19351.000000
mean       773.409931
std       7045.147683
min     -18388.949901
25%      -2747.423625
50%      -1203.369529
75%       -291.095954
max      16739.808353
Name: days_employed, dtype: float64

In [None]:
df['days_employed'] = df['days_employed'].abs()


In [None]:
df['days_employed'].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

para resolver este problema, los números positivos se pasaron a días, una vez solucionado ese problemas los números negativos fueron transformados en positivos, solucionando los inconvenientes de la columna days_employed

Tenemos un numero 0 el cual no corresponde a la edad de un cliente 

In [None]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
df['dob_years'].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

los datos con edad de 0 son solo el 2% de la base de datos por ende se eliminan 

In [None]:
# Resuelve los problemas en la columna `dob_years`, si existen
total_0 = 101
total_datos = 21525
resultado = (total_0 / total_datos *100)
print(f'El porcentaje de participacion de numeros cero dentro de la columna es {resultado}%')
 

El porcentaje de participacion de numeros cero dentro de la columna es 0.4692218350754936%


In [None]:
df = df.drop(df[df['dob_years']== 0].index)
# elimine el valor 0 de la columna por el valor None. de esta forma no interfiere en nuestros calculos 

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

las clasificaciones de dos palabras no están separadas por _ se va a corregir

In [None]:
# Veamos los valores de la columna
df['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [None]:
# Aborda los valores problemáticos en `family_status`, si existen

df['family_status'] = df['family_status'].replace('civil partnership','civil_partnership')

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['family_status'].unique()

array(['married', 'civil_partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

tenemos una clasificación que no corresponde 'XNA', se eliminara 

In [None]:
# Veamos los valores en la columna
df['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [None]:
# Aborda los valores problemáticos, si existen
df[df['gender'] == 'XNA'].count()

children            1
days_employed       1
dob_years           1
education           1
education_id        1
family_status       1
family_status_id    1
gender              1
income_type         1
debt                1
total_income        1
purpose             1
dtype: int64

In [None]:
df = df.drop(df[df['gender']== 'XNA'].index)
# Al encontyrar solo un registro con el valor XNA procedo a eliminar.

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['gender'].unique()

array(['F', 'M'], dtype=object)

las clasificaciones de dos palabras no están separadas por _ se va a corregir

In [None]:
# Veamos los valores en la columna
df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [None]:
# Aborda los valores problemáticos, si existen
df['income_type'] = df['income_type'].replace('civil servant','civil_servant')

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado

df['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil_servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

Si tenemos la cantidad de 71 datos duplicados de un universo de más 20.000 datos 
por ende, se eliminarán sin afectar a nuestro análisis

In [None]:
# Comprobar los duplicados

df.duplicated().sum()

71

In [None]:
# Aborda los duplicados, si existen
df = df.drop_duplicates().reset_index(drop= True)

In [None]:
# Última comprobación para ver si tenemos duplicados
df.duplicated().sum()

0

In [None]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.shape

(21352, 12)

Efectivamente mis datos cambiaron, disminuyeron debido a la eliminación de los datos duplicados, el % es significante para nuestro análisis

# Trabajar con valores ausentes

In [None]:
family_dic = {'married': 0 , 'civil_partnership':1, 'widow / widower':2, 'divorced':3, 'unmarried':4}
education_dic = {"bachelor's degree":0, 'secondary education':1, 'some college':2, 'primary education':3, 'graduate degree':4}

### Restaurar valores ausentes en `total_income`

In [None]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(age):
    if age <= 35:
        return 'joven'
    if age <= 65:
        return 'adulto'
    return 'mayor'    

In [None]:
# Prueba si la función funciona bien
print(age_group(20))

joven


In [None]:
# Crear una nueva columna basada en la función

df['category'] = df['dob_years'].apply(age_group)

In [None]:
# Comprobar cómo los valores en la nueva columna
df['category'].unique()


array(['adulto', 'joven', 'mayor'], dtype=object)

In [None]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
df_drop

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [None]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
df_drop['total_income'].median()

23202.87

In [None]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
df_drop['total_income'].mean()

26787.568354658673

In [None]:
print(df_drop['total_income'].min())
print('----------------------------')
print(df_drop['total_income'].max())

3306.762
----------------------------
362496.645


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     19259 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      19259 non-null  float64
 11  purpose           21352 non-null  object 
 12  category          21352 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


In [None]:
def rango_edad (row):
    if row['dob_years'] < 10:
        return '< 10'
    elif row['dob_years'] < 20:
        return '10-20'
    elif row['dob_years'] < 30:
        return '20-30'
    elif row['dob_years'] < 40:
        return '30-40'
    elif row['dob_years'] < 50:
        return '40-50'
    elif row['dob_years'] < 60:
        return '50-60'
    else: 
        return '60+'

In [None]:
df['rango_years'] = df.apply(rango_edad, axis = 1)

In [None]:
# comprueba si la funcion funciona
means = df.groupby('rango_years')['total_income'].mean() 
print(means)

rango_years
10-20    16993.942462
20-30    25570.172966
30-40    28312.479963
40-50    28551.375635
50-60    25811.700327
60+      23021.639994
Name: total_income, dtype: float64


In [None]:
# Aplícalo a cada fila
def replace_total_income_means(df):
    means = df.groupby('rango_years')['total_income'].mean()
    
    df.loc[(df['rango_years']==  '10-20') & (df['total_income'].isna()), 'total_income'] = means['10-20']
    df.loc[(df['rango_years']==  '20-30') & (df['total_income'].isna()), 'total_income'] = means['20-30']
    df.loc[(df['rango_years']==  '30-40') & (df['total_income'].isna()), 'total_income'] = means['30-40']
    df.loc[(df['rango_years']==  '40-50') & (df['total_income'].isna()), 'total_income'] = means['40-50']
    df.loc[(df['rango_years']==  '50-60') & (df['total_income'].isna()), 'total_income'] = means['50-60']
    df.loc[(df['rango_years']==  '60+') & (df['total_income'].isna()), 'total_income'] = means['60+']
    
    return df

In [None]:
# Comprueba si tenemos algún error
replace_total_income_means(df).loc[12]

children                              0
days_employed                       NaN
dob_years                            65
education           secondary education
education_id                          1
family_status         civil_partnership
family_status_id                      1
gender                                M
income_type                     retiree
debt                                  0
total_income               23021.639994
purpose               to have a wedding
category                         adulto
rango_years                         60+
Name: 12, dtype: object

In [None]:
# Reemplazar los valores ausentes si hay algún error
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21352.0,19259.0,21352.0,21352.0,21352.0,21352.0,21352.0
mean,0.480517,4641.903245,43.476817,0.817722,0.972649,0.081163,26793.556938
std,0.755846,5355.803028,12.241877,0.548717,1.42102,0.273092,15676.054112
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,926.823974,33.0,1.0,0.0,0.0,17222.623
50%,0.0,2197.32035,43.0,1.0,0.0,0.0,24563.2635
75%,1.0,5540.399763,53.0,1.0,1.0,0.0,31321.653
max,5.0,18388.949901,75.0,4.0,4.0,1.0,362496.645


In [None]:
# Comprobar el número de entradas en las columnas

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     19259 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  category          21352 non-null  object 
 13  rango_years       21352 non-null  object 
dtypes: float64(2), int64(5), object(7)
memory usage: 2.3+ MB


###  Restaurar valores en `days_employed`

In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
days_median = round(df['days_employed'].median())
days_median

2197

In [None]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
round(df['days_employed'].mean())

4642

In [None]:
df['days_employed'].describe()
# La ejecución muestra un max de 18388 dias

count    19259.000000
mean      4641.903245
std       5355.803028
min         24.141633
25%        926.823974
50%       2197.320350
75%       5540.399763
max      18388.949901
Name: days_employed, dtype: float64

In [None]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def rango_niños (row):
    if row['children'] == 0:
        return '0'
    elif row['children'] < 1:
        return '0-1'
    elif row['children'] < 2:
        return '1-2'
    elif row['children'] < 3:
        return '2-3'
    elif row['children'] < 4:
        return '3-4'
    else: 
        return '4+'

In [None]:
df['range_children'] = df.apply(rango_niños, axis = 1)

In [None]:
# Comprueba si la función funcionó
new_means = df.groupby('range_children')['days_employed'].mean() 
print(new_means)


range_children
0      5644.108228
1-2    2933.576370
2-3    2296.742518
3-4    2433.795725
4+     2381.855349
Name: days_employed, dtype: float64


In [None]:
# Reemplazar valores ausentes

def replace_days_employed_new_means(df):
    new_means = df.groupby('range_children')['days_employed'].mean()
    
    df.loc[(df['range_children']==  '0') & (df['days_employed'].isna()), 'days_employed'] = new_means['0']
    df.loc[(df['range_children']==  '1-2') & (df['days_employed'].isna()), 'days_employed'] = new_means['1-2']
    df.loc[(df['range_children']==  '2-3') & (df['days_employed'].isna()), 'days_employed'] = new_means['2-3']
    df.loc[(df['range_children']==  '3-4') & (df['days_employed'].isna()), 'days_employed'] = new_means['3-4']
    df.loc[(df['range_children']==  '4+') & (df['days_employed'].isna()), 'days_employed'] = new_means['4+']
    
    return df

In [None]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
replace_days_employed_new_means(df).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21352 entries, 0 to 21351
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21352 non-null  int64  
 1   days_employed     21352 non-null  float64
 2   dob_years         21352 non-null  int64  
 3   education         21352 non-null  object 
 4   education_id      21352 non-null  int64  
 5   family_status     21352 non-null  object 
 6   family_status_id  21352 non-null  int64  
 7   gender            21352 non-null  object 
 8   income_type       21352 non-null  object 
 9   debt              21352 non-null  int64  
 10  total_income      21352 non-null  float64
 11  purpose           21352 non-null  object 
 12  category          21352 non-null  object 
 13  rango_years       21352 non-null  object 
 14  range_children    21352 non-null  object 
dtypes: float64(2), int64(5), object(8)
memory usage: 2.4+ MB


In [None]:
# Muestra los valores de los datos seleccionados para la clasificación
grupo1 = df[['purpose','family_status']]
grupo1

Unnamed: 0,purpose,family_status
0,purchase of the house,married
1,car purchase,married
2,purchase of the house,married
3,supplementary education,married
4,to have a wedding,civil_partnership
...,...,...
21347,housing transactions,civil_partnership
21348,purchase of a car,married
21349,property,civil_partnership
21350,buying my own car,married


In [None]:
# Comprobar los valores únicos
print(grupo1['purpose'].value_counts())
print()
print(grupo1['family_status'].value_counts())

wedding ceremony                            786
having a wedding                            764
to have a wedding                           760
real estate transactions                    672
buy commercial real estate                  658
buying property for renting out             649
transactions with commercial real estate    648
housing transactions                        646
housing                                     640
purchase of the house                       640
purchase of the house for my family         637
construction of own property                633
property                                    629
transactions with my real estate            627
building a real estate                      621
building a property                         619
purchase of my own house                    619
buy real estate                             617
housing renovation                          605
buy residential real estate                 603
buying my own car                       

In [None]:
# Escribamos una función para clasificar los datos en función de temas comunes
def tem_com(comun):
    if comun == 'purchase of the house' or comun == "purchase of the house for my family" or comun == "construction of own property" or comun == "property" or comun == "building a property" or comun == "purchase of my own house" or comun == "housing renovation" or comun == "housing":
        return "propiedad"
    if comun == "car purchase" or comun == "buying a second-hand car" or comun == "buying my own car" or comun == "cars" or comun == "second-hand car purchase" or comun == "car" or comun == "to own a car" or comun == "purchase of a car" or comun == "to buy a car":
        return "vehiculo"
    if comun == "supplementary education" or comun == "education" or comun == "to become educated" or comun == "getting an education" or comun == "to get a supplementary education" or comun == "getting higher education" or comun == "profile education" or comun == "university education" or comun == "going to university":
        return "educacion"
    if comun == "to have a wedding" or comun == "having a wedding" or comun == "wedding ceremony":
        return "matrimonio"
    if comun == "housing transactions" or comun == "buy real estate" or comun == "buy commercial real estate" or comun == "buy residential real estate" or comun == "transactions with commercial real estate" or comun == "building a real estate" or comun == "transactions with my real estate" or comun == "real estate transactions" or comun == "buying property for renting out":
        return "negocio"

In [None]:
# Crea una columna con las categorías y cuenta los valores en ellas

df['category_comun'] = df['purpose'].apply(tem_com)
df['category_comun'].value_counts()

negocio       5741
propiedad     5022
vehiculo      4284
educacion     3995
matrimonio    2310
Name: category_comun, dtype: int64

In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
grupo2 = df[['children','debt','total_income']]
grupo2

Unnamed: 0,children,debt,total_income
0,1,0,40620.102
1,1,0,17932.802
2,0,0,23341.752
3,3,0,42820.568
4,0,0,25378.572
...,...,...,...
21347,1,0,35966.698
21348,0,0,24959.969
21349,1,1,14347.610
21350,3,1,39054.888


In [None]:
# Obtener estadísticas resumidas para la columna
grupo2.describe()

Unnamed: 0,children,debt,total_income
count,21352.0,21352.0,21352.0
mean,0.480517,0.081163,26793.556938
std,0.755846,0.273092,15676.054112
min,0.0,0.0,3306.762
25%,0.0,0.0,17222.623
50%,0.0,0.0,24563.2635
75%,1.0,0.0,31321.653
max,5.0,1.0,362496.645


In [None]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

def salary_rang(salary):
    if salary <= 20000:
        return 'Salario bajo'
    if salary <= 100000:
        return 'Salario medio'
    if salary <= 363000:
        return 'Salario alto'
    
print(salary_rang(5000))

Salario bajo


In [None]:
# Crear una columna con categorías
df['salary_level'] = df['total_income'].apply(salary_rang)
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose', 'category', 'rango_years', 'range_children',
       'category_comun', 'salary_level'],
      dtype='object')

In [None]:
# Contar los valores de cada categoría para ver la distribución
print(df['category'].value_counts())
print("-----")
print(df['category_comun'].value_counts())
print("-----")
print(df['salary_level'].value_counts())

adulto    14068
joven      6582
mayor       702
Name: category, dtype: int64
-----
negocio       5741
propiedad     5022
vehiculo      4284
educacion     3995
matrimonio    2310
Name: category_comun, dtype: int64
-----
Salario medio    13920
Salario bajo      7333
Salario alto        99
Name: salary_level, dtype: int64


In [None]:
# Comprueba los datos sobre los hijos y los pagos puntuales
print(df.groupby('children')['debt'].value_counts())
print()
# Calcular la tasa de incumplimiento en función del número de hijos
def porcent(nopay, pay):
    pago = nopay / pay *100
    return pago

print(porcent(0,9))
print()
print('La tasa de incumplimiento para quienes tienen 0 hijos es de 8.1 %')
print('La tasa de incumplimiento para quienes tienen 1 hijos es de 10.1 %')
print('La tasa de incumplimiento para quienes tienen 2 hijos es de 10.4 %')
print('La tasa de incumplimiento para quienes tienen 3 hijos es de 8.9 %')
print('La tasa de incumplimiento para quienes tienen 4 hijos es de 10.8 %')
print('La tasa de incumplimiento para quienes tienen 5 hijos es de 0 %')


children  debt
0         0       12963
          1        1058
1         0        4397
          1         442
2         0        1912
          1         202
3         0         301
          1          27
4         0          37
          1           4
5         0           9
Name: debt, dtype: int64

0.0

La tasa de incumplimiento para quienes tienen 0 hijos es de 8.1 %
La tasa de incumplimiento para quienes tienen 1 hijos es de 10.1 %
La tasa de incumplimiento para quienes tienen 2 hijos es de 10.4 %
La tasa de incumplimiento para quienes tienen 3 hijos es de 8.9 %
La tasa de incumplimiento para quienes tienen 4 hijos es de 10.8 %
La tasa de incumplimiento para quienes tienen 5 hijos es de 0 %


In [None]:
pd.pivot_table(df, index = ['children'])

Unnamed: 0_level_0,days_employed,debt,dob_years,education_id,family_status_id,total_income
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,5644.108228,0.075458,46.461237,0.83161,1.121675,26419.390799
1,2933.57637,0.091341,38.542054,0.787766,0.807812,27393.950472
2,2296.742518,0.095553,36.223746,0.792337,0.461684,27506.914954
3,2433.795725,0.082317,36.509146,0.823171,0.405488,29237.332874
4,2567.124958,0.097561,36.04878,0.780488,0.512195,27420.914027
5,1537.849351,0.0,38.777778,1.222222,0.222222,27411.350404


aqui si se puede ver una relación de no pago por el número de hijos, por ejemplo los que tienen 5 hijos ellos tienen un % de 
cero, pero los que tienen 2 hijos tienen una probabilidad de 10,4% de no pago, aunque entre los que tiene 0 a 4 hijos el 
porcentaje es muy similar, lo que esto me da como conclusión que los que tienen mas de 5 hijos son personas de altos ingresos 
y no así los de 4 o menos hijos

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Comprueba los datos del estado familiar y los pagos a tiempo
print(df.groupby('family_status')['debt'].value_counts())
print()
# Calcular la tasa de incumplimiento basada en el estado familiar
def porcent(nopay, pay):
    pago = nopay / pay *100
    return pago

print(porcent(63,889))
print()
print('La tasa de incumplimiento para quienes estan unidos civilmente es de 10.1 %')
print('La tasa de incumplimiento para quienes estan divorciados es de 7.6 %')
print('La tasa de incumplimiento para quienes estan casados es de 8.1 %')
print('La tasa de incumplimiento para quienes estan solteros es de 10.8 %')
print('La tasa de incumplimiento para quienes estan viudos es de 7.0 %')



family_status      debt
civil_partnership  0        3743
                   1         386
divorced           0        1100
                   1          85
married            0       11363
                   1         927
unmarried          0        2521
                   1         273
widow / widower    0         892
                   1          62
Name: debt, dtype: int64

7.086614173228346

La tasa de incumplimiento para quienes estan unidos civilmente es de 10.1 %
La tasa de incumplimiento para quienes estan divorciados es de 7.6 %
La tasa de incumplimiento para quienes estan casados es de 8.1 %
La tasa de incumplimiento para quienes estan solteros es de 10.8 %
La tasa de incumplimiento para quienes estan viudos es de 7.0 %


In [None]:
pd.pivot_table(df, index = ['family_status'])

Unnamed: 0_level_0,children,days_employed,debt,dob_years,education_id,family_status_id,total_income
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
civil_partnership,0.462582,4302.760845,0.093485,42.287721,0.837249,1,26718.570966
divorced,0.433755,4767.20161,0.07173,45.90211,0.8,3,27173.991376
married,0.572417,4596.536807,0.075427,43.720749,0.80537,0,27032.517076
unmarried,0.232641,3660.630894,0.097709,38.583393,0.80995,4,26917.929702
widow / widower,0.158281,9402.343249,0.06499,56.79979,0.937107,2,23202.870016


no logro ver una relación de no pago del crédito relacionado al estado civil de las personas ya que él % es solo de 3% 
entre una categoría a otra, pero si es un echo que los están unidos civilmente tienen mas probabilidad de no pagar el, 
crédito que una persona viuda 

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
print(df.groupby('salary_level')['debt'].value_counts())
print()

# Calcular la tasa de incumplimiento basada en el nivel de ingresos
def porcent(nopay, pay):
    pago = nopay / pay *100
    return pago

print(porcent(6,93))
print()
print('La tasa de incumplimiento para quienes tienen un salario alto es de 6.4 %')
print('La tasa de incumplimiento para quienes tienen un salario medio es de 9.0 %')
print('La tasa de incumplimiento para quienes tienen un salario bajo es de 8.7 %')



salary_level   debt
Salario alto   0          93
               1           6
Salario bajo   0        6728
               1         605
Salario medio  0       12798
               1        1122
Name: debt, dtype: int64

6.451612903225806

La tasa de incumplimiento para quienes tienen un salario alto es de 6.4 %
La tasa de incumplimiento para quienes tienen un salario medio es de 9.0 %
La tasa de incumplimiento para quienes tienen un salario bajo es de 8.7 %


In [None]:
pd.pivot_table(df, index = ['salary_level'])

Unnamed: 0_level_0,children,days_employed,debt,dob_years,education_id,family_status_id,total_income
salary_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Salario alto,0.666667,3389.589419,0.060606,42.171717,0.313131,0.949495,141555.075859
Salario bajo,0.453021,5545.130861,0.082504,44.698895,0.915587,0.980363,14473.316793
Salario medio,0.493678,4174.302803,0.080603,42.842313,0.769756,0.96875,32467.618046


no logro ver una relación de no pago del crédito relacionado al nivel de ingresos de las personas ya que él % es menor al 3% entre una categoría a otra, pero si es un hecho que los tienen un salario medio tienen más probabilidad de no pagar el, crédito que una persona con salario alto

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
print(df.groupby('category_comun')['debt'].value_counts())
print()

def porcent(nopay, pay):
    pago = nopay / pay *100
    return pago

print(porcent(400,3888))
print()
print('La tasa de incumplimiento para el proposito educación es de 10.1 %')
print('La tasa de incumplimiento para el proposito matrimonio es de 8.4 %')
print('La tasa de incumplimiento para el proposito negocio es de 8.1 %')
print('La tasa de incumplimiento para el proposito propiedad es de 7.3 %')
print('La tasa de incumplimiento para el proposito vehiculo es de 10.2 %')



category_comun  debt
educacion       0       3625
                1        370
matrimonio      0       2126
                1        184
negocio         0       5306
                1        435
propiedad       0       4678
                1        344
vehiculo        0       3884
                1        400
Name: debt, dtype: int64

10.2880658436214

La tasa de incumplimiento para el proposito educación es de 10.1 %
La tasa de incumplimiento para el proposito matrimonio es de 8.4 %
La tasa de incumplimiento para el proposito negocio es de 8.1 %
La tasa de incumplimiento para el proposito propiedad es de 7.3 %
La tasa de incumplimiento para el proposito vehiculo es de 10.2 %


In [None]:
pd.pivot_table(df, index = ['category_comun'])

Unnamed: 0_level_0,children,days_employed,debt,dob_years,education_id,family_status_id,total_income
category_comun,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
educacion,0.487359,4661.333451,0.092616,43.598498,0.829287,0.951189,26387.349679
matrimonio,0.472727,4677.165737,0.079654,43.388745,0.800433,1.0,26558.455313
negocio,0.48023,4642.297509,0.075771,43.475875,0.820937,0.972479,27083.815708
propiedad,0.486061,4553.166915,0.068499,43.232776,0.809837,0.963959,26900.766697
vehiculo,0.472222,4706.02118,0.093371,43.698179,0.821195,0.988329,26784.476582


no logro ver una relación de no pago del crédito relacionado al nivel de propósito común ya que él % es menor al 3% entre una categoría a otra, pero si es un hecho de los que están en la categoría propósito común vehículo tienen más probabilidad de no pagar el crédito, de los que están en la categoría propiedad.

conclusión final

lo primero que se realizo fue analizar los datos, e ir limpiando de apoco la base de datos hasta lograr lo que estabamos buscando para ello, se realizaron eliminacion de datos aunsentes, y duplicados, ademas de corregir datos en la base de datos que pudieron ser simplemente error de digitalizcion, como conclusion al trabajo se puede decir :
1° la base de datos en su gran % estaban bien los datos, por esa razon se eliminaron datos ausentes y duplicados, datos mal ingresados debido que eran insignificantes para nuestro analisis
2° se corrigieron los datosnegativos que claramente fue un error, y de algunas categorias que estaban mal escritas o simplemente nocorrespondian a su clasificacion
3° con respecto a la hipotesis, en lo prsonal no logro ver correlacion de no pago de los creditos independiente de su trabajo, nivel eduacional, cantidad de hijos o cualquier otra clasificacion realizada, debido que los % eran muy similares entre ellos, lo que podria decir que el banco tiene un % de no pago entre el 7% y el 10% en general de sus clientes.






