# Análisis del riesgo de incumplimiento de los prestatarios

El proyecto consiste en preparar un informe para la división de préstamos de un banco. Averiguaré si el estado civil, el número de hijos de un cliente, ingresos, propósito por el que piden el crédito tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

El informe se tendrá en cuenta al momento de crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.





In [None]:
# Cargar todas las librerías

import pandas as pd

# Descarga de datos

df= pd.read_csv('/datasets/credit_scoring_eng.csv')




## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo



In [None]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.shape


(21525, 12)

In [None]:
# vamos a mostrar las primeras filas N

df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Algunos de los datos de 'days_employed' aparecen como número negativo y los números positivos son demasiado altos como para ser reales( dice que trabajo durante 900 años. No tiene lógica. En la columna 'education', aparecen datos escritos en mayúscula y otros en minúscula. Aparecen valores ausentes en dos de las columnas,'days_employed' y 'total_income'. En la columna 'purpose', hay varios propósitos que se repiten. En caso de ser necesarios podrian agruparse o armar una columna nueva con un id correspondiente para cada propósito.

In [None]:
# Obtener información sobre los datos

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Como podemos observar, hay valores ausentes en dos de las columnas, 'days_employed' y 'total_income'

In [None]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

tabla_filtrada= df[df['days_employed'].isna()] 

tabla_filtrada

#tabla_filtrada['total_income'].count() --da resultado 0 sugiere que la info que falta en la columna 'total_income' coincide con las filas

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


A simple vista, los valores ausentes parecen simétricos aunque todavía no podemos demostrarlo con certeza ya que solo podemos ver una pequeña muestra de los datos. Tendríamos que hacer un analisis mas exaustivo para poder confirmar o no nuetra teoría. 

In [None]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

tabla_filtrada= df[(df['days_employed'].isna()) & (df['total_income'].isna())]
print(f'Cantidad de filas con valores ausentes en la tabla filtrada: {len(tabla_filtrada)}')

print(f'Cantidad total de filas: {len(df)}')

porcentaje_valores_ausentes= (len(tabla_filtrada)/ len(df))

print(f'El porcentaje de los valores ausentes sobre el conjunto de datos completo es: {porcentaje_valores_ausentes:.0%}')


Cantidad de filas con valores ausentes en la tabla filtrada: 2174
Cantidad total de filas: 21525
El porcentaje de los valores ausentes sobre el conjunto de datos completo es: 10%


**Conclusión intermedia**

El número de filas en la tabla filtrada coincide con la cantidad de valores ausentes. Podemos decir que los valores ausentes en la columna 'days_employed' coinciden con los valores ausentes en la columna 'total_income'.
Los valores ausentes representan el 10% del total de los valores de la tabla. 

Por los datos que hemos analizado hasta ahora, podemos decir que los datos ausentes coinciden en ambas columnas 'days_employed' y 'total_income'.Para ver si alguna otra columna tiene ingerencia sobre el resultado, utilizaré la columna 'education' para seguir investigando. 

Primero voy a limpiar la tabla original con los datos para sacar todos los valores ausentes y luego voy a comparar la variable 'education' en la tabla limpia y en la tabla filtrada para ver que resultados arroja. A simple vista, pudimos observar más arriba, que la mayoría de las personas con valores ausentes tienen educacion secundaria. Voy a investigar un poco más el tema.

In [None]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

df_limpio= df.dropna()
df_limpio.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [None]:
#vamos a usar la variable education

tabla_limpia= df_limpio['education_id']
tabla_filtrada= tabla_filtrada['education_id']

print('Resultado utilizando education_id en la tabla limpia:')
print(tabla_limpia.value_counts())
print()
print('Resultado utilizando education_id en la tabla filtrada:')
print(tabla_filtrada.value_counts())

Resultado utilizando education_id en la tabla limpia:
1    13693
0     4716
2      675
3      261
4        6
Name: education_id, dtype: int64

Resultado utilizando education_id en la tabla filtrada:
1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64


In [None]:
# Comprobación de la distribución

long_tabla_limpa= len(tabla_limpia)
long_tabla_filtrada= len(tabla_filtrada)

print('Distribucion tabla completa:')
print(round(tabla_limpia.value_counts() / long_tabla_limpa * 100,1))
print()
print('Distribución valores ausentes:')
print(round(tabla_filtrada.value_counts() / long_tabla_filtrada * 100,1))

Distribucion tabla completa:
1    70.8
0    24.4
2     3.5
3     1.3
4     0.0
Name: education_id, dtype: float64

Distribución valores ausentes:
1    70.8
0    25.0
2     3.2
3     1.0
Name: education_id, dtype: float64


Podemos observar que la variable education_id arroja practicamente el mismo resultado tanto en la tabla filtrada como en la tabla completa. No tiene ingerencia en las columnas de days_employed y total_income.

**Posibles razones por las que hay valores ausentes en los datos**

En mi opinión, los valores ausentes en la columna 'days_employed' y 'total_income' estan relacionados entre sí. Si una persona no esta trabajando, es probable que no persiva un sueldo. Otra opción es que la persona no haya querido contestar a la pregunta relacionada con los días laborales y como los ingresos estan relacionados con esa respuesta, queda también sin contestar. 


In [None]:
# Comprobando la distribución en el conjunto de datos entero

print('Información de datos limpios:')
print(df.describe())
print()
print('Información de datos filtrados:')
print(tabla_filtrada.describe())


Información de datos limpios:
           children  days_employed     dob_years  education_id  \
count  21525.000000   19351.000000  21525.000000  21525.000000   
mean       0.538908   63046.497661     43.293380      0.817236   
std        1.381587  140827.311974     12.574584      0.548138   
min       -1.000000  -18388.949901      0.000000      0.000000   
25%        0.000000   -2747.423625     33.000000      1.000000   
50%        0.000000   -1203.369529     42.000000      1.000000   
75%        1.000000    -291.095954     53.000000      1.000000   
max       20.000000  401755.400475     75.000000      4.000000   

       family_status_id          debt   total_income  
count      21525.000000  21525.000000   19351.000000  
mean           0.972544      0.080883   26787.568355  
std            1.420324      0.272661   16475.450632  
min            0.000000      0.000000    3306.762000  
25%            0.000000      0.000000   16488.504500  
50%            0.000000      0.000000   23202

**Conclusión intermedia**

La distribución de los datos es muy similar entre la tabla filtrada y los datos originales.

Todo indca a que los valores ausentes son accidentales. Probablemente haya habido una falla al momento de carga de los datos .


**Conclusiones**

Para concluir, podemos observar que la tabla de datos tiene información que se tendrá que abordar y transformar en las siguientes secciones, como por ejemplo los datos mal escritos o que no tienen sentido.
También, podemos observar, que en dos de las columnas hay valores nulos. Estos representan el 10% de los datos cargados en esas columnas. En el análisis de los datos, la distrubución de ellos no cambia según la variable que se ponga, corroborando que los datos de las otras columnas no tienen ingerencia en los valores ausentes. Podemos concluir que esos valores ausentes son simétricos en ambas columnas.  No tenemos conocimiento de porque faltan esos datos ya que podría ser por distintos factores como por ejemplo falla técnica al momento de la carga de esos datos específicos, error humano al anotar esos datos o porque esa persona decidió no dar información específica sobre esos temas.

Una vez analizados los valores ausentes, vamos a llevar adelante la transformación de los datos. Revisaremos las columnas en búsqueda de alguna falla e intentaremos solucionarla.

## Transformación de datos


In [None]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente

df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [None]:
# Arregla los registros si es necesario

df['education'].str.lower()

0          bachelor's degree
1        secondary education
2        secondary education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object

In [None]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido

df['education'].str.lower().value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [None]:
# Veamos la distribución de los valores en la columna `children`

df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [None]:
ch_total= df['children'].count()

ch_problematicos= df[df.children.isin([20,-1])]
ch_problematicos= ch_problematicos['children'].count()

porcentaje_val_problematicos= round(ch_problematicos / ch_total * 100,1)
porcentaje_val_problematicos

0.6

El porcentaje de datos problemáticos es bajo con lo cual no creo que afecte el resultado final. Es posible que hayan ocurrido por un error humano al cargar los datos. En este caso en lugar de eliminarlos los voy a asignar el 20 al 2 y el -1 a 1.

In [None]:

df['children']= df['children'].replace([20,-1],[2,1])

In [None]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [None]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje

df['days_employed'].head()


0      -8437.673028
1      -4024.803754
2      -5623.422610
3      -4124.747207
4     340266.072047
5       -926.185831
6      -2879.202052
7       -152.779569
8      -6929.865299
9      -2188.756445
10     -4171.483647
11      -792.701887
12              NaN
13     -1846.641941
14     -1844.956182
Name: days_employed, dtype: float64

La cantidad de datos problemáticos es muy alta. Se presentaron varios problemas. Por un lado estan los números negativos. Por otro lado los números positivos tambien son un gran problema porque son números que no tienen sentido en absoluto. No hay que olvidarse de que esta columna tiene valores ausentes.

In [None]:
# Aborda los valores problemáticos

valores_positivos= len(df[df['days_employed']>0])
valores_positivos  #3445

df_negativo= len(df[df['days_employed']< 0])
df_negativo             #15906 negativos

df_dias_trabajados= df['days_employed'].count()
df_dias_trabajados                                 #19351 trabajados (sacando los datos nulos)

valores_ausentes= df[df['days_employed'].isna()]
valores_ausentes

print('Valores positivos:')
print(round(valores_positivos/ df_dias_trabajados* 100,1))
print('Valores negativos:')
print(round(df_negativo/ df_dias_trabajados* 100,1))
print('Valores nulos:')
print(round(len(valores_ausentes)/df_dias_trabajados *100,1))



Valores positivos:
17.8
Valores negativos:
82.2
Valores nulos:
11.2


In [None]:
df=df.drop(df[df['days_employed']>0].index)
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [None]:
# Cambio los valores negativos a positivos

df['days_employed'] = df['days_employed'].abs()

In [None]:
# Comprueba el resultado 

df['days_employed']

0        8437.673028
1        4024.803754
2        5623.422610
3        4124.747207
5         926.185831
            ...     
21519    2351.431934
21520    4529.316663
21522    2113.346888
21523    3112.481705
21524    1984.507589
Name: days_employed, Length: 18080, dtype: float64

En esta columna podemos observar que aparece como edad 0 años. 

In [None]:
# Reviso `dob_years` en busca de valores sospechosos y busco el porcentaje

lista_edades= df['dob_years'].unique()
lista_edades.sort()
print(lista_edades)


[ 0 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
 66 67 68 69 70 71 72 73 74 75]


In [None]:
edad_prob= len(df[df['dob_years'] == 0])
 
tot_edad= len(df['dob_years'])

porcentaje= round(edad_prob / tot_edad *100,1)
porcentaje

0.5

Como es un número muy pequeño con respecto a todos los valores, lo voy a convertir en nulo ya que no sabemos a que categoría de edad puede asociarse.

In [None]:
# Reemplazo valores ausentes 

df['dob_years']= df['dob_years'].replace([0,'NaN'])


In [None]:
# Comprueba el resultado 

df['dob_years'].value_counts()

35    618
41    605
40    603
34    602
38    594
42    593
33    582
39    570
31    562
36    555
29    547
30    544
44    540
37    537
48    521
32    509
43    506
28    504
27    491
45    487
49    481
47    469
46    465
50    457
26    408
52    389
51    379
53    358
25    357
54    334
56    304
55    282
24    264
23    255
58    254
57    249
59    191
22    182
61    142
60    135
62    117
21    111
64     86
63     77
65     58
20     51
66     44
67     36
68     19
19     14
70     11
69     11
71     10
72      5
74      2
73      2
75      1
Name: dob_years, dtype: int64

In [None]:
# Veamos los valores de la columna family status

df['family_status'].value_counts()

married              10507
civil partnership     3600
unmarried             2500
divorced               997
widow / widower        476
Name: family_status, dtype: int64

No veo valores problemáticos.

In [None]:
# Investigo los valores en la columna gender

df['gender'].value_counts() 


F      11429
M       6650
XNA        1
Name: gender, dtype: int64

In [None]:
# Aborda los valores problemáticos
df['gender']= df['gender'].replace('XNA','NaN')


In [None]:
# Compruebo el resultado
df['gender'].value_counts()


F      11429
M       6650
NaN        1
Name: gender, dtype: int64

In [None]:
# Veamos los valores en la columna income type

df['income_type'].value_counts()

employee                       11119
business                        5085
civil servant                   1459
retiree                          413
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

No veo valores problemáticos.

In [None]:
# Busco valores duplicados en el dataset

df.duplicated().sum()


55

In [None]:
# Elimino valores duplicados

df= df.drop_duplicates().reset_index(drop= True)

In [None]:
# Última comprobación para ver si tenemos duplicados

df.duplicated().sum()

0

In [None]:
# Compruebo el tamaño del conjunto de datos después de haber ejecutado estas primeras manipulaciones

df.shape

(18025, 12)

Tuve que hacer cambios en varias columnas para arreglar contenido y datos para poder hacer el análisis posterior. Eliminé los valores duplicados quedándonos un conjunto de datos mejor.


# Trabajar con valores ausentes

In [None]:
# Inspecciono tabla

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18025 entries, 0 to 18024
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          18025 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   dob_years         18025 non-null  int64  
 3   education         18025 non-null  object 
 4   education_id      18025 non-null  int64  
 5   family_status     18025 non-null  object 
 6   family_status_id  18025 non-null  int64  
 7   gender            18025 non-null  object 
 8   income_type       18025 non-null  object 
 9   debt              18025 non-null  int64  
 10  total_income      15906 non-null  float64
 11  purpose           18025 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.7+ MB


### Restaurar valores ausentes en `total_income`

Las columnas que tienen valores ausentes son 'total_income' y 'days_employed'. Para poder completar esos datos, vamos a crear funciones que nos van a permitir rellenar con mas facilidad los datos ausentes y al mismo tiempo poder rellenarlos de acuerdo a las distintas categorías que se presentan.


In [None]:
# Creo función que calcule la categoría de edad


def edades (edad):
    if edad <= 29:
        return '<=29'
    if edad <= 39:
        return '30-39'
    if edad <= 49:
        return '40-49'
    if edad <= 59:
        return '50-59'
    if edad <= 69:
        return '60-69'
    return '>= 70'
        
   

In [None]:
# Prueba si la función funciona bien
print(edades(35))


30-39


In [None]:
# Crear una nueva columna basada en la función

df['edades']= df['dob_years'].apply(edades)

In [None]:
# Comprobar cómo los valores en la nueva columna

df['edades'].value_counts()

30-39    5661
40-49    5257
<=29     3182
50-59    3180
60-69     714
>= 70      31
Name: edades, dtype: int64

In [None]:
# Creo una tabla sin valores ausentes y muestra algunas de sus filas 

ingresos_limpios= df['total_income'].dropna()
ingresos_limpios


0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        40922.170
           ...    
18020    18551.846
18021    35966.698
18022    14347.610
18023    39054.888
18024    13127.587
Name: total_income, Length: 15906, dtype: float64

In [None]:
# Examina los valores medios de los ingresos en función de los factores que identificaste

df.groupby('edades')['total_income'].mean()

edades
30-39    28323.321499
40-49    28585.144671
50-59    27819.597854
60-69    29104.068239
<=29     25559.112824
>= 70    28046.956800
Name: total_income, dtype: float64

In [None]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste

mediana= df.groupby('edades')['total_income'].median()
mediana

edades
30-39    24721.6890
40-49    24795.3485
50-59    23807.9820
60-69    25195.1730
<=29     22798.6650
>= 70    25804.8230
Name: total_income, dtype: float64

Voy a utilizar la mediana para rellenar los datos ya que tenemos valores muy dispares.

In [None]:
#  Creo una función para completar los valores ausentes


def reemplazar_nan (df):
    mediana= df.groupby('edades')['total_income'].median()
    df.loc[(df['edades'] == '<=29') & df['total_income'].isna(),'total_income'] = mediana.loc['<=29']
    df.loc[(df['edades'] == '30-39') & df['total_income'].isna(),'total_income'] = mediana.loc['30-39']
    df.loc[(df['edades'] == '40-49') & df['total_income'].isna(),'total_income'] = mediana.loc['40-49']
    df.loc[(df['edades'] == '50-59') & df['total_income'].isna(),'total_income'] = mediana.loc['50-59']
    df.loc[(df['edades'] == '60-69') & df['total_income'].isna(),'total_income'] = mediana.loc['60-69']
    df.loc[(df['edades'] == '>= 70') & df['total_income'].isna(),'total_income'] = mediana.loc['>= 70']
   
    return df



In [None]:
# Comprueba si funciona

reemplazar_nan(df).loc[12]

children                       0
days_employed        1846.641941
dob_years                     54
education           some college
education_id                   2
family_status            married
family_status_id               0
gender                         F
income_type             employee
debt                           0
total_income           20873.317
purpose             car purchase
edades                     50-59
Name: 12, dtype: object

In [None]:
# Aplícalo a cada fila

reemplazar_nan(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house,<=29
...,...,...,...,...,...,...,...,...,...,...,...,...,...
18020,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,30-39
18021,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49
18022,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39
18023,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39


In [None]:
# Comprobar el número de entradas en las columnas

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18025 entries, 0 to 18024
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          18025 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   dob_years         18025 non-null  int64  
 3   education         18025 non-null  object 
 4   education_id      18025 non-null  int64  
 5   family_status     18025 non-null  object 
 6   family_status_id  18025 non-null  int64  
 7   gender            18025 non-null  object 
 8   income_type       18025 non-null  object 
 9   debt              18025 non-null  int64  
 10  total_income      18025 non-null  float64
 11  purpose           18025 non-null  object 
 12  edades            18025 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 1.8+ MB


###  Restaurar valores en `days_employed`

En este caso el parámetro que use para rellenar los valores ausentes fue el 'income_type'.

In [None]:
df['income_type'].value_counts()

employee                       11090
business                        5080
civil servant                   1457
retiree                          394
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [None]:
def profesiones (profesion):
    if profesion == 'employee':
        return 'employee'
    if profesion == 'business':
        return 'business'
    if profesion == 'civil servent':
        return 'civil servent'
    if profesion == 'retiree':
        return 'retiree'
    if profesion == 'entrepreneur':
        return 'entrepreneur'
    if profesion == 'paternity / maternity leave':
        return'paternity / maternity leave'
    return 'student'
        


In [None]:
df['profesiones']= df['income_type'].apply(profesiones)

In [None]:
df['profesiones'].value_counts()

employee                       11090
business                        5080
student                         1458
retiree                          394
entrepreneur                       2
paternity / maternity leave        1
Name: profesiones, dtype: int64

In [None]:
dias_empleo_limpio= df['days_employed'].dropna()
dias_empleo_limpio

0        8437.673028
1        4024.803754
2        5623.422610
3        4124.747207
4         926.185831
            ...     
18020    2351.431934
18021    4529.316663
18022    2113.346888
18023    3112.481705
18024    1984.507589
Name: days_employed, Length: 15906, dtype: float64

In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados

df.groupby('profesiones')['days_employed'].median()


profesiones
business                       1547.382223
employee                       1574.202821
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                                NaN
student                        2689.137274
Name: days_employed, dtype: float64

In [None]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados

df.groupby('profesiones')['days_employed'].mean()

profesiones
business                       2111.524398
employee                       2326.499216
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                                NaN
student                        3397.748276
Name: days_employed, dtype: float64

voy a utilizar la mediana para no dejar que los datos atípicos afecten la investigación.

In [None]:
# Escribamos una función que calcule medianas 

def reemplazar_nan (df):
    mediana= df.groupby('profesiones')['days_employed'].median()
    df.loc[(df['profesiones'] == 'business') & df['days_employed'].isna(),'days_employed'] = mediana.loc['business']
    df.loc[(df['profesiones'] == 'employee') & df['days_employed'].isna(),'days_employed'] = mediana.loc['employee']
    df.loc[(df['profesiones'] == 'entrepreneur') & df['days_employed'].isna(),'days_employed'] = mediana.loc['entrepreneur']
    df.loc[(df['profesiones'] == 'paternity / maternity leave') & df['days_employed'].isna(),'days_employed'] = mediana.loc['paternity / maternity leave']
    df.loc[(df['profesiones'] == 'retiree') & df['days_employed'].isna(),'days_employed'] = mediana.loc['retiree']
    df.loc[(df['profesiones'] == 'student') & df['days_employed'].isna(),'days_employed'] = mediana.loc['student']
   
    return df


### Comprueba que la función funciona



In [None]:
# Aplicar la función al income_type


reemplazar_nan(df)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades,profesiones
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49,employee
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39,employee
2,0,5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39,employee
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39,employee
4,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house,<=29,business
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18020,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,30-39,employee
18021,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49,business
18022,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39,employee
18023,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39,employee


In [None]:
# Comprueba si la función funcionó

df['days_employed'].isna().sum()

394

In [None]:
# Reemplazar valores ausentes

df['days_employed']= df['days_employed'].fillna(0)

In [None]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18025 entries, 0 to 18024
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          18025 non-null  int64  
 1   days_employed     18025 non-null  float64
 2   dob_years         18025 non-null  int64  
 3   education         18025 non-null  object 
 4   education_id      18025 non-null  int64  
 5   family_status     18025 non-null  object 
 6   family_status_id  18025 non-null  int64  
 7   gender            18025 non-null  object 
 8   income_type       18025 non-null  object 
 9   debt              18025 non-null  int64  
 10  total_income      18025 non-null  float64
 11  purpose           18025 non-null  object 
 12  edades            18025 non-null  object 
 13  profesiones       18025 non-null  object 
dtypes: float64(2), int64(5), object(7)
memory usage: 1.9+ MB


## Clasificación de datos

A continuaación crearé un nuevo dataframe que contenga solo las columnas necesarias para hacer el análisis de las hipótesis. 


In [None]:
# Muestra los valores de los datos seleccionados para la clasificación

df_nuevo= df[['children', 'family_status', 'family_status_id','total_income','purpose', 'debt']]
df_nuevo.head()

Unnamed: 0,children,family_status,family_status_id,total_income,purpose,debt
0,1,married,0,40620.102,purchase of the house,0
1,1,married,0,17932.802,car purchase,0
2,0,married,0,23341.752,purchase of the house,0
3,3,married,0,42820.568,supplementary education,0
4,0,civil partnership,1,40922.170,purchase of the house,0
...,...,...,...,...,...,...
18020,1,divorced,3,18551.846,buy commercial real estate,0
18021,1,civil partnership,1,35966.698,housing transactions,0
18022,1,civil partnership,1,14347.610,property,1
18023,3,married,0,39054.888,buying my own car,1


In [None]:
# Comprobar los valores únicos

print('Valores únicos en columna hijos:\n',df_nuevo['children'].value_counts(),'\n')
print('Valores únicos en columna estatus familiar:\n',df_nuevo['family_status'].value_counts(),'\n')
print('Valores únicos en la colmuna total_income:\n',df_nuevo['total_income'].describe(),'\n')
print('Valores únicos en la columna purpose:\n', df_nuevo['purpose'].value_counts(),'\n')
print('Valores únicos en la columna debt:\n',df_nuevo['debt'].value_counts(),'\n')

Valores únicos en columna hijos:
 0    10952
1     4596
2     2104
3      324
4       40
5        9
Name: children, dtype: int64 

Valores únicos en columna estatus familiar:
 married              10470
civil partnership     3586
unmarried             2497
divorced               997
widow / widower        475
Name: family_status, dtype: int64 

Valores únicos en la colmuna total_income:
 count     18025.000000
mean      27423.984513
std       15993.793619
min        3418.824000
25%       18138.732000
50%       24721.689000
75%       32010.431000
max      362496.645000
Name: total_income, dtype: float64 

Valores únicos en la columna purpose:
 wedding ceremony                            672
having a wedding                            647
to have a wedding                           642
real estate transactions                    562
buy commercial real estate                  557
housing transactions                        556
buying property for renting out             550
transactions 

Voy a reestructurar la columna de 'purpose' creando una nueva que agrupe los datos según su propósito.


In [None]:
# Escribamos una función para clasificar los datos en función de temas comunes

def proposito (p):
    if 'car' in p:
        return 'compra auto'
    if 'wedding' in p:
        return 'matrimonio'
    if 'house' in p or 'housing' in p or 'property' in p or 'construction' in p:
        return 'vivienda'
    if 'education' in p or 'educated' in p or 'university' in p:
        return 'educacion'
    else:
        return 'real state'

In [None]:
# Crea una columna con las categorías y cuenta los valores en ellas

df_nuevo['proposito']= df_nuevo['purpose'].apply(proposito)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_nuevo['proposito']= df_nuevo['purpose'].apply(proposito)


In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación

df_nuevo['proposito'].value_counts()

vivienda       5365
real state     3746
compra auto    3593
educacion      3360
matrimonio     1961
Name: proposito, dtype: int64

In [None]:
# Obtener estadísticas resumidas para la columna

df_nuevo['proposito'].describe()

count        18025
unique           5
top       vivienda
freq          5365
Name: proposito, dtype: object

**Conclusiones**

A lo largo de estas secciones, realice la transformación de datos problemáticos (quedó todo el texto en minúscula, eliminé datos duplicados y sin sentido, transformé datos negativos en positivos), rellené los valores ausentes ( en el caso de la columna 'days_employed' rellene los valores ausentes con la mediana calculada sobre los días trabajados para cada una de las profesiones que aparecen en la tabla y para la columna ' total_income' rellené los valores ausentes con la mediana calculada sobre los ingresos totales para cada uno de los rangos de edad que establecí) y clasifiqué los datos (en esta parte arme una nueva tabla únicamente con las columnas necesarias para hacer el análisis de las hipótesis y la columna de 'purpose' decidí agruparla mediante una función de acuerdo a los temas comúnes ).  

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
# Comprueba los datos sobre los hijos y los pagos puntuales

df_hijos_pagos= df_nuevo.groupby('children')['debt'].value_counts()
df_hijos_pagos


children  debt
0         0       10056
          1         896
1         0        4163
          1         433
2         0        1904
          1         200
3         0         298
          1          26
4         0          36
          1           4
5         0           9
Name: debt, dtype: int64

In [None]:
print('El porcentaje de deudores en personas sin hijos es:' ,round(896/(10056+896)*100,1))
print('El porcentaje de deudores en personas con 1 hijo es:',round(433/(4163+433)*100,1))
print('El porcentaje de deudores en personas con 2 hijos es:',round(200/(1904+200)*100,1))
print('El porcentaje de deudores en personas con 3 hijos es:',round(26/(298+26)*100,1))
print('El porcentaje de deudores en personas con 4 hijos es:',round(4/(36+4)*100,1))
print('El porcentaje de deudores en personas con 5 hijos es:',0)


El porcentaje de deudores en personas sin hijos es: 8.2
El porcentaje de deudores en personas con 1 hijo es: 9.4
El porcentaje de deudores en personas con 2 hijos es: 9.5
El porcentaje de deudores en personas con 3 hijos es: 8.0
El porcentaje de deudores en personas con 4 hijos es: 10.0
El porcentaje de deudores en personas con 5 hijos es: 0


**Conclusión**

No existe correlación entre la cantidad de hijos que tiene una famlia con el cumplimiento del pago de un credito. La mayoría tiene un porcentaje muy similar con respecto a los incumplimientos. No influye significativamente la cantidad de hijos que tenga.La única categoría que no tiene deudas, curiosamente es la que más hijos tiene pero al ser pocos datos no creo que sea representativa. El total de las familias que no pagan es aprox 8% del total.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Comprueba los datos del estado familiar y los pagos a tiempo

df_status_debt= df_nuevo.groupby('family_status')['debt'].value_counts()
df_status_debt





family_status      debt
civil partnership  0       3227
                   1        359
divorced           0        923
                   1         74
married            0       9637
                   1        833
unmarried          0       2235
                   1        262
widow / widower    0        444
                   1         31
Name: debt, dtype: int64

In [None]:
# Calcular la tasa de incumplimiento basada en el estado familiar

print('El porcentaje de deuda en personas convivientes es:',round(359/(3227+359)*100,1))
print('El porcentaje de deuda en personas divorciadas es:',round(74/(923+74)*100,1))
print('El porcentaje de deuda en personas casadas es:',round(833/(9673+833)*100,1))
print('El porcentaje de deuda en personas solteras es:',round(262/(2235+262)*100,1))
print('El porcentaje de deuda en personas viudas es:',round(31/(444+31)*100,1))


El porcentaje de deuda en personas convivientes es: 10.0
El porcentaje de deuda en personas divorciadas es: 7.4
El porcentaje de deuda en personas casadas es: 7.9
El porcentaje de deuda en personas solteras es: 10.5
El porcentaje de deuda en personas viudas es: 6.5


**Conclusión**

Como se puede observar, el porcentaje de deudas es muy similar en todas las categorías. La que menos porcentaje de deudas tiene son los viudos pero estan muy parejos todos.Esto me indica que no hay correlación entre el status familiar y el pago de deuda.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

df_nuevo.groupby('debt')['total_income'].describe()

# Calcular la tasa de incumplimiento basada en el nivel de ingresos
#df_nuevo[df_nuevo['debt']== 0]['total_income'].() #453258766.73
#df_nuevo[df_nuevo['debt']== 1]['total_income'].sum() #41058554.122


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,16466.0,27526.950488,15997.210274,3418.824,18187.69525,24721.689,32226.20775,362496.645
1,1559.0,26336.468327,15922.154718,5430.683,17688.2415,23807.982,30283.483,352136.354


**Conclusión**

No creo que haya correlación entre el nivel de ingresos y el pago a tiempo. El porcentaje de las personas que no paga es del 8%. Es un valor muy parecido a los % de deuda vistos en las otras variables. 

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

df_proposito_debt= df_nuevo.groupby('proposito')['debt'].value_counts()
df_proposito_debt


proposito    debt
compra auto  0       3233
             1        360
educacion    0       3032
             1        328
matrimonio   0       1794
             1        167
real state   0       3437
             1        309
vivienda     0       4970
             1        395
Name: debt, dtype: int64

In [None]:
print('Los porcentajes de deuda segun los difrentes propósitos son los siguientes:')
print('El porcentaje de deuda para comprar un auto es:',round(360/(3233+360)*100,1))
print('El porcentaje de deuda para educación es:',round(328/(3032+328)*100,1))
print('El porcentaje de deuda para matrimonio es:',round(167/(1794+167)*100,1))
print('El porcentaje de deuda para real state es:',round(309/(3437+309)*100,1))
print('El porcentaje de deuda para vivienda es:', round(395/(4970+395)*100,1))


los porcentajes de deuda segun los difrentes propósitos son los siguientes:
El porcentaje de deuda para comprar un auto es: 10.0
El porcentaje de deuda para educación es: 9.8
El porcentaje de deuda para matrimonio es: 8.5
El porcentaje de deuda para real state es: 8.2
El porcentaje de deuda para vivienda es: 7.4


**Conclusión**

Nuevamente podemos observar que los porcentajes son muy parecidos, con lo cual no creo que haya correlacion entre el propósito con el que se pide el crédito y el cumplimiento de pago del mismo.


# Conclusión general 

Para concluir, las distintas opciones que se presentan no significan un elevado riesgo. No superan el 10%. Tampoco influye una característica u otra. No afecta drásticamente la cantidad de hijos que tenga, el estatus familiar, el propósito o los ingresos que tenga.  
