# Contents <a id='back'></a>

* [Análisis del riesgo de incumplimiento de los prestatarios](#intro)
* [Abre el archivo de datos y mira la información general.](#data_analysis)
* [Ejercicio 1. Exploración de datos](#data_exploration)
* [Transformación de datos](#data_transformation)
    * [3.1 Restaurar valores ausentes en total_income](#missing_values_total_income)
    * [3.2 Restaurar valores en days_employed](#missing_values_days_employed)
* [Clasificación de datos](#data_classification)
* [Comprobación de datos](#data_check)  
* [Conclusión general](#general_conclussions)

# Análisis del riesgo de incumplimiento de los prestatarios <a id='intro'></a>

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


En esta investigación se realizará un análisis a un datset para conocer si el incumplimiento del pago del prestamo del banco es influenciado por otros patrones, como el número de hijos, estado civil, nivel de ingresos, entre otros.

Por este motivo, se buscará lo siguiente:

1. Preprocesar los datos, es decir, encontrar si existen valores ausentes, duplicados, o atípicos para solucionarlos, y seguir con la investigación de la mejor manera.
2. Desarrollar distintas funciones para solucionar los problemas, y clasificar añgunos tipos de datos en categorías para stener más orden, y una mejor visión en los datos.
3. Por último, averiguar las correlaciones entre algunas variables con la tasa de endeudamiento, para conocer si de verdad está influenciado por la variable o no.

## Abre el archivo de datos y mira la información general. <a id='data_analysis'></a>



In [101]:
# Cargar todas las librerías
import pandas as pd




In [102]:
# Carga los datos
credit_score = pd.read_csv('/datasets/credit_scoring_eng.csv')
print(credit_score)

       children  days_employed  dob_years            education  education_id  \
0             1   -8437.673028         42    bachelor's degree             0   
1             1   -4024.803754         36  secondary education             1   
2             0   -5623.422610         33  Secondary Education             1   
3             3   -4124.747207         32  secondary education             1   
4             0  340266.072047         53  secondary education             1   
...         ...            ...        ...                  ...           ...   
21520         1   -4529.316663         43  secondary education             1   
21521         0  343937.404131         67  secondary education             1   
21522         1   -2113.346888         38  secondary education             1   
21523         3   -3112.481705         38  secondary education             1   
21524         2   -1984.507589         40  secondary education             1   

           family_status  family_status

## Ejercicio 1. Exploración de datos <a id='data_exploration'></a>

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo



In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
rows_number = credit_score.shape[0]
columns_number = credit_score.shape[1]
print(rows_number)
print(columns_number)

21525
12


In [4]:
# vamos a mostrar las primeras filas N
credit_score.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family




En esta primera muestra de la tabla de las 10 primeras filas del dataframe, se puede observar algo que no es muy habitual, que los datos de la columna "days_employed", posee valores negativos, y esto es un dato que puede resultar extraño, pero debe significar algo.


In [5]:
# Obtener información sobre los datos
credit_score.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB




En la información de los datos del dataframe, se puede observar que hay dos columnas de las 12 que tienen valores ausentes.

In [6]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
print(credit_score.isna().sum())
print()
data_nan = credit_score['days_employed'].loc[credit_score['days_employed'].isna()]
print(data_nan)


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

12      NaN
26      NaN
29      NaN
41      NaN
55      NaN
         ..
21489   NaN
21495   NaN
21497   NaN
21502   NaN
21510   NaN
Name: days_employed, Length: 2174, dtype: float64



 
 Los valores ausentes de la columna presentan la nominación 'Nan', es decir que posee valores nulos, y si parecen simétricos, ya que los valores ausentes son iguales. Además, se puede afirmar que la cantidad de valores de este columna de cada fila es de 2174, y si tiene relación con las muestras que faltan del total general.

In [7]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
data_nan_total_days = credit_score['days_employed'].loc[credit_score['days_employed'].isna()]
print(data_nan_total_days)
print()
data_nan_total_income = credit_score['total_income'].loc[credit_score['total_income'].isna()]
print(data_nan_total_income)

12      NaN
26      NaN
29      NaN
41      NaN
55      NaN
         ..
21489   NaN
21495   NaN
21497   NaN
21502   NaN
21510   NaN
Name: days_employed, Length: 2174, dtype: float64

12      NaN
26      NaN
29      NaN
41      NaN
55      NaN
         ..
21489   NaN
21495   NaN
21497   NaN
21502   NaN
21510   NaN
Name: total_income, Length: 2174, dtype: float64


In [8]:
total = 21525
nan_avg_income = 2174 / total
print(nan_avg_income * 100)
print()
nan_avg_days = 2174 / total


10.099883855981417



**Conclusión intermedia**



El número de filas de la tabla filtrada sí coincide con el número de valores ausentes, se puede concluir que estos valores ausentes pueden tener un mismo patrón, ya que tambien coinciden las filas donde se encuentran los valores ausentes de ambas columnas.





el porcentaje de los valores ausentes en comparación al conjunto de datos completo no es de porción considerablemente grande, por este motivo, no sería necesario rellenarlos; sin embargo, la razón de estos valores ausentes, puede ser debido a la educación de los usuarios, la cantidad de hijos o el tipo de ingresos que estos poseen.




Para los proximos pasos en esta investigación se averiguará como se relaciona los datos de la columna de tipo de ingreso con los valores ausentes en estas columnas.

In [9]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
distribución = credit_score['income_type'].loc[credit_score['total_income'].isna()].value_counts(normalize=True)

In [10]:
# Comprobación de la distribución
print(distribución)


employee         0.508280
business         0.233671
retiree          0.189972
civil servant    0.067617
entrepreneur     0.000460
Name: income_type, dtype: float64




**Posibles razones por las que hay valores ausentes en los datos**



Se puede observar que en la columna 'income_type', la cantidad de valores ausentes coincide con la de la tabla filtrada, una razón para la que estos valores ausentes aparezcan en el dataframe, podría ser por el tipo de ingresos que tenían, sin embargo, se puede observar que los tipos de ingresos donde se encuentran los valores ausentes, varían, es decir, no hay ningun patrón en aquella columna.



In [11]:
# Comprobando la distribución en el conjunto de datos entero
data_nan_total = credit_score.loc[(credit_score['days_employed'].isna())&(credit_score['total_income'].isna())]
print(data_nan_total)


       children  days_employed  dob_years            education  education_id  \
12            0            NaN         65  secondary education             1   
26            0            NaN         41  secondary education             1   
29            0            NaN         63  secondary education             1   
41            0            NaN         50  secondary education             1   
55            0            NaN         54  secondary education             1   
...         ...            ...        ...                  ...           ...   
21489         2            NaN         47  Secondary Education             1   
21495         1            NaN         50  secondary education             1   
21497         0            NaN         48    BACHELOR'S DEGREE             0   
21502         1            NaN         42  secondary education             1   
21510         2            NaN         28  secondary education             1   

           family_status  family_status

**Conclusión intermedia**




La distribución sí es similar a la de la tabla filtrada, esto puede significar, que podría haber algún patrón por lo cual existen los valores ausentes en el dataframe; por este motivo, se debe analizar otras columnas para encontrar el patrón de los valores ausentes.




In [12]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
print(credit_score['education'].loc[credit_score['days_employed'].isna()].value_counts(normalize=True))


secondary education    0.647654
bachelor's degree      0.228151
SECONDARY EDUCATION    0.030819
Secondary Education    0.029899
some college           0.025299
Bachelor's Degree      0.011500
BACHELOR'S DEGREE      0.010580
primary education      0.008740
SOME COLLEGE           0.003220
Some College           0.003220
PRIMARY EDUCATION      0.000460
Primary Education      0.000460
Name: education, dtype: float64


**Conclusión intermedia**



In [13]:
# Comprobación de otros patrones: explica cuáles
print(credit_score['family_status'].value_counts(normalize=True))
print()
print(credit_score.dropna()['family_status'].value_counts(normalize=True))
print()
print(credit_score['education'].value_counts(normalize=True))
print()
print(credit_score.dropna()['education'].value_counts(normalize=True))

married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

married              0.575836
civil partnership    0.193013
unmarried            0.130484
divorced             0.055966
widow / widower      0.044701
Name: family_status, dtype: float64

secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
GRADUATE DEGREE        0.000046
Graduate Degree        0.000046
Name: education, dtype: float64

secondary education    0.637796
bachelor's degree      0.218180
SECONDARY EDUCATION    0.036432
Secondary Educati

**Conclusiones**



Se encontró algunos patrones en las columnas del estado familiar y educación, siendo estas que los usuarios con educación secundaria y los que estan casados, son los que más valores ausentes se pudo observar; por lo tanto, estos valores ausentes pueden tener algun significado a partir de los datos de aquellas columnas. Sin emargo, tambien se pudo observar, que la distribución de los datos de las columnas con y sin valores ausentes es practicamente la misma.



Los valores ausentes se abordarán de una manera cuidadose, ya que un cambio puede afectar considerablemente los valores de las otras categorías, por este motivo, se debe analizar otros factores para poder tomar la decisión de rellenar dichos valores por otros.



Los próximos pasos en el preprocesamiento de datos, serán observar si algunas columnas poseen datos duplicados, para eliminarlos; si otras columnas poseen valores atípicos que pueden ser confusos y complicar la investigación, para solucionarlos; o si existen otros errores en los datos de las categorías como palabras mal escritas, o datos irrlelevantes.

## Transformación de datos <a id='data_transformation'></a>



In [14]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print(credit_score['education'].value_counts())

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64


In [15]:
# Arregla los registros si es necesario
credit_score['education'] = credit_score['education'].str.lower()

In [16]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
print(credit_score['education'].value_counts())


secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64


In [17]:
# Veamos la distribución de los valores en la columna `children`
print(credit_score['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64




Se encontró un valor extraño en la columna 'children', el cual es que hay un dato de una cantidad negativa, la cual no tiene sentido, ya que estamos hablando de una cantidad de hijos en este caso, y no puede ser negativa; aunque una interpretación podría ser que los usuarios con este dato, desafortunademente perdieron un hijo, pero este dato no nos ayuda en la investigación, y ocupa un porcentaje de alrededor de 0.22% de todos los datos ; por este motivo, mi decisión será cambiar el valor de -1 por el valor 0, para poder facilitar la investigación. Asimismo, se puede observar que tenemos un dato de 20 hijos lo que no hace mucho sentido, ya que es una cifra excesiva y sin mucho sentido, por este motivo, se debe corregir reemplazando sus valores por los del máximo valor que si tiene sentido, es decir, 5. 

In [18]:
# [arregla los datos según tu decisión]
credit_score['children'] = credit_score['children'].replace(-1, 0)
credit_score['children'] = credit_score['children'].replace(20, 5)

In [19]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
print(credit_score['children'].value_counts())


0    14196
1     4818
2     2055
3      330
5       85
4       41
Name: children, dtype: int64


In [20]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
print(credit_score['days_employed'].value_counts())
print()
print(credit_score['days_employed'][credit_score['days_employed'] < 0].count())
print()
print(credit_score['days_employed'][credit_score['days_employed'] > 0].count())
print()
print((credit_score['days_employed'][credit_score['days_employed'] < 0].count()) / 19351)

-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64

15906

3445

0.8219730246498889




Se puede observar que la cantidad de datos problemáticos equivale al 82.2%, es decir, es alta, esto puede ser a que hubo un problema técnico al momento de colocar los datos. Estos datos de a columna 'days_employed' posee valores negativos, unos 15906 para ser más exactos, lo que no tiene sentido, ya que este dato es la experiencia laboral en días, y que haya números negativos no tiene mucho sentido; por este motivo, una solución sería cambiar estos números negativos a positivos, para poder solucionar el problema.

In [21]:
# Aborda los valores problemáticos, si existen.
num_negativos = credit_score['days_employed'][credit_score['days_employed'] < 0]
credit_score['days_employed'] = num_negativos * -1


In [22]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit_score['days_employed'].value_counts())

142.276217     1
8615.745089    1
3650.076979    1
2358.122341    1
2569.204627    1
              ..
2152.475526    1
6219.157426    1
5873.586442    1
3355.260838    1
1636.419775    1
Name: days_employed, Length: 15906, dtype: int64


In [23]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
print(credit_score['dob_years'].value_counts())


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64




Se pudo encontrar un dato extraño en la columna 'dob_years' el cual es 0, el cual no tiene sentido, debido a que estamos hablando de las edades de los usuarios, y la edad 0, es mas bien para los recien nacidos, lo más probable es que los usuarios se hayan olvidado de responder esa parte. Este dato equivale aproximadamente al 0.47% de los totales de esa columna; por este motivo, para solucionar este error por la edad más común, que sería 35 años

In [24]:
# Resuelve los problemas en la columna `dob_years`, si existen
credit_score['dob_years'] = credit_score['dob_years'].replace(0, 35)

In [25]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit_score['dob_years'].value_counts())

35    718
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


In [26]:
# Veamos los valores de la columna
print(credit_score['family_status'].value_counts())


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64


In [27]:
# Aborda los valores problemáticos en `family_status`, si existen
credit_score['family_status'] = credit_score['family_status'].replace('widow / widower', 'widow')


In [28]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit_score['family_status'].value_counts())

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow                  960
Name: family_status, dtype: int64


In [29]:
# Veamos los valores en la columna
print(credit_score['gender'].value_counts())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


In [30]:
# Aborda los valores problemáticos, si existen
credit_score['gender'] = credit_score['gender'].replace('XNA', 'indefinido')

In [31]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit_score['gender'].value_counts())


F             14236
M              7288
indefinido        1
Name: gender, dtype: int64


In [32]:
# Veamos los valores en la columna
print(credit_score['income_type'].value_counts())

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


In [33]:
# Aborda los valores problemáticos, si existen
credit_score['income_type'] = credit_score['income_type'].replace('paternity / maternity leave', 'parental leave')

In [34]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit_score['income_type'].value_counts())


employee          11119
business           5085
retiree            3856
civil servant      1459
unemployed            2
entrepreneur          2
student               1
parental leave        1
Name: income_type, dtype: int64


In [35]:
# Comprobar los duplicados
print(credit_score.duplicated().sum())


71


In [36]:
# Aborda los duplicados, si existen
credit_score = credit_score.drop_duplicates().reset_index(drop=True)

In [37]:
# Última comprobación para ver si tenemos duplicados
print(credit_score.duplicated().sum())


0


In [38]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
print(credit_score.shape)

(21454, 12)




El conjuntos de datos cambió un poco, de 21525 filas, sin las duplicadas ahora son 21454, es decir, cambió un 0.33% en eltamaño del dataframe, lo que no es un cambio considerable, considerando los cambios anteriormente realizados.




# Trabajar con valores ausentes



Se decidió trabajar con los diccionarios de los ids de las columnas de family_status_id y education_id, utilizando como claves los datos de las columnas family status, y education; debido a que son datos que son muy útiles para la investigación, ya que el estado civil y la educación pueden influenciar en el incumplimiento de pago de un préstamo.

In [39]:
# Encuentra los diccionarios
education = {'bachelor\'s degree': 0, 'secondary education': 1, 'some college': 2, 'primary education': 3, 'graduate college': 4}
family_status = {'married': 0, 'civil partnership': 1, 'widow': 2, 'divorced': 3, 'unmarried': 4}

### Restaurar valores ausentes en `total_income` <a id='missing_values_total_income'></a>




Las columnas que presentan valores ausentes en el dataframe, son la columna 'total_income' y 'days_employed'; para solucionarlo, se deberá realizar una función para cada columna, para ver si reemplazarlos por la media o mediana de los otros datos de la columna.





In [40]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(year):
    if year <= 18:
        return 'children'
    if year <= 64:
        return 'adult'
    return 'retired'
    

In [41]:
# Prueba si la función funciona bien
print(age_group(35))

adult


In [42]:
# Crear una nueva columna basada en la función
credit_score['age_group'] = credit_score['dob_years'].apply(age_group)


In [43]:
# Comprobar cómo los valores en la nueva columna
print(credit_score)


       children  days_employed  dob_years            education  education_id  \
0             1    8437.673028         42    bachelor's degree             0   
1             1    4024.803754         36  secondary education             1   
2             0    5623.422610         33  secondary education             1   
3             3    4124.747207         32  secondary education             1   
4             0            NaN         53  secondary education             1   
...         ...            ...        ...                  ...           ...   
21449         1    4529.316663         43  secondary education             1   
21450         0            NaN         67  secondary education             1   
21451         1    2113.346888         38  secondary education             1   
21452         3    3112.481705         38  secondary education             1   
21453         2    1984.507589         40  secondary education             1   

           family_status  family_status

In [44]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
print(credit_score.dropna().head(15))

    

    children  days_employed  dob_years            education  education_id  \
0          1    8437.673028         42    bachelor's degree             0   
1          1    4024.803754         36  secondary education             1   
2          0    5623.422610         33  secondary education             1   
3          3    4124.747207         32  secondary education             1   
5          0     926.185831         27    bachelor's degree             0   
6          0    2879.202052         43    bachelor's degree             0   
7          0     152.779569         50  secondary education             1   
8          2    6929.865299         35    bachelor's degree             0   
9          0    2188.756445         41  secondary education             1   
10         2    4171.483647         36    bachelor's degree             0   
11         0     792.701887         40  secondary education             1   
13         0    1846.641941         54         some college             2   

In [45]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
income_avg = credit_score['total_income'].mean()
print(income_avg)

26787.568354658677


In [46]:
income_avg_educ = credit_score.groupby('education')['total_income'].mean()
print(income_avg_educ)

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29045.443644
Name: total_income, dtype: float64


In [47]:
income_avg_age = credit_score.groupby('age_group')['total_income'].mean()
print(income_avg_age)

age_group
adult      27019.065837
retired    21542.650450
Name: total_income, dtype: float64


In [48]:
income_avg_inc_type = credit_score.groupby('income_type')['total_income'].mean()
print(income_avg_inc_type)

income_type
business          32386.793835
civil servant     27343.729582
employee          25820.841683
entrepreneur      79866.103000
parental leave     8612.661000
retiree           21940.394503
student           15712.260000
unemployed        21014.360500
Name: total_income, dtype: float64


In [49]:
income_avg_fam_status = credit_score.groupby('family_status')['total_income'].mean()
print(income_avg_fam_status)

family_status
civil partnership    26694.428597
divorced             27189.354550
married              27041.784689
unmarried            26934.069805
widow                22984.208556
Name: total_income, dtype: float64


In [50]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
income_median = credit_score['total_income'].median()
print(income_median)

23202.87


In [51]:
income_median_educ = credit_score.groupby('education')['total_income'].median()
print(income_median_educ)

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25618.4640
Name: total_income, dtype: float64


In [52]:
income_median_age = credit_score.groupby('age_group')['total_income'].median()
print(income_median_age)

age_group
adult      23382.756
retired    18471.391
Name: total_income, dtype: float64


In [53]:
income_median_inc_type = credit_score.groupby('income_type')['total_income'].median()
print(income_median_inc_type)

income_type
business          27577.2720
civil servant     24071.6695
employee          22815.1035
entrepreneur      79866.1030
parental leave     8612.6610
retiree           18962.3180
student           15712.2600
unemployed        21014.3605
Name: total_income, dtype: float64


In [54]:
income_median_fam_status = credit_score.groupby('family_status')['total_income'].median()
print(income_median_fam_status)

family_status
civil partnership    23186.534
divorced             23515.096
married              23389.540
unmarried            23149.028
widow                20514.190
Name: total_income, dtype: float64




Se realizó la comparación a dichos factores como la educación, el tipo de ingreso, el grupo de edad, y el estado civil; ya que pueden ser factores considerables para ser una razón por la que existen valores ausentes en el total de ingresos, debido a que muchos veces el ingreso se ve influenciado por la educación, la edad o el tipo de ingreso que cada persona posee.






Se decidió utilizar la mediana, debido a que existen valores atípicos significantes en nuestro dataset, por este motivo, los valores ausentes se van a rellenar con la media de los datos de aquella columna.

In [55]:
#  Escribe una función que usaremos para completar los valores ausentes

median_var = credit_score.groupby('family_status')['total_income'].transform('median')

         
    
   

    
            
     

In [56]:
print(median_var)

0        23389.540
1        23389.540
2        23389.540
3        23389.540
4        23186.534
           ...    
21449    23186.534
21450    23389.540
21451    23186.534
21452    23389.540
21453    23389.540
Name: total_income, Length: 21454, dtype: float64


In [57]:
# Aplícalo a cada fila
credit_score['total_income'] = credit_score['total_income'].fillna(median_var)


In [58]:
credit_score.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,adult
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,adult
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


In [59]:
# Comprueba si tenemos algún error
credit_score['total_income'].isna().sum()

0

In [60]:
# Reemplazar los valores ausentes si hay algún error
print('No se presentó ningún error')

No se presentó ningún error


In [61]:
# Comprobar el número de entradas en las columnas
print(credit_score.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB
None


###  Restaurar valores en `days_employed` <a id='missing_values_days_employed'></a>

In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
days_employed_median = credit_score['days_employed'].median()
print(days_employed_median)



In [63]:
days_employed_median_educ = credit_score.groupby('education')['days_employed'].median()
print(days_employed_median_educ)

education
bachelor's degree      1611.056758
graduate degree        3851.735057
primary education      1189.581396
secondary education    1684.271101
some college           1148.776820
Name: days_employed, dtype: float64


In [64]:
days_employed_median_family_status = credit_score.groupby('family_status')['days_employed'].median()
print(days_employed_median_family_status)

family_status
civil partnership    1542.599791
divorced             1693.774783
married              1746.662391
unmarried            1234.117726
widow                2331.334484
Name: days_employed, dtype: float64


In [65]:
days_employed_median_age = credit_score.groupby('age_group')['days_employed'].median()
print(days_employed_median_age)

age_group
adult      1624.965472
retired    2876.221697
Name: days_employed, dtype: float64


In [66]:
days_employed_median_inc_type = credit_score.groupby('income_type')['days_employed'].median()
print(days_employed_median_inc_type)

income_type
business          1547.382223
civil servant     2689.368353
employee          1574.202821
entrepreneur       520.848083
parental leave    3296.759962
retiree                   NaN
student            578.751554
unemployed                NaN
Name: days_employed, dtype: float64


In [67]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
days_employed_avg = credit_score['days_employed'].mean()
print(days_employed_avg)

2353.0159319988766


In [68]:
days_employed_avg_educ = credit_score.groupby('education')['days_employed'].mean()
print(days_employed_avg_educ)

education
bachelor's degree      2277.818710
graduate degree        3520.186537
primary education      1940.672957
secondary education    2434.270703
some college           1563.112086
Name: days_employed, dtype: float64


In [69]:
days_employed_avg_family_status = credit_score.groupby('family_status')['days_employed'].mean()
print(days_employed_avg_family_status)

family_status
civil partnership    2252.614755
divorced             2445.741500
married              2470.512856
unmarried            1848.287053
widow                3041.384914
Name: days_employed, dtype: float64


In [70]:
days_employed_avg_age = credit_score.groupby('age_group')['days_employed'].mean()
print(days_employed_avg_age)

age_group
adult      2340.733767
retired    4010.478357
Name: days_employed, dtype: float64


In [71]:
days_employed_avg_inc_type = credit_score.groupby('income_type')['days_employed'].mean()
print(days_employed_avg_inc_type)

income_type
business          2111.524398
civil servant     3399.896902
employee          2326.499216
entrepreneur       520.848083
parental leave    3296.759962
retiree                   NaN
student            578.751554
unemployed                NaN
Name: days_employed, dtype: float64




Se decidió utilizar la mediana, debido a que existen valores atípicos significantes en nuestro dataset, por este motivo, los valores ausentes se van a rellenar con la media de los datos de la columna days employed.

In [72]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
median_days = credit_score.groupby('income_type')['days_employed'].transform('median') 

       

In [73]:
# Comprueba que la función funciona
median_days



0        1574.202821
1        1574.202821
2        1574.202821
3        1574.202821
4                NaN
            ...     
21449    1547.382223
21450            NaN
21451    1574.202821
21452    1574.202821
21453    1574.202821
Name: days_employed, Length: 21454, dtype: float64

In [74]:
# Aplicar la función al income_type
credit_score['days_employed'] = credit_score['days_employed'].fillna(median_days)


In [75]:
# Comprueba si la función funcionó
print(credit_score.head(15))


    children  days_employed  dob_years            education  education_id  \
0          1    8437.673028         42    bachelor's degree             0   
1          1    4024.803754         36  secondary education             1   
2          0    5623.422610         33  secondary education             1   
3          3    4124.747207         32  secondary education             1   
4          0            NaN         53  secondary education             1   
5          0     926.185831         27    bachelor's degree             0   
6          0    2879.202052         43    bachelor's degree             0   
7          0     152.779569         50  secondary education             1   
8          2    6929.865299         35    bachelor's degree             0   
9          0    2188.756445         41  secondary education             1   
10         2    4171.483647         36    bachelor's degree             0   
11         0     792.701887         40  secondary education             1   

In [76]:
# Reemplazar valores ausentes
credit_score = credit_score.fillna(value=days_employed_avg)
print(credit_score.head(15))


    children  days_employed  dob_years            education  education_id  \
0          1    8437.673028         42    bachelor's degree             0   
1          1    4024.803754         36  secondary education             1   
2          0    5623.422610         33  secondary education             1   
3          3    4124.747207         32  secondary education             1   
4          0    2353.015932         53  secondary education             1   
5          0     926.185831         27    bachelor's degree             0   
6          0    2879.202052         43    bachelor's degree             0   
7          0     152.779569         50  secondary education             1   
8          2    6929.865299         35    bachelor's degree             0   
9          0    2188.756445         41  secondary education             1   
10         2    4171.483647         36    bachelor's degree             0   
11         0     792.701887         40  secondary education             1   

In [77]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit_score.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


## Clasificación de datos <a id='data_classification'></a>




In [78]:
# Muestra los valores de los datos seleccionados para la clasificación
print(credit_score['purpose'])


0          purchase of the house
1                   car purchase
2          purchase of the house
3        supplementary education
4              to have a wedding
                  ...           
21449       housing transactions
21450          purchase of a car
21451                   property
21452          buying my own car
21453               to buy a car
Name: purpose, Length: 21454, dtype: object


In [79]:
# Comprobar los valores únicos
credit_score['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       



Se pudo identificar en los propósitos de préstamos grupos como el de la educación, el de comprar carros, bienes raíces, alojamientos, matrimonios, y propiedades.




In [80]:
# Escribamos una función para clasificar los datos en función de temas comunes
def purpose_group(purpose):
    
    if 'education' in purpose:
        return 'education'
    if 'to become educated' in purpose:
        return 'education'
    if 'car' in purpose:
        return 'get a car'
    if 'wedding' in purpose:
        return 'wedding'
    if 'housing' in purpose:
        return 'housing'
    else:
        return 'real state and property'

In [81]:
print(purpose_group('housing'))

housing


In [82]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit_score['purpose_group'] = credit_score['purpose'].apply(purpose_group)


In [83]:
credit_score.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,purpose_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult,real state and property
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult,get a car
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult,real state and property
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult,education
4,0,2353.015932,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult,wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,adult,real state and property
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult,housing
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,adult,wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult,real state and property


In [84]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
credit_score['total_income'].value_counts()

23389.540    1197
23186.534     417
23149.028     286
23515.096     113
20514.190      95
             ... 
45484.109       1
27715.458       1
23834.534       1
26124.613       1
41428.916       1
Name: total_income, Length: 19348, dtype: int64

In [85]:
# Obtener estadísticas resumidas para la columna
print(credit_score['total_income'].min())
print()
print(credit_score['total_income'].max())


3306.762

362496.645




Se decidió que los rangos para esta columna del total de ingresos serán low cuando sean menor o igual a 20 000; 'medium' cuando sea mayor a 20, 000 y menor o igual a 60 000; y high cuando sea mayor a 60,000 y menor o igual a 100,000; y por último, very high más que 100,000; con el fin de separar los niveles de ingresos por categorías y así tener una mejor visión de lo que significan.



In [86]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def income_group(total_income):
    if total_income <= 20000:
        return 'low'
    if total_income <= 60000:
        return 'medium'
    if total_income <= 100000:
        return 'high'
    return 'very high'
    


In [87]:
print(income_group(26787.568355))

medium


In [88]:
# Crear una columna con categorías
credit_score['income_group'] = credit_score['total_income'].apply(income_group)
print(credit_score.head(10))

   children  days_employed  dob_years            education  education_id  \
0         1    8437.673028         42    bachelor's degree             0   
1         1    4024.803754         36  secondary education             1   
2         0    5623.422610         33  secondary education             1   
3         3    4124.747207         32  secondary education             1   
4         0    2353.015932         53  secondary education             1   
5         0     926.185831         27    bachelor's degree             0   
6         0    2879.202052         43    bachelor's degree             0   
7         0     152.779569         50  secondary education             1   
8         2    6929.865299         35    bachelor's degree             0   
9         0    2188.756445         41  secondary education             1   

       family_status  family_status_id gender income_type  debt  total_income  \
0            married                 0      F    employee     0     40620.102   
1

In [89]:
# Contar los valores de cada categoría para ver la distribución
credit_score['income_group'].value_counts()

medium       13413
low           7369
high           573
very high       99
Name: income_group, dtype: int64

## Comprobación de las hipótesis <a id='data_check'></a>


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [90]:
credit_score.pivot_table(index='children',values='debt', aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,1064,0.075258
1,444,0.092346
2,194,0.094542
3,27,0.081818
4,4,0.097561
5,8,0.094118


In [91]:
# Comprueba los datos sobre los hijos y los pagos puntuales
print(credit_score.groupby('children')['debt'].count())

# Calcular la tasa de incumplimiento en función del número de hijos
credit_score.pivot_table(index='children', values='debt', aggfunc=['count', 'mean'])


children
0    14138
1     4808
2     2052
3      330
4       41
5       85
Name: debt, dtype: int64


Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,14138,0.075258
1,4808,0.092346
2,2052,0.094542
3,330,0.081818
4,41,0.097561
5,85,0.094118


In [92]:
none_total = 14138
one_total = 4808
two_total = 2052
three_total = 330
four_total = 41
more_than_five_total = 85
none_debt = 1064
one_debt = 444
two_debt = 194
three_debt = 27
four_debt = 4
more_than_five_debt = 8

none_debt_conversion = none_debt / none_total
one_debt_conversion = one_debt / one_total
two_debt_conversion = two_debt / two_total
three_debt_conversion = three_debt / three_total
four_debt_conversion = four_debt / four_total
more_than_five_debt_conversion = more_than_five_debt / more_than_five_total
print(f'tasa de endeudamiento de las personas con ningún hijo: {none_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con un hijo: {one_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con dos hijos: {two_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con tres hijos: {three_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con cuatro: {four_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con más de cinco hijos: {more_than_five_debt_conversion: .2%}')

tasa de endeudamiento de las personas con ningún hijo:  7.53%
tasa de endeudamiento de las personas con un hijo:  9.23%
tasa de endeudamiento de las personas con dos hijos:  9.45%
tasa de endeudamiento de las personas con tres hijos:  8.18%
tasa de endeudamiento de las personas con cuatro:  9.76%
tasa de endeudamiento de las personas con más de cinco hijos:  9.41%


**Conclusión**



Se pudo observar que los usuarios que no tienen hijos presentan mayor incumplimiento que los usuarios que sí tienen hijos. Sin embargo, las personas con 1 hijo tambien poseen una tasa de incumplimiento alta; esto puede ocurrir debido a que con menor cantidad de hijos, o sin ninguno en algunos casos, debe existir menor responsabilidad o presión por parte de los usuarios para pagar su deuda. Sin embargo, son las personas con cuatro hijos que poseen una tasa de endeudamiento mayor a las demás con un 9.76% con respecto a su total de las personas con y sin deudas.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [93]:
# Comprueba los datos del estado familiar y los pagos a tiempo
print(credit_score.groupby('family_status')['debt'].count())


# Calcular la tasa de incumplimiento basada en el estado familiar

credit_score.pivot_table(index='family_status', values='debt', aggfunc=['count', 'mean'])

family_status
civil partnership     4151
divorced              1195
married              12339
unmarried             2810
widow                  959
Name: debt, dtype: int64


Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
civil partnership,4151,0.093471
divorced,1195,0.07113
married,12339,0.075452
unmarried,2810,0.097509
widow,959,0.065693


In [100]:
civil_total = 4151
married_total = 12339
divorced_total = 1195
unmarried_total = 2810
widow_total = 959
civil_debt = 388
married_debt = 931
divorced_debt = 85
unmarried_debt = 274
widow_debt = 63

civil_debt_conversion = civil_debt / civil_total
married_debt_conversion = married_debt / married_total
divorced_debt_conversion = divorced_debt / divorced_total
unmarried_debt_conversion = unmarried_debt / unmarried_total
widow_debt_conversion = widow_debt / widow_total
print(f'tasa de endeudamiento de las personas con unión civil: {civil_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas casadas: {married_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas divorciadas: {divorced_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas no casadas: {unmarried_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas viudas: {widow_debt_conversion: .2%}')

tasa de endeudamiento de las personas con unión civil:  9.35%
tasa de endeudamiento de las personas casadas:  7.55%
tasa de endeudamiento de las personas divorciadas:  7.11%
tasa de endeudamiento de las personas no casadas:  9.75%
tasa de endeudamiento de las personas viudas:  6.57%


**Conclusión**



Despues de elaborar el análisis, se pudo observar que las personas casadas y con unión civil son las que más deuda poseen en comparación a las otras, pero son las personas no casadas las que poseen una tasa de endeudamiento mayor con respecto a su total.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [98]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
print(credit_score.groupby('income_group')['debt'].count())


# Calcular la tasa de incumplimiento basada en el nivel de ingresos
credit_score.pivot_table(index='income_group', values='debt', aggfunc=['count', 'mean'])


income_group
high           573
low           7369
medium       13413
very high       99
Name: debt, dtype: int64


Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
income_group,Unnamed: 1_level_2,Unnamed: 2_level_2
high,573,0.055846
low,7369,0.082508
medium,13413,0.081637
very high,99,0.060606


In [99]:
low_total = 7369
medium_total = 13413
low_debt = 608
medium_debt = 1095

low_debt_conversion = low_debt / low_total
medium_debt_conversion = medium_debt / medium_total
print(f'tasa de endeudamiento de las personas con ingresos bajos: {low_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con ingresos medios: {medium_debt_conversion: .2%}')

tasa de endeudamiento de las personas con ingresos bajos:  8.25%
tasa de endeudamiento de las personas con ingresos medios:  8.16%


**Conclusión**



Se puede observar, que las personas con un nivel de ingresos medio son las que poseen una tasa de incumplimiento alta, pero también son las que menos deuda poseen; asimismo, las personas con ingreso bajo son las segundas que poseen un incumplimiento en el pago de su deuda, despues que las de ingreso medio; sin embargo, la tasa de incumplimiento es similar a la de los ingresos medios con un 8.25% y 8.16% con respecto al total de cada uno respectivamente.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [95]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
print(credit_score.groupby('purpose_group')['debt'].count())
print()
credit_score.pivot_table(index='purpose_group', values='debt', aggfunc=['count', 'mean'])


purpose_group
education                  3517
get a car                  4306
housing                    1905
real state and property    9402
wedding                    2324
Name: debt, dtype: int64



Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_group,Unnamed: 1_level_2,Unnamed: 2_level_2
education,3517,0.092977
get a car,4306,0.09359
housing,1905,0.067717
real state and property,9402,0.074027
wedding,2324,0.080034


In [96]:
education_total = 3517
getacar_total = 4306
housing_total = 1905
rsp_total = 9402
wedding_total = 2324
education_debt = 327
getacar_debt = 403
housing_debt = 129
rsp_debt = 696
wedding_debt = 186

education_debt_conversion = education_debt / education_total
getacar_debt_conversion = getacar_debt / getacar_total
housing_debt_conversion = housing_debt / housing_total
rsp_debt_conversion = rsp_debt / rsp_total
wedding_debt_conversion = wedding_debt / wedding_total
print(f'tasa de endeudamiento de las personas con propósito de educación: {education_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con propósito de conseguir un carro: {getacar_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con propósito de alojamiento: {housing_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con propósito de bienes raíces y propiedades: {rsp_debt_conversion: .2%}')
print(f'tasa de endeudamiento de las personas con propósitos de matrimonio: {wedding_debt_conversion: .2%}')

tasa de endeudamiento de las personas con propósito de educación:  9.30%
tasa de endeudamiento de las personas con propósito de conseguir un carro:  9.36%
tasa de endeudamiento de las personas con propósito de alojamiento:  6.77%
tasa de endeudamiento de las personas con propósito de bienes raíces y propiedades:  7.40%
tasa de endeudamiento de las personas con propósitos de matrimonio:  8.00%


**Conclusión**



Se puede concluir en esta parte que las personas con propósito de bienes raíces y propiedades son las que más endudamiento presentan, esto se debe a que es el propósito que más tienen las personas del datset; y con respecto a los porcentajes de la tasa de endeudamiento y las cantidades de cada propósito, se pudo observar que son las personas con propósito de conseguir un carro o algo relacionado a los carros, que tiene mayor porcentaje en la tasa de endeudamiento con respecto a su total, en comparación a los otros proósitos, con alrededor de 9.36%; pero no muy por detras se encuentran las personas con propósito de educación con un 9.30%.


# Conclusión general <a id='general_conclussions'></a>



Después anlizar los datos, se pudo concluir que:
1. Los valores ausentes en algunas columnas, como la de total income y la de days employed, pudieron ocurrir debido a factores en común, como personas con educación secundaria o las personas con estado civil casados; pero para no tener problemas en el análisis, se rellenaron con el valor de la media de dichas columnas.
2. Los valores duplicados fueron abordados de manera más práctica, eliminandolos del dataset.
3. Se encontraron valores atípicos, como datos negativos en columnas como los días empleados; lo cual no tenía mucho sentido; o un dato 0 en la columna de edad; por este motivo, estos datos fueron abordados cambiando los valores negativos a positivos, y arreglando el valor 0 de la columna edad.
4. Se clasificaron datos en distintas categorías, como la edad, los niveles de ingresos, y los distintos propósitos del préstamo, con el fin de tener un mejor orden y visión en los datos. 



Asimismo, hemos probado las siguientes cuatro hipótesis:

1. La conexión entre tener hijos y el pago de un préstamo a tiempo.
2. La conexión entre el estado civil de las personas y pagar un préstamo a tiempo.
3. Si los niveles de ingresos afectan el pago de un préstamo a tiempo.
4. Si los distintos propósitos del préstamo afectan el pago a tiempo del mismo.

Tras analizar los datos, concluímos que:

1. Los usuarios que no tienen hijos son los que más deben, siguiendo los que solo tienen un hijo.

Por lo tanto, la primera hipótesis ha sido aceptada, ya que si existe una conexión.

2. Las personas casadas son las que más deben.

Así que, esta hipótesis también es correcta, pero debemos tener en cuenta que las personas no casadas tienen una tasa de conversión del endeudamiento con respecto al total de las personas de ese estado civil más alta.

3. Las personas con un nivel de ingresos medio son las que más deben, siguiendo las personas con un nivel de ingreso bajo.

Entonces, esta tercera hipótesis es aceptada, ya que los niveles de ingresos si son um factor influyente para tener una deuda.

4. Las personas con el propósito de préstamo relacionado a los carros, son los que más tasa de endeudamiento poseen, siguiendo a los que tienen como propósito de educación. 

Esta cuarta hipótesis es aceptada, ya que los propósito si afectan al pago del préstamo.
