Hola William,

¡Gracias por enviar tu proyecto!

Mi nombre es Nabeel y revisaré tu proyecto.

Mi objetivo será permitirte encontrar la solución por sí mismo, por lo que si veo un error por primera vez, dejaré un comentario para señalarlo. Pero si aún no está claro cómo solucionar el error, puedo entrar en más detalles en la próxima iteración. Por favor, siempre siéntate libre de hacer preguntas.

Encontrará mis comentarios a continuación: **por favor, no los mueva, modifique ni elimine**.

Puede encontrar mis comentarios en cuadros verdes, amarillos o rojos como este:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. ¡Bien hecho!
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Comentarios. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor</b> <a class="tocSkip"></a>


Necesita arreglarse. El bloque requiere algunas correcciones. No se pueden aceptar trabajos con los comentarios en rojo.
</div>

Puedes dejarme sus comentarios así:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

Discutamos ideas y aprendamos juntos!

# Análisis del riesgo de incumplimiento de los prestatarios

El siguiente informe representa un análisis de datos donde se evaluará un listado de clientes y se le asignará una **puntuación de crédito** según sus características.



Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

**Tabla de contenidos**<a name="indice"></a>

- [1 Observando la información general.](#id1)
- [2 Exploración de datos.](#id2)
- [3 Transformación de datos.](#id3)
    - [3.1 Casos "-1" hijo y "20" hijos](#id3.1)
    - [3.2 Solución valores negativos](#id3.2)
        - [3.2.1 Valores atípicamente altos](#id3.2.1)
    - [3.3 Edades en 0](#id3.3)
    - [3.4 Errores en family_status](#id3.4)
    - [3.5 Errores en gender](#id3.5)
    - [3.6 Errores en income_type](#id3.6)
    - [3.7 Búsqueda de duplicados](#id3.7)
    - [3.8 Conclusiones intermedias transformación de datos](#id3.8)
    - [3.9 Restaurar valores ausentes en total_income](#id3.9)
    - [3.10 Restaurar valores en days_employed](#id3.10)
- [4 Clasificación de datos](#id4)
- [5 Comprobación de las hipótesis](#id5)
- [6 Conclusión General](#id6)

    

## Observando la información general.
<a name="id1"></a>

In [1]:
# Cargando todas las librerías
import pandas as pd


In [2]:
# Cargando los datos en el DataFrame

data = pd.read_csv('/datasets/credit_scoring_eng.csv')

<a name="id2"></a>
## Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Regresar](#indice)

In [3]:
# mostrando número de filas y columnas
print(data.shape)


(21525, 12)


In [4]:
# mostrando las primeras 10 filas
data.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


**Hallazgos de errores en la data**

En la columna **"days_employed"** existen valores negativos, requiere una investigación del origen de los datos.

En la columna **"education"** existen duplicados no implícitos.

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Gran observación!
</div>

In [5]:
# Obtenemos información general sobre los datos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Existen valores nulos en las columnas **"days_employed"** y **"total_income".**

In [6]:
# Mostramos estadística descriptiva de los datos

data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [7]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

data.loc[data['days_employed'].isna()]



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Los valores ausentes de la columna **"days_employed"** parecen estar directamente relacionados con los valores ausentes de la columna **"total_income"**.

Comprobaré en la siguiente celda si esta afirmación es correcta.

In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
filtered_data = data.loc[(data['days_employed'].isna() & data['total_income'].isna())]
print(f'Total de filas con valores ausentes: {len(filtered_data)}')
print(f'Total de filas en la tabla: {len(data)}')


Total de filas con valores ausentes: 2174
Total de filas en la tabla: 21525


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien, excelente trabajo identificando valores ausentes.
</div>

**Conclusión intermedia**

El número de los valores ausentes es igual en las columnas **"days_employed"** y **"total_income"**. Se puede interpretar que las personas que no tienen días de antigüedad laboral, no están cobrando un salario y por ende, también tienen valores ausentes en la columnas de ingresos.

Analizaremos los valores ausentes con el tipo de trabajo que desempeñan **[income_type]**, trataremos de establecer un patrón para identificar por qué no hay valores en las columnas de antigüedad **[days_employed]** o ingresos **[total_income]**.

In [9]:
# Proporción de valores ausentes

print(f' La proporción de valores ausentes en la tabla es de: {len(filtered_data) / len(data):.2%}')


 La proporción de valores ausentes en la tabla es de: 10.10%


In [10]:
# Observemos las ditribuciones de las tablas 

print(f"""Distribución según tipo de ingresos con valores nulos
{data['income_type'].value_counts(normalize=True)}

Total de filas:{data.shape[0]}
Total de columnas:{data.shape[1]}

Distribución según tipo de ingresos sin valores nulos
{data.dropna()['income_type'].value_counts(normalize=True)}

Total de filas:{data.dropna().shape[0]}
Total de columnas:{data.dropna().shape[1]}
""")

Distribución según tipo de ingresos con valores nulos
employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

Total de filas:21525
Total de columnas:12

Distribución según tipo de ingresos sin valores nulos
employee                       0.517493
business                       0.236525
retiree                        0.177924
civil servant                  0.067800
unemployed                     0.000103
entrepreneur                   0.000052
paternity / maternity leave    0.000052
student                        0.000052
Name: income_type, dtype: float64

Total de filas:19351
Total de columnas:12



In [11]:
# Comprobación de la distribución
print(data['income_type'].value_counts(normalize=True) - data.dropna()['income_type'].value_counts(normalize=True))


business                      -0.000288
civil servant                 -0.000018
employee                      -0.000930
entrepreneur                   0.000041
paternity / maternity leave   -0.000005
retiree                        0.001217
student                       -0.000005
unemployed                    -0.000010
Name: income_type, dtype: float64


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Bien hecho comparando las distribuciones!
</div>

**Posibles razones por las que hay valores ausentes en los datos**

Los valores ausentes vienen por causas aleatorias, se investigó por cada uno de los campos del DataFrame y no se pudo hallar un patrón que describa por cuál razón existen valores ausentes en las columnas **"days_employed"** y **"total_income"**.

Inicialmente consideré que los clientes con valores ausentes no se encontraban laborando, pero la información proporcionada en el campo **[income_type]** indica lo contrario. O existe un problema de carga en la data.

In [12]:
# Comprobando la distribución en el conjunto de datos entero

print(f"""Distribución según cantidad de hijos con valores nulos
{data['children'].value_counts(normalize=True)}

Distribución según cantidad de hijos sin valores nulos
{data.dropna()['children'].value_counts(normalize=True)}

Distribución según cantidad de nivel de educación con valores nulos
{data['education_id'].value_counts(normalize=True)}

Distribución según cantidad de nivel de educación sin valores nulos
{data.dropna()['education_id'].value_counts(normalize=True)}

Distribución según estado civil - con valores nulos
{data['family_status'].value_counts(normalize=True)}

Distribución según estado civil - sin valores nulos
{data.dropna()['family_status'].value_counts(normalize=True)}

Distribución según género con valores nulos
{data['gender'].value_counts(normalize=True)}

Distribución según género - sin valores nulos
{data.dropna()['gender'].value_counts(normalize=True)}
""")


Distribución según cantidad de hijos con valores nulos
 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

Distribución según cantidad de hijos sin valores nulos
 0     0.656814
 1     0.224433
 2     0.095654
 3     0.015193
 20    0.003462
-1     0.002274
 4     0.001757
 5     0.000413
Name: children, dtype: float64

Distribución según cantidad de nivel de educación con valores nulos
1    0.707689
0    0.244367
2    0.034564
3    0.013101
4    0.000279
Name: education_id, dtype: float64

Distribución según cantidad de nivel de educación sin valores nulos
1    0.707612
0    0.243708
2    0.034882
3    0.013488
4    0.000310
Name: education_id, dtype: float64

Distribución según estado civil - con valores nulos
married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status,

**Conclusión intermedia**

Luego de revisar la distribución por diferentes campos, podemos notar que la distribución de datos es similar, lo sugiere que los valores ausentes son aleatorios.


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente!
</div>

**Conclusiones**

Los valores ausentes en **[total_income]** se completarán apoyandome en campos auxiliares como **[education]** e **[income_type]**.

Los valores ausentes en **[days_employed]** se completarán apoyandome en una categoría que crearé para rangos de edad llamada **[dob_years_category]** e **[income_type]**.


## Transformación de datos
<a name="id3"></a>
[Regresar](#indice)

In [13]:
# Observamos los valores únicos de la columna para ver qué problemas puede haber
print(data['education'].value_counts())

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64


In [14]:
# Cambiamos los valores texto en minúsculas
data['education'] = data['education'].str.lower()

In [15]:
# Comprobamos los valores a ver si la transformación funcionó intencionalmente
print(data['education'].value_counts())


secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente!
</div>

Comprobando columna **[children]**.

In [16]:
# Veamos la distribución de los valores en la columna `children`
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


### Casos "-1" hijo y "20" hijos
<a name="id3.1"></a>
El 0.57% de los datos parecen estar errados en la columna **[children]**. Tenemos 76 casos de personas con 20 hijos y 47 casos con personas que se reflejan con -1 hijo.

En el caso de las personas con **"-1"** los convertiré a **"1"** porque el estado civil de estos registros son en su mayoría personas **"casadas"** o en **"unión civil"**, esto sugiere a que pudiera haber un error en la entrada de datos y tengan 1 hijo.

Para el caso de las personas con **"20"** hijos, corregimos a **2**, considerando también un error de tipeo. Adicionalmente, la distribución de hijos va desde 0 a 5 hijos por persona, se hace poco probable que no existan casos con 6, 7 o más hijos sino 20.

[Regresar](#indice)

In [17]:
# Cambiando el número de hijos de "-1" a "1" y de "20" a "2"
data.loc[data['children'] == -1, 'children'] = 1
data.loc[data['children'] == 20, 'children'] = 2

In [18]:
# Comprobamos que los valores se hayan transformado

data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Comprobando columna **[days_employed]**.

In [19]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje

print(f"Existen un total de: {len(data.loc[data['days_employed'] < 0])} registros negativos")
print(f"La proporción de registros negativos es de:{len(data.loc[data['days_employed'] < 0]) / len(data): .0%}")

Existen un total de: 15906 registros negativos
La proporción de registros negativos es de: 74%


### Solución valores negativos
<a name="id3.2"></a>
Dada la cantidad de registros negativos, es posible que se haya invertido su valor debido a problemas técnicos.
Por otra parte, asumimos que los valores atípicamente altos pudieron deberse a un error en la carga de datos, identificando los **"días de experiencia laboral"** como "horas de experiencia laboral.

[Regresar](#indice)

In [20]:
# Aborda los valores problemáticos, si existen.
# Cambiamos los valores negativos por positivos
data['days_employed'] = abs(data['days_employed'])

In [21]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(data.loc[data['days_employed'] < 0])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


#### Valores atípicamente altos
<a name="id3.2.1"></a>

[Regresar](#indice)

In [22]:
#Observamos la cantidad de valores atípicamente altos

data.loc[data['days_employed'] > 18250, 'days_employed'].count()

3446

In [23]:
# Cambiamos los valores que están por encima de 50 años (18250 días) de experiencia

data.loc[data['days_employed'] > 18250, 'days_employed'] = data.loc[data['days_employed'] > 18250, 'days_employed'] / 24

In [24]:
# comprobamos si se mantienen los valores atípicos

data.loc[data['days_employed'] > 18250, 'days_employed']

Series([], Name: days_employed, dtype: float64)

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien, esto es correcto!
</div>

Comprobando columna **[dob_years]**.

### Edades en 0
<a name="id3.3"></a>


In [25]:
# Revisamos `dob_years` en busca de valores sospechosos
print(f"La cantidad de datos con valores 0 es: {len(data.loc[data['dob_years'] == 0])}")
print(f"La proporción de datos con valores 0 es:{len(data.loc[data['dob_years'] == 0]) / len(data): .2%}")



La cantidad de datos con valores 0 es: 101
La proporción de datos con valores 0 es: 0.47%


Usaré la moda de edad general para completar los datos en 0.

In [26]:
# Resuelve los problemas en la columna `dob_years`, si existen
dob_years_median = data['dob_years'].median()
data.loc[data['dob_years'] == 0,'dob_years'] = dob_years_median

In [27]:
# comprobamos si existen valores en 0
data.loc[data['dob_years']== 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Errores en family_status
<a name="id3.4"></a>
No hay valores errados en este campo, sin embargo, cambiaremos los valores a snake_case.

[Regresar](#indice)

In [28]:
# Veamos los valores de la columna

data['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [29]:
# Cambiamos los valores con espacios a snake_case

data['family_status'].replace({
    'civil partnership':'civil_partnership',
    'widow / widower':'widow/widower'
}, inplace=True)


In [30]:
# Compobamos el resultado
data['family_status'].value_counts()

married              12380
civil_partnership     4177
unmarried             2813
divorced              1195
widow/widower          960
Name: family_status, dtype: int64

### Errores en gender
<a name="id3.5"></a>
Se eliminará considerando que solo es 1 valor problemático para esta columna.

[Regresar](#indice)

In [31]:
# Veamos los valores en la columna
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [32]:
# Eliminando la fila con el registro con error
data.loc[data['gender']== 'XNA', 'gender']
data.drop(10701,inplace=True)
data.reset_index()

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21519,21520,1,4529.316663,43.0,secondary education,1,civil_partnership,1,F,business,0,35966.698,housing transactions
21520,21521,0,14330.725172,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21521,21522,1,2113.346888,38.0,secondary education,1,civil_partnership,1,M,employee,1,14347.610,property
21522,21523,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [33]:
# Comprobamos el resultado
data['gender'].value_counts()


F    14236
M     7288
Name: gender, dtype: int64

### Errores en income_type
<a name="id3.6"></a>
No existen errores en este campo.

[Regresar](#indice)

In [34]:
# Veamos los valores en la columna

data['income_type'].value_counts()


employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [35]:
# Cambiamos los valores a snake_case

data['income_type'].replace({
    'civil servant': 'civil_servant',
    'paternity / maternity leave': 'paternity/maternity leave'
}, inplace=True)

### Búsqueda de duplicados
<a name="id3.7"></a>

[Regresar](#indice)

In [36]:
# Comprobando los duplicados
data.duplicated().sum()

72

In [37]:
# Eliminando registros duplicados
data.drop_duplicates(inplace=True)
data.reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21447,1,4529.316663,43.0,secondary education,1,civil_partnership,1,F,business,0,35966.698,housing transactions
21448,0,14330.725172,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21449,1,2113.346888,38.0,secondary education,1,civil_partnership,1,M,employee,1,14347.610,property
21450,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


<div class="alert alert-block alert-danger">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Debemos usar `reset_index(drop=True)`.
</div>

In [38]:
# Última comprobación para ver si tenemos duplicados
data.duplicated().sum()

0

In [39]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
print(data.shape)

(21452, 12)


### Conclusiones intermedias transformación de datos
<a name="id3.8"></a>
Se ajustó la información que venía con errores desde origen. Tocando los campos de **[education]**, **[family_status]**, **[children]**, **[days_employed]**, **[gender]** y **[dob_years]**

En **[education]** se reemplazó todos los textos a minúscula para mas coherencia en los datos.

En **[family_status]** se transformaron los valores a snake_case para mayor uniformidad en los datos.

En **[children]** se asumió que las personas con "-1" hijo realmente correspondían a "1" por errores en transmisión de datos. De igual forma las personas con "20" hijos se asumió como 2 hijos por la misma causa.

En **[days_employed]** se cambiaron los valores de negativo a positivo, entendiendo que hubo un error en la generación de los datos. Adicionalmente se abordaron los casos con más de 18250 días de antigüedad laboral (50 años) como **Horas trabajadas** y se dividieron entre 24.

En **[gender]** se eliminó el registro con valor "XNA" ya que no encontramos un patrón que nos sugiera cuál pudo haber sido el género del cliente. Se consideró también sacarlo del conjunto de datos por ser solo 1 valor problemático.

Por último en **[dob_years]** se utilizó la moda para completar los valores en "0" de este campo. Recurrí a esta opción para evitar perder los datos de las otras columnas.

[Regresar](#indice)

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien!
</div>

# Trabajar con valores ausentes

Para poder categorizar de una mejor manera los datos con los que voy a trabajar. Estaré utilizando los campos  **[education_id]** y **[family_status_id]**.

In [40]:
# Creando diccionarios de educación

education_dict = data.set_index('education_id')['education'].to_dict()
education_dict


{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [41]:
# Creando diccionarios de estado civil

family_status_dict = data.set_index('family_status_id')['family_status'].to_dict()
family_status_dict

{0: 'married',
 1: 'civil_partnership',
 2: 'widow/widower',
 3: 'divorced',
 4: 'unmarried'}

### Restaurar valores ausentes en `total_income`
<a name="id3.9"></a>
[Regresar](#indice)

Procederé a restaurar los valores ausentes en las columnas **[total_income]** y **[days_employed]**. Crearé categorías para las edades de los clientes y a través de ello, calcular un promedio para las columnas con datos ausentes.

In [42]:
# Vamos a escribir una función que calcule la categoría de edad

def years_category(age):
    if age < 0 or pd.isna(age):
        return 'NA'
    elif age < 20:
        return '0-19'
    elif age < 40:
        return '20-39'
    elif age < 60:
        return '40-59'    
    return '60+'


In [43]:
# Prueba si la función funciona bien
print(years_category(18))
print(years_category(23))
print(years_category(45))
print(years_category(64))

0-19
20-39
40-59
60+


In [44]:
# Creamos una nueva columna basada en la función
data['dob_years_category'] = data['dob_years'].apply(years_category)


In [45]:
# Comprobamos los valores de la nueva columna

data.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-59
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20-39
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20-39
4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,40-59


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente!!!
</div>

Para completar los datos ausentes en **[total_income]** utilizaremos los campos de **[dob_years_category]** e **[income_type]**.

In [46]:
# Creamos una tabla sin valores ausentes para obtener las medidas con mayor precisión
calc_data = data.dropna()
calc_data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-59
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,20-39
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,20-39
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,20-39
4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,40-59


In [47]:
# Revisamos la distribución de promedios por tipo de ingresos
calc_data.groupby(['dob_years_category','income_type'])['total_income'].mean()

dob_years_category  income_type              
0-19                business                     19197.349000
                    civil_servant                12125.986000
                    employee                     14882.764600
20-39               business                     31545.568784
                    civil_servant                26992.146265
                    employee                     25447.120633
                    entrepreneur                 79866.103000
                    paternity/maternity leave     8612.661000
                    retiree                      21521.643028
                    student                      15712.260000
                    unemployed                    9593.119000
40-59               business                     33378.272208
                    civil_servant                27531.652589
                    employee                     26138.734360
                    retiree                      22592.016979
                    unem

In [48]:
# Revisamos la distribución de medianas por tipo de ingresos
calc_data.groupby(['dob_years_category','income_type'])['total_income'].median()

dob_years_category  income_type              
0-19                business                     19321.4450
                    civil_servant                12125.9860
                    employee                     14575.7170
20-39               business                     27110.5705
                    civil_servant                24102.2035
                    employee                     22593.7090
                    entrepreneur                 79866.1030
                    paternity/maternity leave     8612.6610
                    retiree                      18328.0365
                    student                      15712.2600
                    unemployed                    9593.1190
40-59               business                     28085.6190
                    civil_servant                24076.1150
                    employee                     22937.8670
                    retiree                      19824.8940
                    unemployed                   32435

Cálculo entre media y mediana considerando los campos de **[dob_years_category]** **[income_type]**.

In [49]:
calc_data.groupby(['dob_years_category','income_type'])['total_income'].mean() - calc_data.groupby(['dob_years_category','income_type'])['total_income'].median()

dob_years_category  income_type              
0-19                business                     -124.096000
                    civil_servant                   0.000000
                    employee                      307.047600
20-39               business                     4434.998284
                    civil_servant                2889.942765
                    employee                     2853.411633
                    entrepreneur                    0.000000
                    paternity/maternity leave       0.000000
                    retiree                      3193.606528
                    student                         0.000000
                    unemployed                      0.000000
40-59               business                     5292.653208
                    civil_servant                3455.537589
                    employee                     3200.867360
                    retiree                      2767.122979
                    unemployed         

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buena investigacion!
</div>

Utilizaré la mediana ya que considero que hay valores atípicos en alguna de las categorías.

In [50]:
income_median_pivot = calc_data.pivot_table(
    index=['dob_years_category', 'income_type'],
    values='total_income',
    aggfunc='median'
)
income_median_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
dob_years_category,income_type,Unnamed: 2_level_1
0-19,business,19321.445
0-19,civil_servant,12125.986
0-19,employee,14575.717
20-39,business,27110.5705
20-39,civil_servant,24102.2035
20-39,employee,22593.709
20-39,entrepreneur,79866.103
20-39,paternity/maternity leave,8612.661
20-39,retiree,18328.0365
20-39,student,15712.26


In [51]:
# Escribimos una función para completar los valores ausentes usando las medianas de ingresos por categoría de edad
# y tipo de ingreso
def fill_total_income(row):
    dob_years_category = row['dob_years_category']
    income_type = row['income_type']
    total_income = row['total_income']
    
    if pd.isna(total_income):
        try:
            return income_median_pivot['total_income'][dob_years_category][income_type]
        except:
            return income_median_pivot['total_income'][dob_years_category].median()
    return total_income

In [52]:
# Comprueba si funciona

test_data = data.loc[data['total_income'].isna()].head(10)

test_data['total_income'] = test_data.apply(fill_total_income, axis=1)

test_data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category
12,0,,65.0,secondary education,1,civil_partnership,1,M,retiree,0,18419.475,to have a wedding,60+
26,0,,41.0,secondary education,1,married,0,M,civil_servant,0,24076.115,education,40-59
29,0,,63.0,secondary education,1,unmarried,4,F,retiree,0,18419.475,building a real estate,60+
41,0,,50.0,secondary education,1,married,0,F,civil_servant,0,24076.115,second-hand car purchase,40-59
55,0,,54.0,secondary education,1,civil_partnership,1,F,retiree,1,19824.894,to have a wedding,40-59
65,0,,21.0,secondary education,1,unmarried,4,M,business,0,27110.5705,transactions with commercial real estate,20-39
67,0,,52.0,bachelor's degree,0,married,0,F,retiree,0,19824.894,purchase of the house for my family,40-59
72,1,,32.0,bachelor's degree,0,married,0,M,civil_servant,0,24102.2035,transactions with commercial real estate,20-39
82,2,,50.0,bachelor's degree,0,married,0,F,employee,0,22937.867,housing,40-59
83,0,,52.0,secondary education,1,married,0,M,employee,0,22937.867,housing,40-59


In [53]:
# Aplícalo a cada fila

data.loc[data['total_income'].isna(), 'total_income'] = data.apply(fill_total_income, axis=1)

In [54]:
# Comprobamos si la función funcionó
data.loc[data['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category


Comprobando que todos los valores de la columna **[total_income]** fueron correctamente transformados.

In [55]:
# Comprobamos el número de registros en las columna

data['total_income']


0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21452, dtype: float64

<div class="alert alert-block alert-info">
<b>Cambié la condición del except en la función para que solo tomara la mediana de la primera categoría 'dob_category_years' si no conseguía una mediana en la segunda categoría 'income_type'. Si de esta forma no es correcto, agradecería un tip de como poder avanzar con esta parte.
        </b> <a class="tocSkip"></a>
</div>

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Esto es correcto!
</div>

###  Restaurar valores en `days_employed`
<a name="id3.10"></a>
[Regresar](#indice)

Calculando medias y medianas para los valores de **[days_employed]** según las categorías **[gender]**, **[dob_years_category]** e **[income_type]**.

In [56]:
# Distribución de las medianas de `days_employed` según género, categoría de edad y tipo de ingreso

calc_data.pivot_table(
    index=['gender','dob_years_category', 'income_type'],
    values='days_employed',
    aggfunc='median'
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,days_employed
gender,dob_years_category,income_type,Unnamed: 3_level_1
F,0-19,business,710.230781
F,0-19,civil_servant,509.969922
F,0-19,employee,793.358581
F,20-39,business,1266.683819
F,20-39,civil_servant,1911.609269
F,20-39,employee,1379.99374
F,20-39,entrepreneur,520.848083
F,20-39,paternity/maternity leave,3296.759962
F,20-39,retiree,15114.224288
F,40-59,business,1964.744497


In [57]:
# Distribución de las medias de `days_employed` según género, categoría de edad y tipo de ingreso

days_employed_pivot = calc_data.pivot_table(
    index=['gender','dob_years_category', 'income_type'],
    values='days_employed',
    aggfunc='mean'
)

days_employed_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,days_employed
gender,dob_years_category,income_type,Unnamed: 3_level_1
F,0-19,business,594.033329
F,0-19,civil_servant,509.969922
F,0-19,employee,715.476909
F,20-39,business,1592.843072
F,20-39,civil_servant,2300.087534
F,20-39,employee,1790.619895
F,20-39,entrepreneur,520.848083
F,20-39,paternity/maternity leave,3296.759962
F,20-39,retiree,15122.054441
F,40-59,business,2653.405353


Utilizaré la media debido a que no consigo valores atípicos que puedan desviar el calculo promedio.

In [58]:
# Función para calcular la media de antigüedad laboral, considerando género, categoría de edad y tipo de empleo

def days_employed_avg(row):
    gender = row['gender']
    dob_years_category = row['dob_years_category']
    income_type = row['income_type']
    days_employed = row['days_employed']
    
    if pd.isna(days_employed):
        try:
            return days_employed_pivot['days_employed'][gender][dob_years_category][income_type]
        except:
            return days_employed_pivot['days_employed'][gender][dob_years_category].mean()
    return days_employed

<div class="alert alert-block alert-info">
<b>Cambié el "None" del except para que devolviera un promedio considerando solo las primeras 2 categorías.
    </b> <a class="tocSkip"></a>
</div>

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien!
</div>

In [59]:
# Comprobamos la función con una prueba

test_data_days_employed = data.loc[data['days_employed'].isna()].head(10)
test_data_days_employed['days_employed'] = test_data_days_employed.apply(days_employed_avg, axis=1)
test_data_days_employed

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category
12,0,15158.780381,65.0,secondary education,1,civil_partnership,1,M,retiree,0,18419.475,to have a wedding,60+
26,0,3957.053377,41.0,secondary education,1,married,0,M,civil_servant,0,24076.115,education,40-59
29,0,15232.199648,63.0,secondary education,1,unmarried,4,F,retiree,0,18419.475,building a real estate,60+
41,0,4437.686856,50.0,secondary education,1,married,0,F,civil_servant,0,24076.115,second-hand car purchase,40-59
55,0,15218.34299,54.0,secondary education,1,civil_partnership,1,F,retiree,1,19824.894,to have a wedding,40-59
65,0,1588.820897,21.0,secondary education,1,unmarried,4,M,business,0,27110.5705,transactions with commercial real estate,20-39
67,0,15218.34299,52.0,bachelor's degree,0,married,0,F,retiree,0,19824.894,purchase of the house for my family,40-59
72,1,2501.895003,32.0,bachelor's degree,0,married,0,M,civil_servant,0,24102.2035,transactions with commercial real estate,20-39
82,2,3119.312834,50.0,bachelor's degree,0,married,0,F,employee,0,22937.867,housing,40-59
83,0,2448.069255,52.0,secondary education,1,married,0,M,employee,0,22937.867,housing,40-59


In [60]:
# Aplicamos la función
data.loc[data['days_employed'].isna(), 'days_employed'] = data.apply(days_employed_avg, axis=1)


In [61]:
data.loc[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_category


Comprobando que todos los valores de la columna **[days_empoyed]** fueron correctamente transformados.

In [62]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
data['days_employed']

0         8437.673028
1         4024.803754
2         5623.422610
3         4124.747207
4        14177.753002
             ...     
21520     4529.316663
21521    14330.725172
21522     2113.346888
21523     3112.481705
21524     1984.507589
Name: days_employed, Length: 21452, dtype: float64

## Clasificación de datos
<a name="id4"></a>
Inicialmente crearé una categoría para poder englobar los propósitos de solicitud de préstamos.

[Regresar](#indice)

In [63]:
# Mostramos los valores de los datos seleccionados para la clasificación

data_ref = data[['purpose']].drop_duplicates().reset_index(drop=True)
data_ref.head()


Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,supplementary education
3,to have a wedding
4,housing transactions


Comprobando valores únicos del campo **[purpose]**.

In [64]:
# Comprobamos los valores únicos
data_ref

Unnamed: 0,purpose
0,purchase of the house
1,car purchase
2,supplementary education
3,to have a wedding
4,housing transactions
5,education
6,having a wedding
7,purchase of the house for my family
8,buy real estate
9,buy commercial real estate


Según lo obeservado en la serie de arriba, puedo englobar los propósitos de los préstamos en 4 categorías. Hipotecarios, vehículo, estudiantiles y préstamos de consumo.


In [65]:
# Función para agrupar los propósitos de crédito según un factor común

def purpose_category(purpose):
    if "hous" in purpose or "real state" in purpose or "property" in purpose:
        return "mortage loan"
    if "car" in purpose:
        return "vehicle loan"
    if "educ" in purpose or "university" in purpose:
        return "studies loan"
    return "consumer loan"


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien hecho!
</div>

In [66]:
# Crea una columna con las categorías y cuenta los valores en ellas

data['purpose_category'] = data['purpose'].apply(purpose_category)
data['purpose_category']

0         mortage loan
1         vehicle loan
2         mortage loan
3         studies loan
4        consumer loan
             ...      
21520     mortage loan
21521     vehicle loan
21522     mortage loan
21523     vehicle loan
21524     vehicle loan
Name: purpose_category, Length: 21452, dtype: object

Adicionalmente crearé una categoría para tabular los rangos de salario.

In [67]:
# Revisamos los valores de las columnas de antigüedad laboral e ingresos totales

data.loc[:, ['days_employed', 'total_income']]


Unnamed: 0,days_employed,total_income
0,8437.673028,40620.102
1,4024.803754,17932.802
2,5623.422610,23341.752
3,4124.747207,42820.568
4,14177.753002,25378.572
...,...,...
21520,4529.316663,35966.698
21521,14330.725172,24959.969
21522,2113.346888,14347.610
21523,3112.481705,39054.888


In [68]:
# Obtenemos estadísticas resumidas para la columna
numeric_df = data.loc[:, ['days_employed', 'total_income']].describe(percentiles=[0.25, 0.75, 0.90])
numeric_df

Unnamed: 0,days_employed,total_income
count,21452.0,21452.0
mean,4649.577643,26451.07658
std,5323.333954,15706.099857
min,24.141633,3306.762
25%,1023.504534,17211.3555
50%,2292.85332,22937.867
75%,5321.001947,31328.69375
90%,15156.530547,43168.0466
max,17615.563266,362496.645


<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Nos encanto el uso de percentiles aqui!!
</div>

Agruparé **[total_income]** para poder tabular a los clientes por nivel adquisitivo.

In [69]:
# Creamos una función para categorizar el nivel de ingresos

def income_category(income):
    if income < 0 or pd.isna(income):
        return 'NA'
    elif income < numeric_df['total_income']['25%']:
        return 'low_income'
    elif income < numeric_df['total_income']['50%']:
        return 'mid_income'
    elif income < numeric_df['total_income']['75%']:
        return 'mid_high_income'
    elif income < numeric_df['total_income']['90%']:
        return 'high income'
    elif income > numeric_df['total_income']['90%']:
        return 'very high income'
    return

In [70]:
# Crear una columna con categorías
data['income_category'] = data['total_income'].apply(income_category)

In [71]:
# Observamos la distribución del nivel de ingresos

data['income_category'].value_counts(normalize=True).sort_values(ascending=False)

mid_high_income     0.265616
low_income          0.250000
mid_income          0.234384
high income         0.149963
very high income    0.100037
Name: income_category, dtype: float64

**Conclusiones intermedias**

Agregamos una clasificación a los datos por **"propósito de crédito"** y otra categoría por **"Nivel de ingresos"**. La idea es que estas categorías nos ayuden a reflejar una respuesta clara en las hipótesis.

## Comprobación de las hipótesis
<a name="id5"></a>
[Regresar](#indice)

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [72]:
# Mostramos la cantidad de hijos que tienen los clientes

data['children'].value_counts()

0    14089
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [73]:
# Comprueba los datos sobre los hijos y los pagos puntuales

children_pivot = data.pivot_table(
    index = 'children',
    values = 'debt',
    aggfunc = 'mean'
)

children_pivot.sort_values(by='debt', ascending=False)

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
4,0.097561
2,0.094925
1,0.091658
3,0.081818
0,0.075449
5,0.0


**Conclusión**

A mayor cantidad de hijos, menor es la tasa de solvencia para los clientes. Sin embargo, en el caso de los **clientes con 5 hijos** podemos observar que con **solo 9 casos** en nuestra data de estudio no podemos asumir que una mayor cantidad de clientes con la misma condición tendrían una tasa de incumplimiento del **0%**.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [74]:
# Mostramos la cantidad de clientes dependiendo su estado civil

data['family_status'].value_counts()

married              12339
civil_partnership     4149
unmarried             2810
divorced              1195
widow/widower          959
Name: family_status, dtype: int64

In [75]:
# Comprobamos los datos del estado familiar y los pagos a tiempo

family_status_pivot = data.pivot_table(
    index = 'family_status',
    values = 'debt',
    aggfunc = 'mean'
)

family_status_pivot.sort_values(by='debt', ascending=False)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
unmarried,0.097509
civil_partnership,0.093517
married,0.075452
divorced,0.07113
widow/widower,0.065693


**Conclusión**

Podemos observar que los clientes con una relación sentimental no formal tienen un mayor grado de incumplimiento en sus pagos.

De esa misma manera podemos inferir que a mayor nivel de formalidad en el estado civil del cliente, mejor será su tasa de solvencia.

Por último es importante destacar que los clientes que estuvieron en una relación formal terminan siendo los que mejor tasa de incumplimiento en pagos tienen.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [76]:
# Mostramos la cantidad de clientes dependiendo su nivel de ingresos

data['income_category'].value_counts()

mid_high_income     5698
low_income          5363
mid_income          5028
high income         3217
very high income    2146
Name: income_category, dtype: int64

In [77]:
# Comprobamos los datos del nivel de ingresos y los pagos a tiempo

income_category_pivot = data.pivot_table(
    index = 'income_category',
    values = 'debt',
    aggfunc = 'mean'
)

income_category_pivot.sort_values(by='debt', ascending=False)

Unnamed: 0_level_0,debt
income_category,Unnamed: 1_level_1
mid_income,0.090891
mid_high_income,0.083187
low_income,0.07962
high income,0.072117
very high income,0.070363


**Conclusión**

Como se ha de esperar, los 2 niveles con mayor categoría de ingresos tienen una mejor tasa de pago oportuno de créditos, sin embargo, el tercer lugar corresponde a los clientes con bajos ingresos. Esto también puede significar que al tener menor capacidad de pago, sus préstamos son de montos más manejables y conllevan a un mejor manejo de la deuda.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [78]:
# Mostramos la cantidad de clientes dependiendo su propósito

data['purpose_category'].value_counts()

consumer loan    6786
mortage loan     6347
vehicle loan     4306
studies loan     4013
Name: purpose_category, dtype: int64

In [79]:
# Comprobamos los datos del nivel de ingresos y los pagos a tiempo

purpose_category_pivot = data.pivot_table(
    index = 'purpose_category',
    values = 'debt',
    aggfunc = 'mean'
)

purpose_category_pivot.sort_values(by='debt', ascending=False)

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
vehicle loan,0.09359
studies loan,0.0922
consumer loan,0.076923
mortage loan,0.070269


**Conclusión**

Podemos observar que los préstamos para compra de propiedades tienen la mejor tasa de incumplimiento de pagos. De igual forma podemos observar que los préstamos de vehículos corresponden a la opción más riesgosa. Sin dejar a un lado a la opción de préstamos por estudios, ya que en este caso en la mayoría de los casos los clientes no tendrían una fuente de ingreso representativa para estar solventes ante esta categoría.

# Conclusión general 
<a name="id6"></a>
- Encontré valores nulos en las columnas de antigüedad laboral **[days_employed]** y monto de ingresos **[total_income]**, estos problemas según diferentes pruebas realizadas no les encontré un patrón que pudiera identificar la raiz del problema, concluí para estos casos que eran valores ausentes aleatorios.

- Adicionalmente hubo duplicados no implícitos en la columna de tipo de educación **[education]**, sin embargo, en esta oportunidad se corrigió cambiando el texto a minúsculas.

- Respecto a los datos en el resto de las columnas, se cambió la naturaleza de los valores negativos a positivos debido al alto porcentaje existente en las columnas donde ocurrió este evento.

- También modificamos los valores de las columnas categóricas para que se adherieran a la convención snake_case.

- Una vez completada la transformación de los datos, se crearon categorías donde se tabulaban los tipos de préstamos y nivel adquisitivo para poder responder las preguntas planteadas en las hipótesis.


**Conclusiones de hipótesis**

- Según la información reunida que los clientes tienen un mejor comportamiento en el pago de sus deudas a tiempo si consideramos que no tiene hijos; también es importante considerar si tiene o tuvo una relación formal.

- Tampoco se puede dejar de lado que los clientes con mayor nivel adquisitivo tienen un mejor score crediticio, sin embargo, a los clientes con bajos ingresos se les hace más manejable su deuda que a los clientes con ingresos medios.

- Como último punto a destacar, los préstamos para compra de propiedades terminan siendo la opción que mejor tasa de solvencia tiene.

[Regresar](#indice)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente trabajo, nos encanto! Solo necesitamos algunos cambios para lograr el Proyecto 2. Aqui son los puntos para revisar:
    
1. Elimina las instrucciones y sugerencias del Proyecto. Puedes imaginar que estas enviando este informe a un cliente real.
2. No debemos codificar ninguna solución con números, ya que puede causar problemas cuando revisamos y editamos las cosas más arriba.
3. Debes areglar el calculo en la seccione de los hipotesis.
 
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
Review 2

Casi llegamos, William. Muy bien hecho con el review. Hay un par de puntos que areglar. Por favor revise los comentarios nuevos.

En general, gran trabajo!
 
</div>