In [113]:
import pandas as pd

In [114]:
credit_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

Ahora vamos a explorar nuestros datos.

In [115]:
#Aquí utilizamos el atributo shape de pandas para calcular la cantidad de filas y columnas del DataFrame.
credit_scoring.shape

(21525, 12)

In [116]:
#Aquí utilizamos el método head() para imprimir las primeras diez filas del DataFrame y hacer un análisis rápido de la información que tenemos.
credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


**Primeras observaciones**

Lo primero que puedo notar es que tenemos números negativos en la columna days_employed. ¿Podría ser este un error? Ya que en las primeras filas vemos que aquellos que tienen números negativos de días de trabajo tienen números positivos en si ingreso mensual, asumiría que los días de trabajo en números negativos corresponde a un error. Además de eso, esta misma columna tiene números decimales. Pensaría que deberían ser números enteros. 

También vemos que en la columna education algunos nombres fueron ingresados mal como, por ejemplo tenemos “secundary education,” “Secondary Education,” y “SECONDARY EDUCATION.” Y al parecer tenemos un problema similar con el otro valor “BACHELOR'S DEGREE.”

No tenemos una columna que nos permita identificar cada cliente por separada, como un cliente ID. Esto puede ser un problema al momento de querer deshacernos de los duplicados. 

Puedo notar también que las education_id y family_status_id nos indican lo mismo que las columnas education y family_status, respectivamente, pero con los números 1 y 0. Siendo en la columna education_id, 1 = “bachelor's degree”, y 2 = “secondary education”. Mientras que en la columna family_status_id, 1 = “civil partnership”, y 2 = “married.”



In [117]:
# Aquí utilizamos el método info() para poder analizar los tipos de datos que contiene DataFrame.
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Aquí podemos ver os tipos de datos que contiene cada columna. Parecen estar correctos. También podemos ver que tenemos valores ausentes en las siguientes columnas: ‘days_employed’ y ‘total_income.’ ¿Estarán relacionadas?

**Valores Ausentes**

Ahora vamos a analizar los valores ausentes para intentar descubrir la razón por la que hacen falta estos valores en ambas columnas. 

**days_employed**

In [118]:
# Aquí filtramos el dataframe con las filas en las que faltan valores en la columna 'days_employed'

credit_scoring[credit_scoring['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Al parecer los valores ausentes de la columna days_employed están relacionados con los valores ausentes de la columna total_income. Si esto es verdad, podríamos asumir que aquellos clientes están desempleados y por eso no tiene valores en estas columnas. Vamos a comprobarlo. 

**total_income**

In [119]:
# Aquí filtramos el dataframe con las filas en las que faltan valores en la columna 'total_income'
credit_scoring[credit_scoring['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusión intermedia de valores ausentes**

La cantidad de filas de esta tabla filtrada coincide con la cantidad de filas de la tabla filtrada de valores ausentes de la columna days_employed. Esto me da a entender que las filas en las que faltan datos en la columna ‘days_employed’ son las mismas filas en las que faltan datos en la columna ‘total_income.’ Vamos a comprobar esto.

In [120]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada

print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['total_income'].isna())].shape)
print()
print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['total_income'] > 0)])

(2174, 12)

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


In [121]:
credit_scoring.loc[credit_scoring['days_employed'].isna()].groupby('income_type')['income_type'].count()

income_type
business          508
civil servant     147
employee         1105
entrepreneur        1
retiree           413
Name: income_type, dtype: int64

**Hallazgos**

Para confirmar si ambas columnas estaban relacionadas, cree dos tablas filtradas. La primera tabla nos daba todas las filas donde faltaban datos en las columnas days_employed y total_income. Esta tabla tiene la misma cantidad de filas que las otras dos tablas filtradas que creamos. Esto me dice que los valores ausentes de ambas columnas están dentro de las mismas filas. 

Filtre una tabla donde tenía que darnos todas las filas donde tenemos valores ausentes en la columna days_employed y donde los valores en la columna total_income era mayor a 0. Esta tabla está vacía, por lo tanto, cada persona que tiene un valor ausente en la columna days_employed va a tener un valor ausente en la columna total_income. 

Sin embargo, mi hipótesis de que los valores ausentes en ambas columnas se debían a que estas personas no tenían trabajo se desmiente al ver la última tabla que cree; la cual nos indica que estas personas con valores ausentes si tienen un tipo de trabajo, por ende, si trabajan. 

**Posibles razones por las que hay valores ausentes en los datos**

Es muy difícil saber la razón real del porque tenemos valores ausentes en las mimas filas de ambas columnas. Yo asumiría que estas personas prefirieron no dar esta información o que puede ser un error humano o de alguno de los sistemas utilizados para recopilar la información. 

No encuentro ninguna otra relación. Sin embargo, analizaremos otras posibles opciones. 

**Analicemos otras posibles correlaciones**

In [122]:
# Comprobación de otras razones y patrones que podrían llevar a valores ausentes
print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['education_id'] == 1)].shape)
print()
print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['dob_years'] > 65)].shape)
print()
print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['family_status_id'] == 1)].shape)
print()
print(credit_scoring.loc[(credit_scoring['days_employed'].isna()) & 
                   (credit_scoring['income_type'] == 'retiree')].shape)

(1540, 12)

(61, 12)

(442, 12)

(413, 12)


In [123]:
# Analizando si existe alguna relación entre los valores ausentes y su nivel de educación. 
credit_scoring.loc[credit_scoring['days_employed'].isna()].groupby('education')['education'].count()

education
BACHELOR'S DEGREE        23
Bachelor's Degree        25
PRIMARY EDUCATION         1
Primary Education         1
SECONDARY EDUCATION      67
SOME COLLEGE              7
Secondary Education      65
Some College              7
bachelor's degree       496
primary education        19
secondary education    1408
some college             55
Name: education, dtype: int64

In [124]:
# Analizando si existe alguna relación entre los valores ausentes y su estado familiar.
credit_scoring.loc[credit_scoring['days_employed'].isna()].groupby('family_status')['family_status'].count()

family_status
civil partnership     442
divorced              112
married              1237
unmarried             288
widow / widower        95
Name: family_status, dtype: int64

In [125]:
# Analizando si existe alguna relación entre los valores ausentes y su genero.
credit_scoring.loc[credit_scoring['days_employed'].isna()].groupby('gender')['gender'].count()

gender
F    1484
M     690
Name: gender, dtype: int64

**Conclusión intermedia**

Aquí analice 4 posibles relaciones con los valores ausentes de la columna days_employed. 

La primera tabla nos da todas las filas donde la columna days_employed tiene valores ausentes y donde la columna education_id es igual a 1, ósea las personas con una educación secundaria. 

La segunda tabla nos da todas las filas donde la columna days_employed tiene valores ausentes y donde la columna dob_years es mayor a 65. 

La tercera tabla nos da todas las filas donde la columna days_employed tiene valores ausentes y donde la columna family_status_id es igual a 1. 

La cuarta tabla nos da todas las filas donde la columna days_employed tiene valores ausentes y donde la columna income_type es igual a retiree. 

Ninguna de las cuatro tablas tiene el mismo número de filas que de los valores ausentes. 

También analice la correlacion entre la columna ‘days_employed’ con las columnas ‘education,’ ‘family_status,’ y ‘gender’ en busca de algún patrón. No me pareció encontrar algún patrón claro. Podría decirse que los valores faltantes son aleatoreos.

In [126]:
# Comprobación de otros patrones

print(credit_scoring.loc[(credit_scoring['total_income'].isna()) & 
                   (credit_scoring['education_id'] == 1)].shape)
print()
print(credit_scoring.loc[(credit_scoring['total_income'].isna()) & 
                   (credit_scoring['dob_years'] > 65)].shape)
print()
print(credit_scoring.loc[(credit_scoring['total_income'].isna()) & 
                   (credit_scoring['family_status_id'] == 1)].shape)
print()
print(credit_scoring.loc[(credit_scoring['total_income'].isna()) & 
                   (credit_scoring['income_type'] == 'retiree')].shape)

(1540, 12)

(61, 12)

(442, 12)

(413, 12)


In [127]:
# Correlación entre valores ausentes de 'total_income' y 'education'

credit_scoring.loc[credit_scoring['total_income'].isna()].groupby('education')['education'].count()

education
BACHELOR'S DEGREE        23
Bachelor's Degree        25
PRIMARY EDUCATION         1
Primary Education         1
SECONDARY EDUCATION      67
SOME COLLEGE              7
Secondary Education      65
Some College              7
bachelor's degree       496
primary education        19
secondary education    1408
some college             55
Name: education, dtype: int64

In [128]:
# Correlación entre valores ausentes de 'total_income' y 'family_status'

credit_scoring.loc[credit_scoring['total_income'].isna()].groupby('family_status')['family_status'].count()

family_status
civil partnership     442
divorced              112
married              1237
unmarried             288
widow / widower        95
Name: family_status, dtype: int64

In [129]:
# Correlación entre valores ausentes de 'total_income' y 'gender'

credit_scoring.loc[credit_scoring['total_income'].isna()].groupby('gender')['gender'].count()

gender
F    1484
M     690
Name: gender, dtype: int64

Aquí analice las mismas relaciones, pero en este caso con los valores ausentes de la columna total_income obteniendo los mismos resultados. Una vez comprado que ambas columnas estan relacionadas. 

**Conclusiones de los valores ausentes**

Las columnas 'total_income' y 'days_employed' tienen la misma cantidad de valores nulos.

Ambas columnas tienen los valores ausentes en las mimas filas. 

La relación de estas podría deberse a que estos clientes no quisieron compartir esa información o que es un simple error humano o sistemático. 

Por el momento no haremos ningún cambio a la tabla. 

## Transformación de datos

Vamos a comenzar por buscar datos duplicados y otros datos problematicos en cada columna. 

**education**

In [130]:
# Empezamos analizando la columna 'education'

credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Hemos encontrado que tenemos nombres repetidos por diferencias en el uso de letras mayúsculas y minúsculas. 

In [131]:
# Arreglaremos esto convirtiendo todas las entradas de esta columna a minúsculas. 

credit_scoring['education'] = credit_scoring['education'].str.lower()

In [132]:
# Aquí podemos verificar que al cambiar todos los datos de esta columna a minúsculas pudimos solucionar el problema. 

credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

**children**

Continuamos con la columna `children`

In [133]:
# Veamos la distribución de los valores en la columna 'children'

credit_scoring['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Tenemos dos valores que no parecen ser correctos. El -1. Es imposible tener -1 hijo. Y tenemos el 20. No estamos seguros, pero yo diría que no hay un cliente con esa cantidad de hijos. Por esto vamos a reemplazar estos valores con 1 y 2 respectivamente. 

In [134]:
# Aquí reemplazamos los -1 con 1 y los 20 con 2 
credit_scoring['children'] = credit_scoring['children'].replace([20,-1],[2,1])

In [135]:
# Comprobamos la columna 'children' de nuevo para asegurarnos de que todo está arreglado
credit_scoring['children'].unique()

array([1, 0, 3, 2, 4, 5])

**days_employed**


Ahora continuaremos con la columna `days_employed`. Ya sabemos que esta columna tenemos al menos tres problemas. 

        1. Tenemos valores negativos
        2. Tenemos valores ausentes
        3. Tenemos muchos decimales en cada valor.

In [136]:
# Porcentaje de valores problematicos en la columna 'days_employed'

negative_numbers = len(credit_scoring[credit_scoring['days_employed'] < 0])
missing_values = len(credit_scoring[credit_scoring['days_employed'].isna()])

proportion = (negative_numbers+missing_values) / len(credit_scoring) 
print("{:.0%}".format(proportion))

84%


Aquí podemos ver que la proporción de datos problemáticos es de un 84%. Esto incluye los números negativos, los valores ausentes, y decimales. Para resolver esto vamos a convertir los negativos en positivos y todos los números en enteros. Los valores ausentes los vamos a dejar tal como están por el momento.

In [137]:
# primero convertimos los valores negativos en positivos

credit_scoring.loc[credit_scoring['days_employed'] < 0,
                   'days_employed'] = -1 * credit_scoring.loc[credit_scoring['days_employed'] < 0, 'days_employed']

# Ahora convertimos todos los numeros a enteros
# Para lograr eso tuvimos que reemplazar los valores ausentes de la columna con '0'

credit_scoring['days_employed'] = credit_scoring['days_employed'].fillna(0).astype(int)

In [138]:
# Comprobando el resultado

print(len(credit_scoring[credit_scoring['days_employed'] < 0]))
credit_scoring

0


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,2113,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


Un problema adicional que vemos en esta columna es que tenemos valores muy grandes como el que vemos en la fila 4 de 'days_employed.' Si dividimos esta cantidad de días de trabajo por los 365 días que tiene un año, obtenemos un valor de 932 años trabajados. Vamos a averiguar cuantos valores como estos tenemos en esta columna. Para esto vamos a filtrar una tabla con todos los valores de ‘days_employed’ mayores a 100 años de trabajo (36500 días).

In [139]:
credit_scoring.loc[credit_scoring['days_employed'] > 36500,'days_employed'].count()

3445

Podemos ver que tenemos muchas celdas en la columna ‘days_employed’ con estos valores tan elevados. Si asumimos que este error se debe a que estos valores fueron introducidos como horas en vez de días entonces obtendríamos un valor más razonable de años de trabajo por cliente. 

Tomando el mismo ejemplo de la fila cuantro en la columna ‘days_employed,’ dividimos el valor por 24(horas) y luego por 365(días) y obtenemos un valor de 38 años de trabajo. 

Vamos a arreglar todos los valores superiores a 36500 días de trabajo dividiendo para 24 y asi quedarnos con días más exactos.

In [140]:
# Aquí dividimos todos los valores mayores a 36500 por 24

credit_scoring.loc[credit_scoring['days_employed'] > 36500,'days_employed'] = credit_scoring.loc[
    credit_scoring['days_employed'] > 36500,'days_employed'] /24

In [141]:
# Comprobamos que no tengamos más valores tan grandes

credit_scoring.loc[credit_scoring['days_employed'] > 36500,'days_employed'].count()

0

In [142]:
# Comprobamos que no tengamos más valores tan grandes

credit_scoring.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.0,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.0,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.0,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.75,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


Ahora podemos ver que todos los valores de nuestra columna estan arreglados. 

**dob_years**

Ahora analizaremos los valores de la columna `dob_years`

In [143]:
# Analizamos los valores únicos de la columna

credit_scoring['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

Podemos ver que el único numero extraño seria el 0 ya que no podemos tener clientes de esta edad. Esto podría deberse a un error de escritura o simplemente estas personas no quisieron decir su edad. 

In [144]:
# Analizamos la cantidad de valores con 0 tenemos

len(credit_scoring.loc[credit_scoring['dob_years'] == 0])

101

Analizaremos si existe algún patrón de estos valores de 0. 

In [145]:
# Creamos una nueva tabla que nos ayudara en el análisis

missing_years = credit_scoring.loc[credit_scoring['dob_years'] == 0]

# Analizamos la correlación entre los valores de 0 y la columna ‘gender’

missing_years.groupby('gender')['dob_years'].count()

gender
F    72
M    29
Name: dob_years, dtype: int64

In [146]:
# Analizamos la correlación entre los valores de 0 y la columna ‘family_status’

missing_years.groupby('family_status')['dob_years'].count()

family_status
civil partnership    21
divorced             10
married              49
unmarried            16
widow / widower       5
Name: dob_years, dtype: int64

In [147]:
# Analizamos la correlación entre los valores de 0 y la columna ‘income_type’

missing_years.groupby('income_type')['dob_years'].count()

income_type
business         20
civil servant     6
employee         55
retiree          20
Name: dob_years, dtype: int64

No se ha encontrado un patrón claro. Podemos ver que la mayoría de estas personas son casadas y están trabajando, yo pensaría que la edad de estas personas estaría entre los 20 y 50 años, pero este no es un valor exacto con el que podamos remplazar esos valores. Por eso, cambiaremos los 0s por la mediana de todas las edades. He decidido usar la mediana ya que esta no me traerá problemas de decimales, además la media y la mediana de edades no varían mucho. 

In [148]:
# Aquí reemplazamos los 0s con la mediana de las edades

dob_years_mean = int(credit_scoring['dob_years'].median())
credit_scoring['dob_years'] = credit_scoring['dob_years'].replace(
    0,dob_years_mean)

In [149]:
# Comprobando el resultado

credit_scoring['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

**family_status**

Ahora revisemos la columna `family_status`

In [150]:
# Veamos los valores unicos de la columna

credit_scoring['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [151]:
# Solo hare unos pequeños cambios con los nombres 'widow / widower' y 'unmarried'

credit_scoring['family_status'] = credit_scoring['family_status'].replace(
    ['widow / widower','unmarried'],['widow/widower','single'])

In [152]:
# Comprobando el resultado

credit_scoring['family_status'].unique()

array(['married', 'civil partnership', 'widow/widower', 'divorced',
       'single'], dtype=object)

**gender**

Ahora revisemos la columna `gender`

In [153]:
# Veamos los valores en la columna
credit_scoring['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

Tenemos un valor raro ‘XNA.’ Veamos si encontramos algún patrón para saber cómo sustituirlo. 

In [154]:
# filtramos una tabla para saber cuántos valores de estos tenemos y si existe algún patrón

credit_scoring[credit_scoring['gender'] == 'XNA']


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.0,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


Solo tenemos un valor como este. No podríamos encontrar ningún patrón, por lo tanto, cambiare ese valor por ‘F’. No hace daño tener un valor más de ‘F’ en nuestro dataset. 

In [155]:
# Reemplazamos 'XNA' por 'F'

credit_scoring['gender'] = credit_scoring['gender'].replace('XNA','F')

In [156]:
# Comprobamos el resultado 
print(credit_scoring['gender'].unique())
credit_scoring[credit_scoring['gender'] == 'XNA']


['F' 'M']


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


**income_type**

Ahora vamos a revisar la columna `income_type`

In [157]:
# Veamos los valores en la columna
credit_scoring['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [158]:
# Solo hare unos pequeños cambios con el valor ‘paternity / maternity leave’

credit_scoring['income_type'] = credit_scoring['income_type'].replace(
    'paternity / maternity leave','paternity/maternity')

In [159]:
# Comprobando el resultado 
credit_scoring['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity/maternity'], dtype=object)

**Datos duplicados**

Ahora veamos si hay duplicados en nuestros datos.

In [160]:
# Comprobar los duplicados

credit_scoring.duplicated().sum()

72

La cantidad de duplicados no es muy grande y no tenemos una manera de identificar cada usuario por separado como un user_id o algo parecido. Puede que estos duplicados no sean errores y sean simplemente personas que comparten características similares. Por esta razón no vamos a eliminar los duplicados y vamos a continuar trabajando con ellos.

In [161]:
# Comprobando el tamaño del conjunto de datos que tenemos ahora, después de haber ejecutado estas primeras manipulaciones

credit_scoring.shape

(21525, 12)

Tenemos la misma cantidad de filas y columnas ya que no hemos eliminado duplicados ni ninguna fila por alguna otra razón.

# Trabajar con valores ausentes

In [162]:
# Dicionario de education
credit_scoring.set_index('education_id')['education'].to_dict()

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [163]:
# Dicionario de family status
credit_scoring.set_index('family_status_id')['family_status'].to_dict()

{0: 'married',
 1: 'civil partnership',
 2: 'widow/widower',
 3: 'divorced',
 4: 'single'}

### Restaurar valores ausentes en `total_income`

Antes de decidir cómo vamos a abordar los valores ausentes en esta columna, vamos a crear una nueva columna agrupando por edades. Esta nueva columna nos ayudará mas tarde en saber cómo abordar los datos ausentes. 


In [164]:
# Vamos a escribir una función que calcule la categoría de edad
def age_category(age):
    if age < 30:
        return '19-29'
    elif age < 40:
        return '30-39'
    elif age < 50:
        return '40-49'
    elif age < 60:
        return '50-59'
    elif age < 70:
        return '60-69'
    else:
        return '70+'    

In [167]:
# Prueba de función 

numbers = [19,22,35,44,52,65,75,80]

for num in numbers:
    category = age_category(num)
    print(category)

19-29
19-29
30-39
40-49
50-59
60-69
70+
70+


In [168]:
# Creamos la nueva columna

credit_scoring['age_category'] = credit_scoring['dob_years'].apply(age_category)

In [169]:
# Comprobamos los valores de la nueva columna

credit_scoring.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.0,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.0,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.0,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,14177.75,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.0,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,19-29
6,0,2879.0,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.0,50,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.0,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.0,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


**¿Qué factores pueden influenciar los ingresos de una persona?**

Para poder saber cómo reemplazar los valores ausentes tenemos que hacernos esta pregunta. 
Puede haber muchas razones que influyan en la cantidad de ingresos de una persona tales como: 

    1.Su nivel de experiencia laboral
    
    2.Su tipo de trabajo
    
    3.Su edad
    
    4.Su nivel de educación
    
Vamos a tener que usar esta información para decir la mejor manera de abordar los datos ausentes de esta columna. 


Vamos a crear una tabla sin valores ausentes que nos ayudara a descifrar que factores influyen a ingreso mensual de una persona. 

In [170]:
# Creamos la tabal sin valores ausentes 

no_missing_values = credit_scoring.loc[credit_scoring['days_employed'] > 0]
no_missing_values.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.0,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.0,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.0,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,14177.75,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.0,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,19-29
6,0,2879.0,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.0,50,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.0,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.0,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


In [171]:
# Examinamos los valores medios de los ingresos en función a la edad

no_missing_values.pivot_table(index='age_category',values='total_income',aggfunc='mean')

Unnamed: 0_level_0,total_income
age_category,Unnamed: 1_level_1
19-29,25533.960641
30-39,28312.479963
40-49,28491.929026
50-59,25811.700327
60-69,23242.812818
70+,20125.658331


In [172]:
# Examinamos los valores medios de los ingresos en función a la educaion

no_missing_values.pivot_table(index='education',values='total_income',aggfunc='mean')

Unnamed: 0_level_0,total_income
education,Unnamed: 1_level_1
bachelor's degree,33142.802434
graduate degree,27960.024667
primary education,21144.882211
secondary education,24594.503037
some college,29045.443644


In [173]:
# Examinamos los valores medios de los ingresos en función a la educaion y la edad

no_missing_values.pivot_table(index=['age_category','education'],values='total_income',aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
age_category,education,Unnamed: 2_level_1
19-29,bachelor's degree,29395.106109
19-29,primary education,27695.27152
19-29,secondary education,23379.052855
19-29,some college,25292.291928
30-39,bachelor's degree,34225.243752
30-39,graduate degree,18187.3015
30-39,primary education,21979.584515
30-39,secondary education,25666.783012
30-39,some college,31991.246531
40-49,bachelor's degree,35497.434965


In [174]:
# Examinamos los valores medios de los ingresos en función al tipo de ingreso

no_missing_values.pivot_table(index='income_type',values='total_income',aggfunc='mean')

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
business,32386.793835
civil servant,27343.729582
employee,25820.841683
entrepreneur,79866.103
paternity/maternity,8612.661
retiree,21940.394503
student,15712.26
unemployed,21014.3605


In [175]:
# Examinamos los valores medios de los ingresos en función al tipo de ingreso y educaion

no_missing_values.pivot_table(index=['income_type','education'],values='total_income',aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
income_type,education,Unnamed: 2_level_1
business,bachelor's degree,38780.136881
business,primary education,26409.124931
business,secondary education,28718.435242
business,some college,31623.893705
civil servant,bachelor's degree,31571.287664
civil servant,graduate degree,17822.757
civil servant,primary education,29449.016667
civil servant,secondary education,24648.816597
civil servant,some college,27596.312587
employee,bachelor's degree,30650.288996


Tras analizar las diferentes posibilidades, he decidido utilizar la tabla filtrada con las edades y educación ya que el ingreso de una persona se ve afectada de su nivel de estudios y su nivel de experiencia y mayormente mientras más edad tiene una persona tiene más experiencia en su ámbito laboral. Sé que estas condiciones no se cumplen siempre, sin embargo, usare esa tabla para poder hacer el reemplazo de los valores ausentes en nuestro dataframe. 

In [176]:
# Creamos la tabla filtrada con los valores de edad y educaion

income_table = no_missing_values.pivot_table(index=['age_category','education'],values='total_income',aggfunc='mean')

In [180]:
#  Escribimos una función que usaremos para completar los valores ausentes

def income(row):
    age_category = row['age_category']
    education = row['education']
    total_income = row['total_income']

    if pd.isna(total_income):
        try:
            return income_table['total_income'][age_category][education]
        except:
            return None
        else:
            return total_income 

In [181]:
# Comprobamos si funciona
print(income(credit_scoring.iloc[12]))
print()
print(income(credit_scoring.iloc[26]))
print()
print(income(credit_scoring.iloc[29]))
print()
print(income(credit_scoring.iloc[41]))


21691.51549816846

26146.581637926192

21691.51549816846

24057.271659884533


In [182]:
# Lo aplicamos a cada fila

credit_scoring['total_income'] = credit_scoring.apply(income,axis=1)

In [183]:
# Comprueba si tenemos algún error

credit_scoring.loc[credit_scoring['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.000000,42,bachelor's degree,0,married,0,F,employee,0,,purchase of the house,40-49
1,1,4024.000000,36,secondary education,1,married,0,F,employee,0,,car purchase,30-39
2,0,5623.000000,33,secondary education,1,married,0,M,employee,0,,purchase of the house,30-39
3,3,4124.000000,32,secondary education,1,married,0,M,employee,0,,supplementary education,30-39
4,0,14177.750000,53,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding,50-59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.000000,43,secondary education,1,civil partnership,1,F,business,0,,housing transactions,40-49
21521,0,14330.708333,67,secondary education,1,married,0,F,retiree,0,,purchase of a car,60-69
21522,1,2113.000000,38,secondary education,1,civil partnership,1,M,employee,1,,property,30-39
21523,3,3112.000000,38,secondary education,1,married,0,M,employee,1,,buying my own car,30-39


Podemos ver que ya no tenemos valores ausentes en la columna 

In [184]:
# Comprobamos el número de entradas en las columnas

len(credit_scoring['total_income'])

21525

###  Restaurar valores en `days_employed`

Al igual que hicimos en columna ‘total_icome’ vamos a tener que buscar patrones que nos ayuden a decidir con que valores reemplazar los valores ausentes en esta columna 

In [185]:
# Distribución de las medianas de `days_employed` en función de la edad

no_missing_values.pivot_table(index='age_category',values='days_employed',aggfunc='median')

Unnamed: 0_level_0,days_employed
age_category,Unnamed: 1_level_1
19-29,998.5
30-39,1601.0
40-49,2108.0
50-59,4796.0
60-69,14801.208333
70+,15055.6875


In [186]:
# Distribución de las medias de `days_employed` en función de la edad

no_missing_values.pivot_table(index='age_category',values='days_employed',aggfunc='mean')

Unnamed: 0_level_0,days_employed
age_category,Unnamed: 1_level_1
19-29,1242.970903
30-39,2103.200439
40-49,3094.041895
50-59,7541.263114
60-69,12657.309467
70+,13873.70651


Al analizar estos datos podemos ver que a medida que los anos avanzan también incrementan los días de antigüedad en el trabajo. Por esta razón vamos a utilizar estos datos para reemplazar los valores en nuestra columna. 

Vemos que la diferencia entra la mediana y la media es bastante; y ya que la mediana es menor que la media nos indica que la distribución de la información no es simétrica; por ende, la media no será un buen valor para medir el valor céntrico de los datos. En ese caso, usaremos la mediana.


In [187]:
# Creamos una nueva tabla con la relación de edad y días de antigüedad en el trabajo

seniority_median = no_missing_values.pivot_table(index='age_category',values='days_employed',aggfunc='median')

In [188]:
seniority_median.head()

Unnamed: 0_level_0,days_employed
age_category,Unnamed: 1_level_1
19-29,998.5
30-39,1601.0
40-49,2108.0
50-59,4796.0
60-69,14801.208333


In [189]:
# Escribimos una función que calcule las medianas según la edad

def seniority(row):
    age_category = row['age_category']
    days_employed = row['days_employed']

    if days_employed == 0:
        try:
            return seniority_median['days_employed'][age_category]
        except:
            return None
        else:
            return days_employed 

In [190]:
# Comprobamos que la función funciona

print(seniority(credit_scoring.iloc[12]))
print()
print(seniority(credit_scoring.iloc[26]))
print()
print(seniority(credit_scoring.iloc[41]))

14801.208333333334

2108.0

4796.0


In [None]:
# Aplicamos la función al la tabla

credit_scoring['days_employed'] = credit_scoring.apply(seniority,axis=1)

In [None]:
# Comprobamos si la función funcionó

print(credit_scoring.iloc[12,1])
print()
print(credit_scoring.iloc[26,1])
print()
print(credit_scoring.iloc[41,1])

In [None]:
# Comprobamos si ya no tenemos mas valores ausentes

credit_scoring.loc[credit_scoring['days_employed'] == 0]

In [None]:
# Comprobamos que no existan valores ausentes en todas las columnas

credit_scoring.info()

## Clasificación de datos


Una de las preguntas que necesitamos responder es si el propósito del préstamo influye en el pago de deudas a tiempo. Ya que en la columna `purpose` tenemos muchos valores únicos, vamos a hacer una mejor clasificación quedándonos solo con las siguientes categorías. 

Housing

Car

Education

Real estate

Wedding


Otra de las preguntas es si el estado económico influye en el pago de deudas a tiempo. Como la columna de ‘total_income’ tiene demasiados valores únicos, vamos a hacer una clasificación de tres categorías utilizando los siguientes rangos 

$ 0.00 - 10.000 = ‘low income’

$ 10.000 - 20.000 = ‘middle income’

$ 20.000 + = ‘upper income’


**purpose_category**

In [None]:
# Mostramos los valores unicos de columna 'purpose' para saber como trabajar con estos valores

credit_scoring['purpose'].unique()

Podemos ver que tenemos muchos valores únicos. Pero también nos podemos darnos cuenta que muchos de estos son similares como, por ejemplo, tenemos varios que nos indican que la persona desea comprarse un carro o una casa. Por esto vamos a hacer la clasificación de una manera más eficiente tal como lo especificamos al inicio de esta sección. 

In [None]:
# Comprobamos cuantos valores unicos tenemos

len(credit_scoring['purpose'].unique())

Ahora vamos a agrupar a todos los valores de la siguiente manera:

    1.Todos los que nos indiquen sobre la compra de una casa en la categoría ‘housing’
    2.Todos los que nos indiquen sobre la compra de un carro en la categoría ‘car’
    3.Todos los que nos indiquen sobre la compra de real estate en la categoría ‘real estate’
    4.Todos los que nos indiquen educación en la categoría ‘education’
    5.Todos los que nos indiquen sobre una boda en la categoría ‘wedding’


In [None]:
# Escribamos una función para clasificar los datos

def purpose_category(row):
    if ('hous' in row) or ('property' in row):
        return 'housing'
    elif ('educat'  in row) or ('university' in row):
        return 'education'
    elif 'car' in row:
        return 'car'
    elif 'real estate' in row:
        return 'real estate'
    elif 'wedding' in row:
        return 'wedding'
    else:
        return 'other'

In [None]:
# Creamos una columna con las categorías que planeamos

credit_scoring['purpose_category'] = credit_scoring['purpose'].apply(purpose_category)
credit_scoring.head(10)

In [None]:
# Exploramos cuantos valores tenemos en cada categoría 

credit_scoring.groupby('purpose_category')['purpose_category'].count()

**income_category**

In [None]:
# Ahora revisamos los datos de la columna 'total_income'

credit_scoring['total_income'].sort_values().unique()

In [None]:
# Obtenemos la cantidad de valores unicos

len(credit_scoring['total_income'].unique())

Ya que tenemos muchos valores únicos vamos a agrupar los valores de la manera ya especificada anteriormente. Esto es usando el siguiente rango:

$ 0.00 - 10.000 = ‘low income’

$ 10.000 - 20.000 = ‘middle income’

$ 20.000 + = ‘upper income’


In [None]:
# Creamos una función para clasificar en diferentes grupos numéricos basándose en rangos

def income_category(row):

    if row > 20000:
        return 'upper income'
    elif row < 10000:
        return 'low income'
    else:
        return 'middle income'

In [None]:
# Creamos una columna con las categorías

credit_scoring['income_category'] = credit_scoring['total_income'].apply(income_category)
credit_scoring.head(10)

In [None]:
# Contamos los valores de cada categoría para ver la distribución

credit_scoring.groupby('income_category')['income_category'].count()

## Comprobación de las hipótesis


Ahora utilizaremos nuestro DataFrame ya modificado para poder responder las preguntas y probar las hipótesis de nuestro proyecto. 

In [None]:
# Obtenemos la cantidad de personas que han faltado a una deuda 

len(credit_scoring.loc[credit_scoring['debt'] == 1])

Tenemos un total de 1741 deudores.

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
# Creamos una tabla que contenga solo las filas de aquellos que nunca han faltado en sus pagos

on_time = credit_scoring.loc[credit_scoring['debt'] == 0]

# Creamos una tabla para ver relación entre los que han pagado y la cantidad de hijos

on_time.pivot_table(index='children',values='debt',aggfunc='count')

A simple vista podríamos decir que las personas con menos hijos son mejores pagando sus deudas. Sin embargo, aún no vemos el escenario completo. 

In [None]:
# Calculamos la tasa de incumplimiento en función del número de hijos

credit_scoring.pivot_table(index='children',values='debt',aggfunc=['count','sum','mean'])

**Conclusión**

En este grafico la media nos indica la tasa de incumplimiento según el número de hijos. Podríamos decir que los clientes con 5 hijos y aquellos sin hijos son los mejores pagando sus deudas ya que tienen las tasas más bajas de incumplimiento. Podemos ver que la tasa aumenta a mediad que aumenta los hijos, exceptuando claro a aquellos clientes con 3 hijos ya que en tal caso la tasa de incumplimiento disminuye un poco. 

He agregado a esta tabla un ‘count’ y un ‘sum’ para poder ver las proporciones de los datos que estamos analizando. Desde mi punto de vista deberíamos tener una cantidad de datos más parejo para que nuestro análisis sea más preciso. Si observamos bien, tenemos solo 9 personas en la categoría de 5 hijos y todos han pagado sus deudas, si aumentáramos dos personas a esta categoría que no hayan pagado sus deudas el resultado sería totalmente diferente. 


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Comprobamos los datos del estado familiar y los pagos a tiempo

on_time.pivot_table(index='family_status',values='debt',aggfunc='count')

A simple vista podrimos decir que aquellas personas casadas son aquellas que pagan más sus deudas. Sin embargo, aún tenemos que hacer más análisis antes de llegar a una conclusión. 

In [None]:
# Calculamos la tasa de incumplimiento basada en el estado familiar

credit_scoring.pivot_table(index='family_status',values='debt',aggfunc=['count','sum','mean'])

**Conclusión**

Al analizar esta nueva tabla podemos ver que las personas que cumplen mas con sus deudas son aquellas que han enviudado ya que ellas tienen la tasa más baja de incumplimiento.  A esto le siguen los divorciados y casados. Y los que menos pagan sus deudas según esta clasificación serían los solteros y los que viven en unión libre. 

Sin embargo, tenemos el mismo problema de proporciones que en la tabla pasada. 


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Comprobamos los datos del nivel de ingresos y los pagos a tiempo

on_time.pivot_table(index='income_category',values='debt',aggfunc='count')

A simple vista podríamos decir que las personas con un ingreso alto son las mejores pagando sus deudas.  Sin embargo, el análisis continua. 

In [None]:
# Calculamos la tasa de incumplimiento basada en el nivel de ingresos

credit_scoring.pivot_table(index='income_category',values='debt',aggfunc=['count','sum','mean'])

**Conclusión**

Al analizar esta nueva tabla podemos ver que aquellas personas con un ingreso bajo son mejores pagando sus deudas que aquellas con ingresos muy altos ya que la categoría de ‘low income’ tiene la tasa más baja de incumplimiento. Y además podemos ver que mientas más alto el ingreso, al alta la tasa de incumplimiento. 

En este análisis también tenemos el mismo problema de proporciones que en nuestros análisis anteriores. 

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Consultamos los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

credit_scoring.pivot_table(index='purpose_category',values='debt',aggfunc=['count','sum','mean'])

**Conclusión**

Aquí podemos ver que las personas que piden un préstamo para comprarse una casa son mejores pagando sus deudas ya que tienen la tasa más baja de incumplimiento; seguido por los que adquiere un préstamo para bienes raíces y una boda. Dejando a aquellos que hacen préstamo para un auto y educación con las tasas más altas de incumplimiento. 

# Conclusión general 

**Errores generales**

Arreglamos los valores -1 y 20 de la columna ‘children’ al remplazarlos con los números 1 y 2. Asumimos que este fue un error al momento de ingresar estos valores en el dataframe. 

Arreglamos el valor 0 de la columna ‘dob_years’ al reemplazarlo con la mediana de las todas las edades. Intentamos buscar algún patrón que nos indicara la edad de aquellos con este valor 0 pero no encontramos ninguno.

Arreglamos los valores negativos de la columna ‘days_employed’ al multiplicar estos valores negativos por -1. Asumimos que estos valores fueron debido a algún error humano o sistemático. 

Arreglamos los valores muy grandes de la columna ‘days_employed’ al dividirlos por 24. Asumimos que estos valores se habían introducido como horas en vez de días de trabajo. 

Convertimos todos los valores de columna ‘days_employed’ en enteros para un mejor manejo de ellos. 

Arreglamos los valores de la columna ‘education’ al cambiarlos todos a minúsculas. 

Arreglamos algunos valores categóricos de las columnas ‘family_status,’ ‘income_type’ y ‘gender’ para un mejor manejo. 

**Valores ausentes**

Las columnas ‘days_employed’ y ‘total_income’ compartían las mismas filas en sus valores ausentes. 

Se concluyó que los valores ausentes fueron aleatorios ya que no se encontró ningún patrono obvio. La ausencia de valores se pudo deber a errores humanos o sistemáticos. 

Reemplazamos los valores ausentes de la columna ‘days_employed’ con la mediana de la categorización de edad y días de empleo del resto de los clientes. 

Reemplazamos los valores ausentes de ‘total_income’ con la media de la categorización de edad, educación, e ingresos totales del resto de los clientes. 

**Valores duplicados**

Decidimos no eliminar los valores duplicados ya que eran muy pocos y tampoco teníamos alguna columna con datos únicos por cliente como un user_id o algo parecido para saber con certeza que los datos sin son duplicados. 

**Clasificación de datos**

Creamos una nueva columna clasificando los datos por rangos de edades.

Creamos una nueva columna clasificando los datos por propósito del préstamo.

Creamos una nueva columna clasificando los datos por rangos de ingresos. 

Todas estas columnas nos ayudaron a hacer un mejor análisis para responder nuestras preguntas. 

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

Las personas sin hijos y las personas con 5 hijos tiene la tasa más baja de incumplimiento de pagos.

Las personas con 1,2, y 4 hijos tiene las tasas más altas de incumplimiento. Se ve un incremento en la tasa de incremento al incrementar la cantidad de hijos exceptuando las familias con 3 y 5 hijos. 

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

Las personas viudas tienen la tasa de incumplimiento más baja seguido de las personas divorciadas y casadas. 

Las personas solteras y en unión libre tiene la tasa de incumplimiento más alta. 

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

Las personas con ingresos bajos tienen la tasa de incumpliendo más baja. 

Las personas con ingresos medios tienen la tasa de incumplimiento mas alta seguido de las personas con ingresos altos. 

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

Las personas que presan dinero para comprar su casa tiene la tasa de incumplimiento más baja seguido por las personas que hace un préstamo para bienes raíces y bodas. 
Las personas que prestan dinero para un auto o educación tiene las tasas de incumplimiento más altas. 

