# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

[En este cuaderno se te brindan pistas, breves instrucciones y sugerencias para pensar. No los ignores, ya que están diseñados para equiparte con la estructura del proyecto y te ayudarán a analizar lo que estás haciendo en un nivel más profundo. Antes de enviar tu proyecto, asegúrate de eliminar todas las sugerencias y descripciones que se te hayan proporcionado. Más bien, haz que este informe parezca como si se lo estuvieras enviando a tus compañeros de equipo para demostrar tus hallazgos: ¡no deben saber que recibiste ayuda externa de nuestra parte! Para ayudarte, hemos colocado las pistas que debes eliminar entre corchetes.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

## Abre el archivo de datos y mira la información general. 

In [2]:
# Cargar todas las librerías
import pandas as pd
import numpy as np

# Carga los datos
try:
    credit = pd.read_csv('credit_scoring_eng.csv')
except:
    credit = pd.read_csv('/datasets/credit_scoring_eng.csv')
credit_original = credit

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Ahora vamos a explorar nuestros datos. Querrás ver cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.]

In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
print(credit.shape)


(21525, 12)


In [4]:
# vamos a mostrar las primeras filas N
credit.head(50)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


<font color=green>
Contamos con 21525 filas y 12 columnas. Además podemos observar lo siguiente:
    
- `days_employed` : veo valores negativos y con decimales. Me gustaría preguntar el porqué, a la persona quién me haya pasado la tabla.
- `education` : Es probable que tengamos varias formas diferentes de tener escrito el tipo de educación. Habrá que limpiar y reemplazar esta lista.
- `family_status` : Podríamos tener el mismo problema como con "education".
- `purpose` : Es probable que haya muchas razones diferentes, pero parecidas. Se podría agrupar en categorías generales.

</font>

In [5]:
# Obtener información sobre los datos
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 1.6+ MB


<font color=green>
Tenemos valores ausentes en las columnas days_employed y total_income. Algo llama la atención, la cantidad es la misma.    
    
</font>

In [6]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit_days_employed = credit[credit['days_employed'].isna()]
credit_days_employed.head(30)



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [7]:
credit_total_income = credit[credit['total_income'].isna()]
credit_total_income.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
credit_filtrada = (credit['total_income'].isna() & credit['days_employed'].isna())
print(credit_filtrada.value_counts(normalize = False))


False    19351
True      2174
dtype: int64


<font color=green>
Los valores ausentes parecen simétricos. Pero no podemos estar 100% seguros de esto. Tenemos que seguir investigando.
</font>

In [9]:
print(credit_filtrada.value_counts(normalize = True)*100, '%')

False    89.900116
True     10.099884
dtype: float64 %


**Conclusión intermedia**


<font color=green>
La cantidad de valores ausentes de la tabla filtrada, coincide con el número de valores ausentes de la tabla general. Siendo estos un 10%. Pero aún no podemos estar seguros de que podríamos completar todos los valores de forma general. Porque     
</font>

In [10]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
filtro_retirado = (credit['income_type'] == 'retiree')
filtro_retirado_1 = (credit['income_type'] == 'civil servant')
filtro_retirado_2 = (credit['income_type'] == 'employee')
filtro_education_id = (credit['education_id'] == 1)
filtro_education_id_1 = (credit['education_id'] == 2)
filtro_children = (credit['children'] == 0)
filtro_children_1 = (credit['children'] == 1)




In [11]:
# Comprobación de la distribución
credit[filtro_retirado]['total_income'].isna().value_counts(normalize = True)*100

False    89.289419
True     10.710581
Name: total_income, dtype: float64

In [12]:
credit[filtro_retirado_1]['total_income'].isna().value_counts(normalize = True)*100

False    89.924606
True     10.075394
Name: total_income, dtype: float64

In [13]:
credit[filtro_retirado_2]['total_income'].isna().value_counts(normalize = True)*100

False    90.062056
True      9.937944
Name: total_income, dtype: float64

<font color=green>
    Vemos que la cantidad de valores ausentes de Total_Income que son 'retiree' y 'civil servant es el 10%
</font>

In [14]:
credit[filtro_education_id]['total_income'].isna().value_counts(normalize = True)*100

False    89.89037
True     10.10963
Name: total_income, dtype: float64

In [15]:
credit[filtro_education_id_1]['total_income'].isna().value_counts(normalize = True)*100

False    90.725806
True      9.274194
Name: total_income, dtype: float64

<font color=green>
Vemos que la cantidad de valores ausentes de total_income que tienen 'education_id' es el 10%    
</font>

In [16]:
credit[filtro_children]['total_income'].isna().value_counts(normalize = True)*100

False    89.82967
True     10.17033
Name: total_income, dtype: float64

In [17]:
credit[filtro_children_1]['total_income'].isna().value_counts(normalize = True)*100

False    90.141137
True      9.858863
Name: total_income, dtype: float64

<font color=green>
Vemos que la cantidad de valores ausentes de total_income que tienen 0 o 1 hijos, es el 10%
</font>

<font color=green>
Según lo observado, las posibles razones de por qué hay datos ausentes es:
    
* 1) Puede que no tengan trabajo en este momento. Y en vez de escribir un 0, lo dejaron vacío.
* 2) Puede que tengan trabajo, pero no es con sueldo estable y bajo contrato.
* 3)Los valores podrían estar ausentes por la forma que se obtuvieron, guardaron o entregaron los datos.

Según lo notado, la ausencia de datos no es al azar. Ya que siempre faltan en las mismas filas. Por lo tanto, debiese seguir un patrón.
    
</font>

In [18]:
# Comprobando la distribución en el conjunto de datos entero


print((credit.loc[:,['total_income', 'days_employed']].count()/credit_filtrada.count())*100,'%')



total_income     89.900116
days_employed    89.900116
dtype: float64 %


**Conclusión intermedia**

[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

[Si crees que aún no podemos llegar a ninguna conclusión, investiguemos más a fondo nuestro conjunto de datos. Pensemos en otras razones que podrían llevar a la ausencia de datos y verifiquemos si podemos encontrar algún patrón que nos haga pensar que los valores ausentes no son aleatorios. Ya que es tu trabajo, esta sección es opcional.]

In [19]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes

#No entender/OPCIONAL

**Conclusión intermedia**

[¿Podemos finalmente confirmar que los valores ausentes son accidentales? Verifica cualquier otra cosa que creas que podría ser importante aquí.]

In [20]:
# Comprobación de otros patrones: explica cuáles

##NO ENTENDER/OPCIONAL

**Conclusiones**

[¿Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?]

[Explica cómo abordarás los valores ausentes. Ten en cuenta las categorías en las que faltan valores.]

[Planifica brevemente tus próximos pasos en la transformación de datos. Probablemente tendrás que abordar diferentes tipos de problemas: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.]

## Transformación de datos


<font color=green>
Repasando la columna de 'education', vemos que tenemos la misma educación escrita de diferentes formas. Vamos a corregirla dejando todas en minusculas
</font>

In [21]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print(credit['education'].unique())

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [22]:
# Arregla los registros si es necesario
credit['education'] = credit['education'].str.lower()

In [23]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
print(credit['education'].unique())


["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']


In [24]:
# Veamos la distribución de los valores en la columna `children`
print(credit.groupby('children')['children'].count())

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64


<font color=green>
Tenemos 47 personas con hijos negativos y 76 personas con 20 hijos. Porcentualmente no es mucho, 0.5%. Podríamos arreglarlo fácilmente, transformando el -1 en 1 hijo y los 20 en 2 hijos.
</font>

In [25]:
# [arregla los datos según tu decisión]
credit['children'] = credit['children'].replace(-1, 1)
credit['children'] = credit['children'].replace(20, 2)

In [26]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
print(credit.groupby('children')['children'].count())


children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


In [27]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
print(credit['days_employed'].head())


print(credit['days_employed'].isna().value_counts(normalize = True)*100 , '%')

0     -8437.673028
1     -4024.803754
2     -5623.422610
3     -4124.747207
4    340266.072047
Name: days_employed, dtype: float64
False    89.900116
True     10.099884
Name: days_employed, dtype: float64 %


<font color=green>
Con ver las primeras 5 filas del DataFrame, observamos valores negativos. Y un valor un excesivo de días empleados (340.266 días son 932 años.

Primero debemos transformar los datos negativos a positivos y después ajustarlos al valor real según la edad. Podríamos pensar que los números indicados, son en horas y no días.

</font>

In [28]:
# Aborda los valores problemáticos, si existen.
credit['days_employed'] = credit['days_employed'].abs()


In [29]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(credit['days_employed'].head())

0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4    340266.072047
Name: days_employed, dtype: float64


Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.]

In [30]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje


print((credit['dob_years'].value_counts(normalize = True).sort_index())*100)



0     0.469222
19    0.065041
20    0.236934
21    0.515679
22    0.850174
23    1.180023
24    1.226481
25    1.658537
26    1.895470
27    2.290360
28    2.336818
29    2.531940
30    2.508711
31    2.601626
32    2.369338
33    2.699187
34    2.801394
35    2.866434
36    2.578397
37    2.494774
38    2.778165
39    2.662021
40    2.829268
41    2.819977
42    2.773519
43    2.383275
44    2.541231
45    2.308943
46    2.206736
47    2.229965
48    2.499419
49    2.360046
50    2.387921
51    2.081301
52    2.248548
53    2.132404
54    2.225319
55    2.058072
56    2.262485
57    2.137050
58    2.141696
59    2.062718
60    1.751452
61    1.649245
62    1.635308
63    1.249710
64    1.231127
65    0.901278
66    0.850174
67    0.775842
68    0.459930
69    0.394890
70    0.301974
71    0.269454
72    0.153310
73    0.037166
74    0.027875
75    0.004646
Name: dob_years, dtype: float64


<font color=green>
Vemos un pequeño porcentaje de datos con años 0. Procederemos a eliminarlos porque no es un valor que nos influirá en nuestro analisis
</font>

In [31]:
# Resuelve los problemas en la columna `dob_years`, si existen

credit_years = credit[credit['dob_years'] == 0]
credit_years.head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.23,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.31,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car


In [32]:
indexAge = credit[(credit['dob_years'] == 0)].index
credit.drop(indexAge , inplace=True)

In [33]:
# Comprueba el resultado - asegúrate de que esté arreglado
print((credit['dob_years'].value_counts(normalize = True).sort_index())*100)

19    0.065347
20    0.238051
21    0.518111
22    0.854182
23    1.185586
24    1.232263
25    1.666355
26    1.904406
27    2.301158
28    2.347834
29    2.543876
30    2.520538
31    2.613891
32    2.380508
33    2.711912
34    2.814600
35    2.879948
36    2.590553
37    2.506535
38    2.791262
39    2.674571
40    2.842606
41    2.833271
42    2.786594
43    2.394511
44    2.553211
45    2.319828
46    2.217140
47    2.240478
48    2.511202
49    2.371173
50    2.399178
51    2.091113
52    2.259149
53    2.142457
54    2.235810
55    2.067774
56    2.273152
57    2.147125
58    2.151792
59    2.072442
60    1.759709
61    1.657020
62    1.643017
63    1.255601
64    1.236931
65    0.905527
66    0.854182
67    0.779500
68    0.462099
69    0.396751
70    0.303398
71    0.270724
72    0.154033
73    0.037341
74    0.028006
75    0.004668
Name: dob_years, dtype: float64


<font color=green>
    Resolvimos esto y ya no aparecen datos con años 0
</font>

<font color=green>
Revisaremos la columna `family_status`.
</font>

In [34]:
# Veamos los valores de la columna
print(credit['family_status'].unique())


['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


In [35]:
# Aborda los valores problemáticos en `family_status`, si existen



<font color=green>
    No vemos problemas con la columna 'family_status' no se procede a abordar ningún problema
  
</font>

In [36]:
# Comprueba el resultado - asegúrate de que esté arreglado


<font color=green>
Revisamos la columna 'gender'
</font>

In [37]:
# Veamos los valores en la columna
credit['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

<font color=green>
Tenemos 1 valor diferente. Se procede a añadirlo al 'gender' femenino por ser el predominante.
</font>

In [38]:
# Aborda los valores problemáticos, si existen
credit['gender'] = credit['gender'].replace('XNA', 'F')

In [39]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit['gender'].value_counts()


F    14165
M     7259
Name: gender, dtype: int64

<font color=green>
    Revisaremos la columna 'income_type'
</font>

In [40]:
# Veamos los valores en la columna
credit['income_type'].value_counts()

employee                       11064
business                        5065
retiree                         3836
civil servant                   1453
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

<font color=green>
    No se observa nada fuera de lo común. Hay 4 grupos con pocos valores solamente, puede que caigan en categoría de no ser aptos para un crédito. Puede que no.
</font>

In [41]:
# Aborda los valores problemáticos, si existen

In [42]:
# Comprueba el resultado - asegúrate de que esté arreglado



<font color=green>
    Analizaremos nuestros datos si llegase a haber duplicados.
</font>

In [43]:
# Comprobar los duplicados
print(credit.duplicated().value_counts())


False    21353
True        71
dtype: int64


<font color=green>
    Tenemos 71 valores duplicados, que eleminaremos.
</font>

In [44]:
# Aborda los duplicados, si existen
credit = credit.drop_duplicates().reset_index()

In [45]:
# Última comprobación para ver si tenemos duplicados
print(credit.duplicated().value_counts())

False    21353
dtype: int64


In [46]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
print(len(credit))

21353


In [47]:
print('Porcentaje:', 100-(len(credit))*100/len(credit_original), '%')

Porcentaje: 0.33140403286034825 %


<font color=green>
 Lo que hemos hecho, fue eliminar duplicados. Revisado valores extraños en cada columna y eliminado los valores desconocidos.
Si consideramos lo que hemos hecho, el porcentaje (0.3%) en cambios ha sido mínimo en los datos. 
</font>

# Trabajar con valores ausentes

In [48]:
# Encuentra los diccionarios
print(credit.info())



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 13 columns):
index               21353 non-null int64
children            21353 non-null int64
days_employed       19260 non-null float64
dob_years           21353 non-null int64
education           21353 non-null object
education_id        21353 non-null int64
family_status       21353 non-null object
family_status_id    21353 non-null int64
gender              21353 non-null object
income_type         21353 non-null object
debt                21353 non-null int64
total_income        19260 non-null float64
purpose             21353 non-null object
dtypes: float64(2), int64(6), object(5)
memory usage: 1.7+ MB
None


### Restaurar valores ausentes en `total_income`

In [49]:
# Vamos a escribir una función que calcule la categoría de edad
def age_cat(row):
    age = row['dob_years']
    if age <= 19:
        return '19'
    elif age <= 30:
        return '20 - 30'
    elif age <= 40:
        return '31 - 40'
    elif age <= 50:
        return '41 - 50'
    elif age <= 60:
        return '51 - 60'
    elif age <= 70:
        return '61 - 70'
    return '71-80'
    

In [50]:
# Prueba si la función funciona bien
print(age_cat(credit.loc[2111,:]))



20 - 30


In [51]:
# Crear una nueva columna basada en la función
credit['age_cat'] = credit.apply(age_cat, axis = 1)


In [52]:
# Comprobar cómo los valores en la nueva columna
credit.head(20)


Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60
5,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 30
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41 - 50
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41 - 50
8,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31 - 40
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41 - 50


<font color=green>
Factores, tales como 'income_type', 'age_cat' y 'education' podría depender el 'total_income'. Para poder reemplazar los valores ausentes, tendremos que averiguar los valores medio o medianos.
</font>

In [53]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
credit_nonan = credit.dropna()
credit_nonan.head(20)

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60
5,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 30
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41 - 50
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41 - 50
8,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31 - 40
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41 - 50


In [54]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
credit_education_avg = credit_nonan.groupby('education').agg({'total_income': 'mean'}).reset_index()
credit_education_avg

Unnamed: 0,education,total_income
0,bachelor's degree,33172.428387
1,graduate degree,27960.024667
2,primary education,21144.882211
3,secondary education,24600.353617
4,some college,29040.391842


In [55]:
credit_dob_years_avg = credit_nonan.groupby('age_cat').agg({'total_income': 'mean'}).reset_index()
print(credit_dob_years_avg.head(10))
credit_dob_years_avg.tail(10)

   age_cat  total_income
0       19  16993.942462
1  20 - 30  25851.885539
2  31 - 40  28376.735148
3  41 - 50  28390.207085
4  51 - 60  25482.856294
5  61 - 70  23245.390243
6    71-80  19575.454327


Unnamed: 0,age_cat,total_income
0,19,16993.942462
1,20 - 30,25851.885539
2,31 - 40,28376.735148
3,41 - 50,28390.207085
4,51 - 60,25482.856294
5,61 - 70,23245.390243
6,71-80,19575.454327


In [56]:
credit_income_type_avg = credit_nonan.groupby('income_type').agg({'total_income': 'mean'}).reset_index()
credit_income_type_avg

Unnamed: 0,income_type,total_income
0,business,32397.357125
1,civil servant,27361.316126
2,employee,25824.679592
3,entrepreneur,79866.103
4,paternity / maternity leave,8612.661
5,retiree,21939.310393
6,student,15712.26
7,unemployed,21014.3605


In [57]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
#credit_nonan.agg(func='median', axis = 0)
credit_education_median = credit_nonan.groupby('education').agg({'total_income': 'median'}).reset_index()
credit_education_median

Unnamed: 0,education,total_income
0,bachelor's degree,28054.531
1,graduate degree,25161.5835
2,primary education,18741.976
3,secondary education,21839.4075
4,some college,25618.464


<font color=green>
En 'education' tanto en mediana como medio, mientras más alta la educación, más ingreso tiene la persona.
</font>

In [58]:
credit_age_cat_median = credit_nonan.groupby('age_cat').agg({'total_income': 'median'}).reset_index()

credit_age_cat_median

Unnamed: 0,age_cat,total_income
0,19,14934.901
1,20 - 30,22989.285
2,31 - 40,24825.1865
3,41 - 50,24569.968
4,51 - 60,22056.771
5,61 - 70,19705.855
6,71-80,18611.5935


<font color=green>
Tanto en media como mediana, observamos lo mismo. Una persona mayor no necesariamente debe ganar más que una persona joven. Ejemplo: Una persona de 67-68 gana menos que una persona de 25-26
</font>

In [59]:
credit_income_type_median = credit_nonan.groupby('income_type').agg({'total_income': 'median'}).reset_index()
credit_income_type_median

Unnamed: 0,income_type,total_income
0,business,27564.893
1,civil servant,24083.5065
2,employee,22815.1035
3,entrepreneur,79866.103
4,paternity / maternity leave,8612.661
5,retiree,18969.149
6,student,15712.26
7,unemployed,21014.3605


In [60]:
income_type_median = credit_nonan.groupby('income_type')['total_income'].median()
income_type_median

income_type
business                       27564.8930
civil servant                  24083.5065
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18969.1490
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

<font color=green>
En esta planilla vemos un poco más de diferencia. En media los primeros 3 tipos (incluyendo retirados) de ingreso tienen mayor valor de ingreso total que en la mediana.
</font>

<font color=green>
Trabajaremos con la mediana, porque es lo que más se adecúa para esta situación.
</font>

In [61]:
#  Escribe una función que usaremos para completar los valores ausentes
    
                
def income_fill(value):
    
    total_income = value['total_income']
    type_income = value['income_type']
    if np.isnan(total_income):
        return income_type_median[type_income]
    else:
        return total_income



In [62]:
# Comprueba si funciona
copia_credit = credit 
copia_credit['total_income'] = copia_credit.apply(income_fill, axis= 1)

print(copia_credit.isna().sum())

index                  0
children               0
days_employed       2093
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_cat                0
dtype: int64


In [63]:
# Aplícalo a cada fila
credit['total_income'] = credit.apply(income_fill, axis =1)


In [64]:
# Comprueba si tenemos algún error
credit[credit['total_income'].isna() == True]

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat


In [65]:
# Reemplazar los valores ausentes si hay algún error
# No hay más valores ausentes


In [66]:
# Comprobar el número de entradas en las columnas
credit.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 14 columns):
index               21353 non-null int64
children            21353 non-null int64
days_employed       19260 non-null float64
dob_years           21353 non-null int64
education           21353 non-null object
education_id        21353 non-null int64
family_status       21353 non-null object
family_status_id    21353 non-null int64
gender              21353 non-null object
income_type         21353 non-null object
debt                21353 non-null int64
total_income        21353 non-null float64
purpose             21353 non-null object
age_cat             21353 non-null object
dtypes: float64(2), int64(6), object(6)
memory usage: 1.8+ MB


###  Restaurar valores en `days_employed`

In [67]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
days_employed_median = credit_nonan.groupby('age_cat')['days_employed'].median().reset_index()
days_employed_median

Unnamed: 0,age_cat,days_employed
0,19,724.49261
1,20 - 30,1049.984297
2,31 - 40,1630.193189
3,41 - 50,2209.129162
4,51 - 60,6481.039027
5,61 - 70,356081.013729
6,71-80,360170.422884


In [68]:
days_employed_income_type_median = credit_nonan.groupby('income_type')['days_employed'].median().reset_index()
days_employed_income_type_median

Unnamed: 0,income_type,days_employed
0,business,1548.637544
1,civil servant,2673.404956
2,employee,1576.067689
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,365176.336775
6,student,578.751554
7,unemployed,366413.652744


In [69]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
days_employed_mean = credit_nonan.groupby('age_cat')['days_employed'].mean().reset_index()
days_employed_mean

Unnamed: 0,age_cat,days_employed
0,19,633.678086
1,20 - 30,2032.557577
2,31 - 40,4691.1228
3,41 - 50,16701.293627
4,51 - 60,153165.111212
5,61 - 70,288992.710281
6,71-80,322556.730831


In [70]:
days_employed_income_type_mean = credit_nonan.groupby('income_type')['days_employed'].mean().reset_index()
days_employed_income_type_mean

Unnamed: 0,income_type,days_employed
0,business,2112.79833
1,civil servant,3388.508552
2,employee,2328.603723
3,entrepreneur,520.848083
4,paternity / maternity leave,3296.759962
5,retiree,365015.727554
6,student,578.751554
7,unemployed,366413.652744


In [71]:
credit['days_employed'].isna().value_counts()

False    19260
True      2093
Name: days_employed, dtype: int64

<font color=green>
    Trabajaremos con la media, ya que la mediana se alejaría un poco más a la realidad.
</font>

In [72]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
days_employed_mean = credit_nonan.groupby('age_cat')['days_employed'].mean()

def employed_fill(value):
    
    employed = value['days_employed']
    age = value['age_cat']
    
    if np.isnan(employed):
        return days_employed_mean[age]
    else:
        return employed

In [73]:
# Comprueba que la función funciona
copia_credit = credit.copy()
copia_credit['days_employed'] = copia_credit.apply(employed_fill, axis= 1)

print(copia_credit.isna().sum())


index               0
children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_cat             0
dtype: int64


In [74]:
# Aplicar la función al income_type




In [75]:
# Comprueba si la función funcionó



In [76]:
# Reemplazar valores ausentes
credit['days_employed'] = credit.apply(employed_fill, axis =1)


In [77]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit[credit['days_employed'].isna() == True]


Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat


In [78]:
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 14 columns):
index               21353 non-null int64
children            21353 non-null int64
days_employed       21353 non-null float64
dob_years           21353 non-null int64
education           21353 non-null object
education_id        21353 non-null int64
family_status       21353 non-null object
family_status_id    21353 non-null int64
gender              21353 non-null object
income_type         21353 non-null object
debt                21353 non-null int64
total_income        21353 non-null float64
purpose             21353 non-null object
age_cat             21353 non-null object
dtypes: float64(2), int64(6), object(6)
memory usage: 1.8+ MB


In [79]:
credit.head(20)

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60
5,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 30
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41 - 50
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41 - 50
8,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31 - 40
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41 - 50


<font color=green>
    Se llenaron los NaN tanto de total_income y de days_employed.
</font>

## Clasificación de datos



In [80]:
# Muestra los valores de los datos seleccionados para la clasificación
credit_select = credit.loc[:,['children','family_status', 'family_status_id', 'debt', 'total_income', 'purpose']]
credit_select.head(10)


Unnamed: 0,children,family_status,family_status_id,debt,total_income,purpose
0,1,married,0,0,40620.102,purchase of the house
1,1,married,0,0,17932.802,car purchase
2,0,married,0,0,23341.752,purchase of the house
3,3,married,0,0,42820.568,supplementary education
4,0,civil partnership,1,0,25378.572,to have a wedding
5,0,civil partnership,1,0,40922.17,purchase of the house
6,0,married,0,0,38484.156,housing transactions
7,0,married,0,0,21731.829,education
8,2,civil partnership,1,0,15337.093,having a wedding
9,0,married,0,0,23108.15,purchase of the house for my family


In [81]:
# Comprobar los valores únicos
credit['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

<font color=green>
  Apreciamos, como anteriormente descrito, que hay varias formas de propósito declarado, siendo que se asimilan bastante. Los cambiaremos a algo más corto y preciso. Usamos la parte de la palabra que es común a todas sus formas (Ej: education, educated)
</font>

In [82]:
# Escribamos una función para clasificar los datos en función de temas comunes
def sust_proposito(valor):
    if 'car' in valor:
        return 'car'
    elif 'house' in valor:
        return 'real estate'
    elif 'real estate' in valor:
        return 'real estate'
    elif 'educat' in valor: 
        return 'education'
    elif 'property' in valor:
        return 'real estate'
    elif 'housing' in valor:
        return 'real estate'
    elif 'wedding' in valor:
        return 'wedding'
    elif 'university' in valor:
        return 'education'
    else:
        return valor 

In [83]:
# Probando si funciona la función
credit_select['purpose'] = credit_select['purpose'].apply(sust_proposito)

In [84]:
credit_select['purpose'].unique()

array(['real estate', 'car', 'education', 'wedding'], dtype=object)

In [85]:
credit_select['purpose'].value_counts()

real estate    10764
car             4284
education       3995
wedding         2310
Name: purpose, dtype: int64

In [86]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit['purpose_id'] = credit_select['purpose']
credit['purpose_id'].describe()

count           21353
unique              4
top       real estate
freq            10764
Name: purpose_id, dtype: object

In [87]:
def dept_meaning (x):
    if x == 0:
        return 'no debt'
    else:
        return 'debt'

In [88]:
print(dept_meaning(1))

debt


In [89]:
credit['debt_describe'] = credit['debt'].apply(dept_meaning)

In [90]:
credit.head(20)

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat,purpose_id,debt_describe
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50,real estate,no debt
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40,car,no debt
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40,real estate,no debt
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40,education,no debt
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60,wedding,no debt
5,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 30,real estate,no debt
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41 - 50,real estate,no debt
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41 - 50,education,no debt
8,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31 - 40,wedding,no debt
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41 - 50,real estate,no debt


In [91]:
credit.pivot_table(index=['family_status','children'], columns='debt_describe', values='debt', aggfunc='count')

Unnamed: 0_level_0,debt_describe,debt,no debt
family_status,children,Unnamed: 2_level_1,Unnamed: 3_level_1
civil partnership,0,227.0,2490.0
civil partnership,1,118.0,876.0
civil partnership,2,33.0,320.0
civil partnership,3,8.0,48.0
civil partnership,4,,8.0
civil partnership,5,,2.0
divorced,0,55.0,722.0
divorced,1,21.0,294.0
divorced,2,8.0,73.0
divorced,3,1.0,10.0


In [92]:
credit_debt_children = credit.pivot_table(index = 'children', columns= 'debt_describe', values = 'debt', aggfunc = 'count', margins = True)

<font color=green>
Esta tabla muestra la cantidad total de casos para cada categoría.
    </font>

In [93]:
credit.pivot_table(index=['family_status','children'], columns='purpose_id', values='debt', aggfunc='sum')

Unnamed: 0_level_0,purpose_id,car,education,real estate,wedding
family_status,children,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
civil partnership,0,28.0,35.0,51.0,113.0
civil partnership,1,17.0,18.0,32.0,51.0
civil partnership,2,4.0,6.0,8.0,15.0
civil partnership,3,2.0,1.0,0.0,5.0
civil partnership,4,0.0,,0.0,0.0
civil partnership,5,0.0,,,0.0
divorced,0,13.0,13.0,29.0,
divorced,1,6.0,2.0,13.0,
divorced,2,2.0,2.0,4.0,
divorced,3,0.0,,1.0,


<font color=green>
    Esta tabla muestra la cantidad de casos con préstamos impagos por categoría
</font>

In [116]:
credit_payment_prob = credit.pivot_table(index=['family_status','children'], columns='purpose_id', values='debt', aggfunc='mean')
credit_payment_prob                                                

Unnamed: 0_level_0,purpose_id,car,education,real estate,wedding
family_status,children,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
civil partnership,0,0.099644,0.130112,0.078704,0.074391
civil partnership,1,0.158879,0.185567,0.123552,0.096045
civil partnership,2,0.108108,0.193548,0.131148,0.066964
civil partnership,3,0.4,0.166667,0.0,0.15625
civil partnership,4,0.0,,0.0,0.0
civil partnership,5,0.0,,,0.0
divorced,0,0.067708,0.082278,0.067916,
divorced,1,0.085714,0.032787,0.070652,
divorced,2,0.142857,0.111111,0.081633,
divorced,3,0.0,,0.1,


<font color=green>
    Esta tabla muestra el porcentaje de préstamos impagos por categoría.
    
    
Considerando 1 = 100%
</font>

In [95]:
credit_payment_prob.describe()

purpose_id,car,education,real estate,wedding
count,24.0,22.0,25.0,6.0
mean,0.095374,0.079354,0.124043,0.065608
std,0.09209,0.064265,0.206015,0.059716
min,0.0,0.0,0.0,0.0
25%,0.0,0.008197,0.06564,0.016741
50%,0.093331,0.078647,0.078704,0.070678
75%,0.128696,0.112215,0.108949,0.090632
max,0.4,0.193548,1.0,0.15625


In [96]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación


<font color=green>
    Revisaremos la estadística de deuda, según cada columna elegida. Primero con "family_status", después con "children" y al final con "purpose"
</font>

In [97]:
# Obtener estadísticas resumidas para la columna
credit.pivot_table(index='family_status', values='debt', aggfunc='mean')

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
civil partnership,0.093462
divorced,0.07173
married,0.075427
unmarried,0.097709
widow / widower,0.06499


<font color=green>
    Apreciamos que los podría influir más en un impago, son los siguientes dos estados: "civil partnership" y "unmarried".
</font>

In [98]:
credit.pivot_table(index='children', values='debt', aggfunc='mean')

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075453
1,0.091341
2,0.095553
3,0.082317
4,0.097561
5,0.0


<font color=green>
    El tener hijos, aumenta la probabilidad de impago del crédito.
</font>

In [99]:
credit.pivot_table(index='purpose_id', values='debt', aggfunc='mean')

Unnamed: 0_level_0,debt
purpose_id,Unnamed: 1_level_1
car,0.093371
education,0.092616
real estate,0.072371
wedding,0.079654


<font color=green>
Tanto como para un nuevo vehículo como para la educación, son los con mayor rango de deudas.
</font>

In [109]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos

credit_payment_prob = credit.pivot_table(index=['family_status','children'], columns='purpose_id', values='debt', aggfunc='mean')


def prob_counter(x):   
    if x==0:
        return 'Seguro'
    elif x<=0.01:
        return 'Muy bajo'
    elif x<=0.05:
        return 'Bajo'
    elif x<=0.075: 
        return 'Moderado bajo'
    elif x<=0.10: 
        return 'Moderado alto'
    elif x<=0.50: 
        return 'Alto'
    elif x<1:
        return 'Muy alto'
    elif x==1: 
        return 'Peligro'
    else:
        return 'Sin información'

def fill_risk_cat(row):
    purpose = row['purpose_id']
    family_status = row['family_status']
    children = row['children']
    p = credit_payment_prob.loc[(family_status,children),purpose]
    return prob_counter(p)

<font color=green>
    Probaremos las dos funciones
</font>

In [111]:
credit_payment_prob.index

MultiIndex(levels=[['civil partnership', 'divorced', 'married', 'unmarried', 'widow / widower'], [0, 1, 2, 3, 4, 5]],
           codes=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4], [0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]],
           names=['family_status', 'children'])

In [112]:
credit_payment_prob.loc[('married', 0), 'car']

0.07238442822384428

In [113]:
credit_payment_prob.loc[('divorced', 1), 'car']

0.08571428571428572

In [117]:

copia_credit['risk_cat'] = copia_credit.apply(fill_risk_cat, axis = 1)

KeyError: ('purpose_id', 'occurred at index 0')

In [118]:
copia_credit.head()

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60


<font color=green>
    Aplicamos la función a nuestro DataFrame
</font>

In [122]:
# Crear una columna con categorías 
credit['risk_cat'] = credit.apply(fill_risk_cat, axis = 1)

In [123]:
credit.head(10)

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_cat,purpose_id,debt_describe,risk_cat
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,41 - 50,real estate,no debt,Moderado bajo
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,31 - 40,car,no debt,Moderado alto
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,31 - 40,real estate,no debt,Moderado bajo
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,31 - 40,education,no debt,Moderado bajo
4,4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,51 - 60,wedding,no debt,Moderado bajo
5,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20 - 30,real estate,no debt,Moderado alto
6,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,41 - 50,real estate,no debt,Moderado bajo
7,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,41 - 50,education,no debt,Moderado alto
8,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,31 - 40,wedding,no debt,Moderado bajo
9,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,41 - 50,real estate,no debt,Moderado bajo


In [121]:
# Contar los valores de cada categoría para ver la distribución
copia_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21353 entries, 0 to 21352
Data columns (total 14 columns):
index               21353 non-null int64
children            21353 non-null int64
days_employed       21353 non-null float64
dob_years           21353 non-null int64
education           21353 non-null object
education_id        21353 non-null int64
family_status       21353 non-null object
family_status_id    21353 non-null int64
gender              21353 non-null object
income_type         21353 non-null object
debt                21353 non-null int64
total_income        21353 non-null float64
purpose             21353 non-null object
age_cat             21353 non-null object
dtypes: float64(2), int64(6), object(6)
memory usage: 1.8+ MB


## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [135]:
# Comprueba los datos sobre los hijos y los pagos puntuales
credit_debt_children = credit.pivot_table(index = ['children','risk_cat'], values = 'debt', aggfunc = 'sum', margins = True)
credit_debt_children
# Calcular la tasa de incumplimiento en función del número de hijos



Unnamed: 0_level_0,Unnamed: 1_level_0,debt
children,risk_cat,Unnamed: 2_level_1
0,Alto,150
0,Bajo,22
0,Moderado alto,228
0,Moderado bajo,658
1,Alto,111
1,Bajo,2
1,Moderado alto,194
1,Moderado bajo,135
1,Seguro,0
2,Alto,106


<font color=green>
    Observamos que el riesgo disminuye teniendo más hijos.
</font>

**Conclusión**

<font color=green>
    Observamos que la tasa de incumplimiento de pago aumenta teniendo hijos, con una leve baja con 3 hijos.
</font>


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [133]:
# Comprueba los datos del estado familiar y los pagos a tiempo
credit_debt_family_status = credit.pivot_table(index = ['family_status', 'risk_cat'], values = 'debt', aggfunc = 'sum', margins = True)
credit_debt_family_status

# Calcular la tasa de incumplimiento basada en el estado familiar



Unnamed: 0_level_0,Unnamed: 1_level_0,debt
family_status,risk_cat,Unnamed: 2_level_1
civil partnership,Alto,128
civil partnership,Moderado alto,130
civil partnership,Moderado bajo,128
civil partnership,Seguro,0
divorced,Alto,4
divorced,Bajo,2
divorced,Moderado alto,24
divorced,Moderado bajo,55
divorced,Seguro,0
married,Alto,79


**Conclusión**

<font color=green>
    Observamos que la tasa de incumplimiento de pago es mayor en personas no casadas o en una relación civil o casados. Siendo los mejor categorizados los/as viudos/as, seguido de los divorciados.
</font>


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [131]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
credit_debt_income_type = credit.pivot_table(index = ['income_type', 'risk_cat'], values = 'debt', aggfunc = 'sum', margins = True)
credit_debt_income_type

# Calcular la tasa de incumplimiento basada en el nivel de ingresos



Unnamed: 0_level_0,Unnamed: 1_level_0,debt
income_type,risk_cat,Unnamed: 2_level_1
business,Alto,84
business,Bajo,4
business,Moderado alto,108
business,Moderado bajo,179
business,Seguro,0
civil servant,Alto,15
civil servant,Bajo,0
civil servant,Moderado alto,31
civil servant,Moderado bajo,40
civil servant,Seguro,0


**Conclusión**

<font color=green>
   Podemos observar que personas sin trabajo estable (desempleados) tienen un alto % de incumplimiento de pago, al igual que las personas de parternity/maternity leave. Los que tienen su propio negocio, sean empleados o civil servant, tienen un nivel más bajo de riesgo. 
</font>

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [130]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
credit_debt_purpose = credit.pivot_table(index = ['purpose_id','risk_cat'] , values = 'debt', aggfunc = 'sum', margins = True)
credit_debt_purpose

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
purpose_id,risk_cat,Unnamed: 2_level_1
car,Alto,147
car,Moderado alto,118
car,Moderado bajo,135
car,Seguro,0
education,Alto,154
education,Bajo,2
education,Moderado alto,198
education,Moderado bajo,16
education,Seguro,0
real estate,Alto,73


**Conclusión**

<font color=green>
  Observamos que para todos los propósitos tenemos valores en Alto y Moderado Alto. Pero en Auto y Educación, es donde más Altos y Moderado Altos hay.
</font>

# Conclusión general 

<font color=green>
    Independiente de la cantidad de hijos que tengan, también influye drásticamente el tipo de ingreso y el propósito para lo que quieren el crédito. Pero podemos destacar que teniendo más hijos, este disminuye. Diferente a lo estipulado antes. Teniendo su propio negocio, cambia un poco de haberlo asumido antes. Pensando que iba a estar en más riesgo, pero no fue lo esperado realmente.
    
</font>



