# INTRODUCCIÓN.

La presente base de datos, recopila información de los clientes de un banco. Entre los datos más relevantes se encuentran: estado civil, educación, edad, ingresos totales, tipo de ingreso, número de hijos e incumplimiento en préstamos del cliente.

El objetivo de éste análisis, es comprobar si existe una relación entre el número de hijos y el estado civil de los clientes y el incumplimiento en los préstamos.

# Contenido del proyecto <a id='back'></a>

* Etapa 1. Información general de los datos.
* Etapa 2. Exploración de datos.
* Etapa 3. Transformación de datos.
    * 3.1 Restaurar valores ausentes en total_income.
    * 3.2 Restaurar valores ausentes en days_imployed.
* Etapa 4. Clasificación de datos.
* Etapa 5. Comprobación de la hipótesis.
* Etapa 6. Conclusiones.

## Información general de los datos.

Se importa librería pandas y se cargan los datos.

In [1]:
import pandas as pd

In [2]:
credit=pd.read_csv("/datasets/credit_scoring_eng.csv")

##  Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [3]:
credit.info() #obtener información sobre los datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
credit.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Algunos datos de la columna "days_employed" son negativos. 
Algunos datos de la columna "education" están en mayúscula.

En las columnas "days_employed" y "total_income" se identifican datos ausentes.

In [5]:
credit[credit["days_employed"].isnull()]# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Como days_employed y total_income tienen la misma cantidad de NaN, veremos si son simétricos.

In [6]:
credit[credit["total_income"].isnull()] # Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Efectivamente, las columnas days_employed y total_income son simétricas.

**Conclusión intermedia**

In [7]:
porc_ausentes=(2174/21525)*100 #calculamos el porcentaje de valores ausentes.
print(porc_ausentes)

10.099883855981417


El porcentaje de valores ausentes es de 10%; lo cual indica que los valores ausentes deben completarse para prevenir posibles errores en el análisis; ya que éste porcentaje es relevante para el análisis de los datos. 

Identificamos los posibles cambios en los datos, comparando cada variable con datos ausentes y sin éstos.

In [8]:
credit_sin_ausentes=credit.dropna()# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
credit["income_type"].value_counts(normalize=True)


employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
paternity / maternity leave    0.000046
student                        0.000046
Name: income_type, dtype: float64

In [9]:
credit_sin_ausentes["income_type"].value_counts(normalize=True)# Comprobación de la distribución

employee                       0.517493
business                       0.236525
retiree                        0.177924
civil servant                  0.067800
unemployed                     0.000103
entrepreneur                   0.000052
paternity / maternity leave    0.000052
student                        0.000052
Name: income_type, dtype: float64

Comparando los valores de los porcentajes en la columna "income_type" con valores totales y datos ausentes, no se encuentran cambios significantes; o que puedan afectar los análisis.

In [10]:
credit["family_status"].value_counts(normalize=True)

married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

In [11]:
credit_sin_ausentes["family_status"].value_counts(normalize=True)

married              0.575836
civil partnership    0.193013
unmarried            0.130484
divorced             0.055966
widow / widower      0.044701
Name: family_status, dtype: float64

No se evidencian cambios considerables en la columna famili_status. 


**Posibles razones por las que hay valores ausentes en los datos**

Los valores ausentes, parecen estar relacionados con los ingresos totales; por lo cual, posiblemente éstos datos tengan gran relación con el tipo de trabajo del cliente y la educación. Verificamos los porcentajes en la columna "education" y otras columnas.

In [12]:
credit["education"].value_counts(normalize=True)

secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
GRADUATE DEGREE        0.000046
Graduate Degree        0.000046
Name: education, dtype: float64

In [13]:
credit_sin_ausentes["education"].value_counts(normalize=True)

secondary education    0.637796
bachelor's degree      0.218180
SECONDARY EDUCATION    0.036432
Secondary Education    0.033383
some college           0.031678
BACHELOR'S DEGREE      0.012971
Bachelor's Degree      0.012557
primary education      0.011937
Some College           0.002067
SOME COLLEGE           0.001137
PRIMARY EDUCATION      0.000827
Primary Education      0.000723
graduate degree        0.000207
GRADUATE DEGREE        0.000052
Graduate Degree        0.000052
Name: education, dtype: float64

No se encuentran afectaciones en la columna "education", sin los datos ausentes.

In [14]:
credit["children"].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

In [15]:
credit_sin_ausentes["children"].value_counts(normalize=True)

 0     0.656814
 1     0.224433
 2     0.095654
 3     0.015193
 20    0.003462
-1     0.002274
 4     0.001757
 5     0.000413
Name: children, dtype: float64

No se encuentran afectaciones en la columna "children", sin los datos ausentes.

In [16]:
credit["debt"].value_counts(normalize=True)

0    0.919117
1    0.080883
Name: debt, dtype: float64

In [17]:
credit_sin_ausentes["debt"].value_counts(normalize=True)

0    0.918816
1    0.081184
Name: debt, dtype: float64

De acuerdo a la distribución de los datos anteriores; los datos ausentes no generan grandes cambios en los valores que nos arrojan información sobre el incumplimiento en los préstamos.

In [18]:
credit["dob_years"].value_counts(normalize=True).head(20)

35    0.028664
40    0.028293
41    0.028200
34    0.028014
38    0.027782
42    0.027735
33    0.026992
39    0.026620
31    0.026016
36    0.025784
44    0.025412
29    0.025319
30    0.025087
48    0.024994
37    0.024948
50    0.023879
43    0.023833
32    0.023693
49    0.023600
28    0.023368
Name: dob_years, dtype: float64

In [19]:
credit_sin_ausentes["dob_years"].value_counts(normalize=True).head(20)

35    0.028577
41    0.028319
38    0.028112
40    0.028061
34    0.027595
42    0.027492
33    0.027389
39    0.026975
44    0.025993
29    0.025580
31    0.025580
36    0.025425
48    0.025425
37    0.025012
30    0.024908
32    0.024443
50    0.023926
43    0.023926
49    0.023668
27    0.023616
Name: dob_years, dtype: float64

Las diferencias en los porcentajes con datos ausentes en la columna "dob_years", no se considera significativa.

In [20]:
credit["gender"].value_counts(normalize=True)

F      0.661370
M      0.338583
XNA    0.000046
Name: gender, dtype: float64

In [21]:
credit_sin_ausentes["gender"].value_counts(normalize=True)

F      0.658984
M      0.340964
XNA    0.000052
Name: gender, dtype: float64

Se evidencian cambios en los datos de la columna gender, pero no se consideran significativos.

Filtramos las columnas que tenemos pendientes por analizar, para identificar posibles cambios en éstas con los datos ausentes y con la asusencia de éstos.

In [22]:
credit["purpose"].value_counts(normalize=True).head(15)# Comprobación de otros patrones: explica cuáles

wedding ceremony                            0.037027
having a wedding                            0.036098
to have a wedding                           0.035958
real estate transactions                    0.031405
buy commercial real estate                  0.030848
buying property for renting out             0.030337
housing transactions                        0.030337
transactions with commercial real estate    0.030244
purchase of the house                       0.030058
housing                                     0.030058
purchase of the house for my family         0.029779
construction of own property                0.029501
property                                    0.029454
transactions with my real estate            0.029268
building a real estate                      0.029082
Name: purpose, dtype: float64

In [23]:
credit_sin_ausentes["purpose"].value_counts(normalize=True).head(15)

wedding ceremony                            0.037259
to have a wedding                           0.035812
having a wedding                            0.035399
real estate transactions                    0.031781
buy commercial real estate                  0.030851
purchase of the house                       0.030748
buying property for renting out             0.030386
housing                                     0.030334
transactions with commercial real estate    0.030024
building a real estate                      0.029973
housing transactions                        0.029921
purchase of my own house                    0.029663
property                                    0.029559
purchase of the house for my family         0.029456
building a property                         0.028991
Name: purpose, dtype: float64

No se evidencian cambios significativos en la columna "purpose" con los valores nulos.

In [24]:
credit["income_type"].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [25]:
credit_null_income_type=credit.pivot_table(index="income_type",values="days_employed",aggfunc="median")

In [26]:
credit_null_income_type

Unnamed: 0_level_0,days_employed
income_type,Unnamed: 1_level_1
business,-1547.382223
civil servant,-2689.368353
employee,-1574.202821
entrepreneur,-520.848083
paternity / maternity leave,-3296.759962
retiree,365213.306266
student,-578.751554
unemployed,366413.652744


In [27]:
credit_null_education=credit.pivot_table(index="education",values="days_employed",aggfunc="median")

In [28]:
credit_null_education

Unnamed: 0_level_0,days_employed
education,Unnamed: 1_level_1
BACHELOR'S DEGREE,-1260.055505
Bachelor's Degree,-1376.580071
GRADUATE DEGREE,-409.200149
Graduate Degree,337584.81556
PRIMARY EDUCATION,-111.266017
Primary Education,-593.363594
SECONDARY EDUCATION,-1200.444662
SOME COLLEGE,-926.201932
Secondary Education,-1192.437434
Some College,-1108.627474


**Conclusión intermedia**

Al agrupar los datos de la columna "income_type" y calcular la mediana de days_employed, se observan variaciones significativas en las clases de income_type, especialmente en los datos de las personas retiradas y desempleadas. Se asume que éstas variaciones se presentan por los problemas en los datos de days_employed (datos negativos y datos altos); por lo cual, ésto debe resolverse.

Al realizar el mismo ejercicio pero con la columna "education", no se identifican cambios relevantes en los datos de las clases que componen ésta columna; sin embargo, si deben atenderse los datos negativos.

**Conclusiones**

No se identifica algún patrón que indique la variable que mas se asocia con los valores ausentes; sin embargo, si deben atenderse los problemas identificados en los datos de la columna "days_employed" y realizar nuevamente ésta relación.

## Transformación de datos

Se procede a repasar cada columna, para identificar posibles problemas en los datos.

In [29]:
credit["education"].head(10)# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente


0      bachelor's degree
1    secondary education
2    Secondary Education
3    secondary education
4    secondary education
5      bachelor's degree
6      bachelor's degree
7    SECONDARY EDUCATION
8      BACHELOR'S DEGREE
9    secondary education
Name: education, dtype: object

En la columna ["education"], se identifican datos en mayúsculas y minúsculas. Con ayuda de la herramienta lower() atendemos el hallazgo para facilitar la manipulación de los datos.

In [30]:
credit["education"]=credit["education"].str.lower()

In [31]:
credit["education"].unique()# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Se procede a comprobar los datos de la columna `children`

In [32]:
credit["children"].value_counts() # Veamos la distribución de los valores en la columna `children`


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Se identifican datos negativos (-1); los cuales se reemplazan por 1. Asi mismo, los valores que aparecen como "20", se reemplazan por 2, pues se asume que pueden ser errores durante la digitalización de los datos.

In [33]:
credit["children"]=credit["children"].replace({-1:1,20:2})

In [34]:
credit["children"].value_counts()# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Se transforman los datos y los resultados muestran que la mayoría de los clientes no tiene hijos.

Se procede a comprobar los datos en la columna `days_employed`.

In [35]:
credit["days_employed"].value_counts(normalize=True)# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje


-327.685916     0.000052
-1580.622577    0.000052
-4122.460569    0.000052
-2828.237691    0.000052
-2636.090517    0.000052
                  ...   
-7120.517564    0.000052
-2146.884040    0.000052
-881.454684     0.000052
-794.666350     0.000052
-3382.113891    0.000052
Name: days_employed, Length: 19351, dtype: float64

In [36]:
credit["days_employed"].head(15)

0      -8437.673028
1      -4024.803754
2      -5623.422610
3      -4124.747207
4     340266.072047
5       -926.185831
6      -2879.202052
7       -152.779569
8      -6929.865299
9      -2188.756445
10     -4171.483647
11      -792.701887
12              NaN
13     -1846.641941
14     -1844.956182
Name: days_employed, dtype: float64

In [37]:
credit["days_employed"].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

De acuerdo a la información estadística de la columna "days_employed", la desviación estándar es muy grande; lo cual, puede deberse a los datos que se consideran muy altos dentro de la columna; éstos datos considerados altos son además los únicos datos positivos (mayores a 0). Se asume que éstos altos datos pueden presentarse en horas y no en días, por lo cual se realiza la conversión de horas a días dividiendo entre 24 (24h=1dia). Con ayuda de loc, se filtran los datos en la columna mayores a cero y se igualan al mismo valor dividido entre 24 para realizar la conversión a días.

Se utiliza loc para filtrar los datos en la columna 'days_employed', que sean mayores a cero

In [38]:
credit.loc[credit['days_employed'] > 0, 'days_employed'] = credit.loc[credit["days_employed"] > 0, 'days_employed'] / 24 # Aborda los valores problemáticos, si existen.

Los datos negativos, se convierten a positivos con ayuda de la función abs()

In [39]:
credit.loc[credit['days_employed']<0,'days_employed']= credit.loc[credit['days_employed']<0,'days_employed'].abs()

In [40]:
credit["days_employed"].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

Al revisar los datos estadísticos de la columna days_employed, se identifica que el valor máximo es de 18388 (18388/365= 50 años), por lo cual se asume que la hipótesis en los datos altos de la columna son correctos.

In [41]:
credit.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [42]:
credit["days_employed"].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

In [43]:
credit["days_employed"].unique()

array([8437.67302776, 4024.80375385, 5623.42261023, ..., 2113.3468877 ,
       3112.4817052 , 1984.50758853])

Procedemos a revisar la columna "dob_years"

In [44]:
credit["dob_years"].value_counts()# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Se encuentra el dato cero; el cual se decide reemplazar por la mediana, debido a las diferencias de edades entre los clientes. Identificamos los valores medios de las edades, en función del tipo de ingreso.

In [45]:
years_median=credit.pivot_table(index="income_type",values="dob_years",aggfunc="median")

In [46]:
years_median

Unnamed: 0_level_0,dob_years
income_type,Unnamed: 1_level_1
business,39.0
civil servant,40.0
employee,39.0
entrepreneur,42.5
paternity / maternity leave,39.0
retiree,60.0
student,22.0
unemployed,38.0


In [47]:
def funcion_dob_years(row):
    income_type = row["income_type"]
    dob_years = row["dob_years"]
    if dob_years == 0:
        return years_median["dob_years"][income_type]
    return dob_years

In [48]:
credit["dob_years"]=credit.apply(funcion_dob_years,axis=1)

In [49]:
credit["dob_years"].value_counts().sum()

21525

In [50]:
credit["dob_years"].unique()# Comprueba el resultado - asegúrate de que esté arreglado


array([42., 36., 33., 32., 53., 27., 43., 50., 35., 41., 40., 65., 54.,
       56., 26., 48., 24., 21., 57., 67., 28., 63., 62., 47., 34., 68.,
       25., 31., 30., 20., 49., 37., 45., 61., 64., 44., 52., 46., 23.,
       38., 39., 51., 60., 59., 29., 55., 58., 71., 22., 73., 66., 69.,
       19., 72., 70., 74., 75.])

Ahora revisemos la columna `family_status`.

In [51]:
credit["family_status"].unique()# Veamos los valores de la columna

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [52]:
credit["family_status"]=credit["family_status"].replace("widow / widower","widow/widower")# Aborda los valores problemáticos en `family_status`, si existen

Se identifican espacios innecesarios en los datos; los cuales se eliminan con la función replace().

In [53]:
credit["family_status"].unique()# Comprueba el resultado - asegúrate de que esté arreglado


array(['married', 'civil partnership', 'widow/widower', 'divorced',
       'unmarried'], dtype=object)

In [54]:
credit["family_status"].value_counts(normalize=True)

married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow/widower        0.044599
Name: family_status, dtype: float64

De acuerdo a la distribución de los datos en la columna family_status, la mayoría de los clientes se encuentran casados.

Revisamos la columna `gender`

In [55]:
credit["gender"].unique() # Veamos los valores en la columna

array(['F', 'M', 'XNA'], dtype=object)

Tenemos un valor inconsistente (XNA), el cual eliminaremos debido al poco porcentaje de éste datos entre el total de datos de la columna.

In [56]:
credit.drop(credit.index[credit.gender=="XNA"],axis=0, inplace=True) # Aborda los valores problemáticos, si existen

In [57]:
credit["gender"].unique() # Comprueba el resultado - asegúrate de que esté arreglado

array(['F', 'M'], dtype=object)

In [58]:
credit["gender"].value_counts(normalize=True)

F    0.661401
M    0.338599
Name: gender, dtype: float64

De acuerdo a los datos de la columna gender(género), mas de la mitad de los clientes son mujeres.

Ahora vamos a revisar la columna `income_type`. 

In [59]:
credit["income_type"].unique() # Veamos los valores en la columna

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

Se encuentran espacios innecesarios en algunos valores. Se eliminan éstos reemplazando con la función replace().

In [60]:
credit["income_type"]=credit["income_type"].replace("paternity / maternity leave","paternity/maternity leave")# Aborda los valores problemáticos, si existen

In [61]:
credit["income_type"].unique()# Comprueba el resultado - asegúrate de que esté arreglado

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity/maternity leave'],
      dtype=object)

In [62]:
credit.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21524 non-null  float64
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21524 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.1+ MB


Ahora veamos si hay duplicados en nuestros datos.

In [63]:
credit.duplicated().sum()# Comprobar los duplicados

71

Efectivamente, se identifican datos duplicados; los cuales deben abordarse para no generar posibles arrores en los análisis.

In [64]:
credit=credit.drop_duplicates().reset_index(drop=True, inplace=False) # Aborda los duplicados, si existen

In [65]:
credit.duplicated().sum() # Última comprobación para ver si tenemos duplicados


0

El resultado anterior muestra que ya no tenemos datos duplicados en la base de datos.

In [66]:
credit.info() # Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19350 non-null  float64
 11  purpose           21453 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Se han transformado los problemas identificados en los datos de las columnas como:espacios innecesarios, valores negativos y datos inconsistentes o considerados datos muy altos. Se han identificado los datos duplicados en la base de datos, se han rellenado valores en cero que se identificaron en las columnas "dob_years". Al eliminar los datos duplicados, el cambio generado en los datos es menor al 1% (0.33%)

# Trabajar con valores ausentes

Elaboramos un diccionario para los para las columnas family_status_id y education_id, para facilitar la manipulación de datos.

In [67]:
ids_values_family={   # Encuentra los diccionarios
    0: "married",
    1: "civil partnership",
    2: "widow/widower",
    3: "divorced",
    4: "unmarried"
}

print(ids_values_family)

{0: 'married', 1: 'civil partnership', 2: 'widow/widower', 3: 'divorced', 4: 'unmarried'}


In [68]:
ids_values_education={
    0: "bachelor's degree",
    1: "secondary education",
    2: "some college",
    3: "primary education",
    4: "graduate degree"
}

print(ids_values_education)

{0: "bachelor's degree", 1: 'secondary education', 2: 'some college', 3: 'primary education', 4: 'graduate degree'}


In [69]:
credit["dob_years"].unique()

array([42., 36., 33., 32., 53., 27., 43., 50., 35., 41., 40., 65., 54.,
       56., 26., 48., 24., 21., 57., 67., 28., 63., 62., 47., 34., 68.,
       25., 31., 30., 20., 49., 37., 45., 61., 64., 44., 52., 46., 23.,
       38., 39., 51., 60., 59., 29., 55., 58., 71., 22., 73., 66., 69.,
       19., 72., 70., 74., 75.])

### Restaurar valores ausentes en `total_income`

La columna que relaciona los ingresos totales de los clientes (total_income) aún cuenta con valores ausentes.


Para rellenar los valores ausentes que se conservan en la columna "total_income",se crea una categoría de edad para los clientes, la cual se utiliza para crear una nueva columna que tenga en cuenta éstas categorías. Luego se crea una tabla que identifique los valores medios de los ingresos en función de las edades de los clientes. Igualmente, se considera que los ingresos de los clientes están relacionados con la educación, por lo cual también se genera una tabla que identifique los valores medios de los ingresos en función de la educación de los clientes, y ésta información también se toma como base para rellenar los valores ausentes en total_income.


In [70]:
def edades_clientes(edad):# Vamos a escribir una función que calcule la categoría de edad
    if edad <30:
        return "adulto jóven"
    if edad >=30 and edad <=64:
        return "adulto"
    if edad >=65:
        return "adulto mayor"  

In [71]:
print(edades_clientes(45))# Prueba si la función funciona bien
print(edades_clientes(27))
print(edades_clientes(72))

adulto
adulto jóven
adulto mayor


In [72]:
credit["edades_clientes"]=credit["dob_years"].apply(edades_clientes) # Crear una nueva columna basada en la función
credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades_clientes
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adulto
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adulto
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adulto
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adulto
4,0,14177.753002,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43.0,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adulto
21449,0,14330.725172,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,adulto mayor
21450,1,2113.346888,38.0,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adulto
21451,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adulto


In [73]:
credit["edades_clientes"].value_counts()# Comprobar cómo los valores en la nueva columna

adulto          17379
adulto jóven     3179
adulto mayor      895
Name: edades_clientes, dtype: int64

In [74]:
total_income_sin=credit.dropna()

Los factores de los que suelen depender los ingresos pueden ser: la educación, el tipo de empleo, y la edad del cliente; los cuales se utilizarán para crear tablas dinámicas que nos relacionen éstos datos y sean tomados como base para rellenar los datos ausentes que se conservan en la columna "total_income"

Se crea una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.

In [75]:
data_edades=credit.pivot_table(index="edades_clientes",values="total_income",aggfunc="median") # Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien

In [76]:
data_edades # Examina los valores medios de los ingresos en función de los factores que identificaste

Unnamed: 0_level_0,total_income
edades_clientes,Unnamed: 1_level_1
adulto,23542.491
adulto jóven,22735.911
adulto mayor,18471.391


De acuerdo a la tabla, los menores ingresos son obtenidos por parte de los clientes adultos mayores (mayores a 65 años)

Los mayores ingresos son obtenidos por parte de los clientes que se encuentran dentro de la categoria de adultos (tienen edades entre los 31 y 64 años)

In [77]:
data_education=credit.pivot_table(index="education",values="total_income",aggfunc="median")

In [78]:
data_education

Unnamed: 0_level_0,total_income
education,Unnamed: 1_level_1
bachelor's degree,28054.531
graduate degree,25161.5835
primary education,18741.976
secondary education,21836.583
some college,25608.7945


Los menores ingresos se presentan en clientes que sólo cuentan con una educación primaria.

Los mayores ingresos son obtenidos por los clientes que cuentan con una licenciatura.

In [79]:
data_income=credit.pivot_table(index="income_type",values="total_income",aggfunc="median")

In [80]:
data_income

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
business,27571.0825
civil servant,24071.6695
employee,22815.1035
entrepreneur,79866.103
paternity/maternity leave,8612.661
retiree,18962.318
student,15712.26
unemployed,21014.3605


De acuerdo a la tabla que nos relaciona el total de ingresos de acuerdo al tipo de ingreso, los menores ingresos son obtenidos por los clientes que se encuentran en licencia de paternidad/maternidad, los estudiantes y los retirados.

In [81]:
data_edades["total_income"]["adulto"]# Examina los valores medianos de los ingresos en función de los factores que identificaste


23542.491

In [82]:
data_education["total_income"]["secondary education"]

21836.583

In [83]:
data_income["total_income"]["business"]

27571.0825

Para rellenar los valores ausentes en la columna "total_income", se decide hacerlo con la información de las edades de los clientes, y con la utilización de la mediana debido a las diferencias entre los valores.

In [84]:
def func_ausentes_total_income(row):#  Escribe una función que usaremos para completar los valores ausentes
    edades_clientes=row["edades_clientes"]
    total_income=row["total_income"]
    if pd.isna(total_income):
        return data_edades["total_income"][edades_clientes]
    return total_income

In [85]:
func_ausentes_total_income(credit.iloc[13])# Comprueba si funciona


20873.317

In [86]:
credit.apply(func_ausentes_total_income, axis=1) # Aplícalo a cada fila

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21448    35966.698
21449    24959.969
21450    14347.610
21451    39054.888
21452    13127.587
Length: 21453, dtype: float64

In [87]:
credit["total_income"]= credit.apply(func_ausentes_total_income, axis=1) # Comprueba si tenemos algún error


In [88]:
credit["total_income"].isna().sum()

0

Se comprueba que el número total de valores`total_income`, coincida con el número de valores en las otras columnas que conforman la base de datos.

In [89]:
credit.info()# Comprobar el número de entradas en las columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  edades_clientes   21453 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.1+ MB


El número total de valores en la columna "total_income", coincide con el número total de valores en las demás columnas que componen la base de datos.

###  Restaurar valores en `days_employed`

Para rellenar los valores ausentes en la columna "days_employed", tenemos en cuenta la relación de éste dato con las edades de los clientes y con base en ésto se identifican los valores medios de los días trabajados en función de las edades de los clientes. 

In [90]:
data_employed=credit.pivot_table(index="edades_clientes",values="days_employed",aggfunc="median")# Distribución de las medianas de `days_employed` en función de los parámetros identificados


In [91]:
data_employed # Distribución de las medias de `days_employed` en función de los parámetros identificados

Unnamed: 0_level_0,days_employed
edades_clientes,Unnamed: 1_level_1
adulto,2490.434196
adulto jóven,998.961907
adulto mayor,15020.871042


Se decide utilizar medianas debido a las diferencias entre los datos.

In [92]:
def days_funcion(row):# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
    edades_clientes=row["edades_clientes"]
    days_employed=row["days_employed"]
    if pd.isna(days_employed):
        return data_employed["days_employed"][edades_clientes]
    return days_employed

In [93]:
days_funcion(credit.iloc[13])# Comprueba que la función funciona

1846.6419410560736

In [94]:
credit.apply(days_funcion,axis=1) # Aplicar la función al income_type
 

0         8437.673028
1         4024.803754
2         5623.422610
3         4124.747207
4        14177.753002
             ...     
21448     4529.316663
21449    14330.725172
21450     2113.346888
21451     3112.481705
21452     1984.507589
Length: 21453, dtype: float64

In [95]:
credit["days_employed"]=credit.apply(days_funcion,axis=1)# Comprueba si la función funcionó

In [96]:
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  edades_clientes   21453 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.1+ MB


In [97]:
credit["days_employed"].isna().sum()

0

In [98]:
# Reemplazar valores ausentes

In [99]:
credit.info()# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  float64
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  edades_clientes   21453 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.1+ MB


## Clasificación de datos

Para facilitar la manipulación y evaluación de los datos, se clasifican los datos de las columnas "familý_status","purpose","total_income" y "children"; para reducir la información de éstas columnas y facilitar el análisis y la comprobación de la hipótesis.


In [100]:
credit["family_status"].value_counts() #identificamos los valores para verificar los datos que podrían clasificarse.

married              12339
civil partnership     4150
unmarried             2810
divorced              1195
widow/widower          959
Name: family_status, dtype: int64

In [101]:
credit["purpose"].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             620
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

Vamos a comprobar los valores únicos en cada columna en la que queremos clasificar los datos.

In [102]:
credit["family_status"].unique() #comprobamos los valores únicos

array(['married', 'civil partnership', 'widow/widower', 'divorced',
       'unmarried'], dtype=object)

In [103]:
credit["purpose"].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Se identifican grupos  principales en función de los valores únicos, para proceder con la clasificación de los datos.


In [104]:
def funcion_familia(value):# función para clasificar los datos en función de temas comunes
    if value=="married":
        return "casado"
    if value=="civil partnership":
        return "unión libre"
    if value=="divorced":
        return "divorciado"
    if value=="widow/widower":
        return "viudo"
    return "soltero"

In [105]:
print(funcion_familia("divorced")) # compruebo la función

divorciado


In [106]:
credit["family_status"]=credit["family_status"].apply(funcion_familia)# Crea una columna con las categorías y cuenta los valores en ellas

In [107]:
credit["family_status"].value_counts(normalize=True) # Revisar todos los datos numéricos en la columna seleccionada para la clasificación

casado         0.575164
unión libre    0.193446
soltero        0.130984
divorciado     0.055703
viudo          0.044702
Name: family_status, dtype: float64

La mayoría de las clientes se encuentran casados(57% de los clientes).

In [108]:
credit["family_status"].describe() # Obtener estadísticas resumidas para la columna

count      21453
unique         5
top       casado
freq       12339
Name: family_status, dtype: object

In [109]:
def funcion_purpose(value):
    if "wedding" in value:
        return "boda"
    if "house" in value or "housing" in value or "property" in value or "construction of own" in value:
        return "casa"
    if "education" in value or "university" in value or "educated" in value:
        return "educación"
    if "real estate" in value:
        return "propiedad raíz"
    if "car" in value or "car" in value:
        return "carro"
    return "ninguna de las anteriores"
 

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buenas correcciones a la función para considerar todos los casos
</div>

In [110]:
print(funcion_purpose("cars"))
print(funcion_purpose("housing"))
print(funcion_purpose("wedding"))
print(funcion_purpose("travel"))

carro
casa
boda
ninguna de las anteriores


In [111]:
credit["purpose"]=credit["purpose"].apply(funcion_purpose)

In [112]:
credit["purpose"].value_counts() # Revisar todos los datos numéricos en la columna seleccionada para la clasificación

casa              6347
propiedad raíz    4463
carro             4306
educación         4013
boda              2324
Name: purpose, dtype: int64

La mayoría de los clientes solicitan un préstamo para la construcción o remodelación de vivienda y para propiedad raíz.

Se clasifican los datos numéricos de la columna "children" y "total_income"

In [113]:
credit["children"].value_counts() # Revisar todos los datos numéricos en la columna seleccionada para la clasificación

0    14090
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [114]:
credit["children"].describe() # Obtener estadísticas resumidas para la columna

count    21453.000000
mean         0.480585
std          0.756079
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          5.000000
Name: children, dtype: float64

Se decide clasificar la columna "children" en sin hijos, con hijos y cantidad considerable de hijos, para identificar mas fácilmente si realmente a mayor número de hijos se identifica un cambio en la tasa de incumplimiento de un préstamo.

In [115]:
def funcion_children(value):# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
    if value==0:
        return "sin hijos"
    if value >=1 and value <=3:
        return "tiene hijos"
    if value >=4:
        return "cantidad considerable de hijos"

In [116]:
print(funcion_children(5)) # compruebo la función

cantidad considerable de hijos


In [117]:
credit["children"]=credit["children"].apply(funcion_children)# Crear una columna con categorías

In [118]:
credit["children"].value_counts() # Contar los valores de cada categoría para ver la distribución


sin hijos                         14090
tiene hijos                        7313
cantidad considerable de hijos       50
Name: children, dtype: int64

In [119]:
credit["total_income"].value_counts()

23542.491    1731
22735.911     297
18471.391      77
31791.384       2
42413.096       2
             ... 
23834.534       1
26124.613       1
28692.182       1
28477.783       1
41428.916       1
Name: total_income, Length: 19348, dtype: int64

In [120]:
credit["total_income"].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

Debido a la gran cantidad de valores para la columna "total_income", se decide clasificar éstos valores en estratos, para facilitar las comparaciones con respecto a la tasa de incumplimiento.

In [121]:
def income_funcion(value):
    if value < 15000:
        return "estrato 1"
    if value >= 15000 and value < 30000:
        return "estrato 2"
    if value >= 30000 and value < 45000:
        return "estrato 3"
    if value >= 45000 and value < 60000:
        return "estrato 4"
    if value >= 60000:
        return "estrato 5"

In [122]:
print(income_funcion(300000))

estrato 5


In [123]:
credit["total_income"]=credit["total_income"].apply(income_funcion)

In [124]:
credit["total_income"].unique()

array(['estrato 3', 'estrato 2', 'estrato 1', 'estrato 4', 'estrato 5'],
      dtype=object)

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [125]:
children_porcentaje=pd.pivot_table(credit,index="children",values="debt") # Comprueba los datos sobre los hijos y los pagos puntuales

In [126]:
children_porcentaje["%deudores_children"]=(children_porcentaje["debt"]/children_porcentaje["debt"].sum())*100 
children_porcentaje # Calcular la tasa de incumplimiento en función del número de hijos

Unnamed: 0_level_0,debt,%deudores_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1
cantidad considerable de hijos,0.08,32.309106
sin hijos,0.075444,30.468931
tiene hijos,0.092165,37.221963


**Conclusión**

De acuerdo a la tabla donde se relaciona el porcentaje de deudores para cada cliente con cierto número de hijos, es mayor el porcentaje de incumplimiento para  los clientes que tiene hijos (37%), y la tasa de incumplimiento es mas baja para los clientes que no tiene hijos (30%)


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [127]:
familia_porcentaje=pd.pivot_table(credit,index="family_status",values="debt") # Comprueba los datos del estado familiar y los pagos a tiempo

In [128]:
familia_porcentaje["%deudores_familia"]=(familia_porcentaje["debt"]/familia_porcentaje["debt"].sum())*100
familia_porcentaje # Calcular la tasa de incumplimiento basada en el estado familiar

Unnamed: 0_level_0,debt,%deudores_familia
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
casado,0.075452,18.709637
divorciado,0.07113,17.637892
soltero,0.097509,24.179087
unión libre,0.093494,23.183515
viudo,0.065693,16.289869


**Conclusión**

De acuerdo a la tabla que relaciona el porcentaje de deudores para cada tipo de estado civil o relación familiar de los clientes, se evidencian mayores tasas de incumplimiento para los clientes solteros (24%) y una menor tasa de incumplimiento para los clientes viudos (16%), divorciados (17%) y casados (18%).

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [129]:
ingresos_porcentaje=pd.pivot_table(credit,index="total_income",values="debt") # Comprueba los datos del nivel de ingresos y los pagos a tiempo

In [130]:
ingresos_porcentaje["%deudores_ingresos"]=(ingresos_porcentaje["debt"]/ingresos_porcentaje["debt"].sum())*100
ingresos_porcentaje # Calcular la tasa de incumplimiento basada en el nivel de ingresos

Unnamed: 0_level_0,debt,%deudores_ingresos
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1
estrato 1,0.079615,21.194214
estrato 2,0.085397,22.73332
estrato 3,0.074895,19.937716
estrato 4,0.079191,21.08133
estrato 5,0.056548,15.05342


**Conclusión**

De acuerdo a la información que relaciona el porcentaje de incumplimiento para cada tipo de estrato o nivel de ingresos de los clientes, la mayor tasa de incumplimiento se presenta en los clientes de estrato 2 (22%), y la menor tasa de incumplimiento se reporta en los clientes de estrato 5 (15%).

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [131]:
purpose_porcentaje=pd.pivot_table(credit,index="purpose",values="debt")# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos

In [132]:
purpose_porcentaje["%deudores_purpose"]=(purpose_porcentaje["debt"]/purpose_porcentaje["debt"].sum())*100
purpose_porcentaje   # Calcular la tasa de incumplimiento basada en el propósito del préstamo

Unnamed: 0_level_0,debt,%deudores_purpose
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
boda,0.080034,19.455098
carro,0.09359,22.750326
casa,0.070269,17.08138
educación,0.0922,22.412441
propiedad raíz,0.075286,18.300754


**Conclusión**

La tasa de incumplimiento para los clientes que solicitan préstamo para la compra de vehículo y para educación es mayor (22%) que para los demás propósitos del crédito. La menor tasa de incumplimiento se presenta en los casos en los que el propósito del préstamo es para compra de vivienda (17%) y para inversión en propiedad raíz(18%).


## Conclusión general 


En el proceso de exploración y limpieza de datos, se identifican datos ausentes en la columna "days_employed" y "total_income" (resultaron ser simétricas).

Teniendo en cuenta que el porcentaje de valores ausentes es del 10%, éstos datos ausentes debieron completarse para prevenir posibles errores en el análisis.

Las columnas que contenían datos numéricos, como "children" y "total_income", se clasificaron para facilitar los análisis de los valores medios en función del incumplimiento del préstamo. 

Para rellenar los valores ausentes en la columna "total_income",se crea una categoría de edad para los clientes, la cual se utiliza para crear una nueva columna que tenga en cuenta éstas categorías. Luego se creó una tabla con los valores medios de los ingresos en función de las edades de los clientes. Igualmente, se considera que los ingresos de los clientes están relacionados con la aducación, por lo cual también se genera una tabla que identifique los valores medios de los ingresos en función de la educación de los clientes, y ésta información también se toma como base para rellenar los valores ausentes en total_income.

Mas del 50% de los clientes de la base de datos son mujeres, las cuales en su mayoría no tiene hijos.

Para resolver los datos ausentes en la columna "days_employed", se tuvo en cuentala relación de ésta variable con las edades de los clientes , se identificaron los valores medios de los dias trabajados en función de las edades de los clientes.

Al agrupar los datos de la columna "income_type" y calcular la mediana de days_employed, se observaron variaciones significativas en las clases de income_type, especialmente en los datos de personas retiradas y desempleadas. Se asume que éstas variaciones se presentaron inicialmente por los problemas identificados en la columna days_employed.

Al verificar los datos estadísticos en la columna days_employed, se identifica una desviación estándar muy alta; la cual se asume que se relaciona con los altos valores de algunos de los datos. Se asume que los valores altos, se encontraban en horas; por lo cual, se realiza la conversión a días para que la totalidad de los datos se encoentraran en las mismas unidades, y no se reportaran datos altos.

La mayoría de los clientes que tienen hijos, son de género masculino.

La mayoría de los clientes se encuentran casados ( 57% de los clientes )

Mas del 78% de los clientes tienen edades entre los 31 y 64 años.

Los mayores ingresos se obtienen por parte de los clientes adultos.

Los menores ingresos son obtenidos por parte de los clientes adultos mayores ( mayores a 65 años de edad).

Los clientes que cuentan con una licenciatura, obtienen mayores ingresos.

El propósito mas común para el que se solicita un préstamos por parte de los clientes, es para la construcción o remodelación de vivienda.

Se encuentran mayores  porcentajes de incumplimiento para los clientes que tienen hijos (37%), y la tasa de incumplimiento es mas baja para los clientes que no tiene hijos (30%)

La diferencia entre la tasa de incumplimiento de los clientes que se encuentran casados y los que son solteros, es muy poca ( la diferencia es menor al 1%)

Se evidencian mayores tasas de incumplimiento para los clientes solteros (24%) y una menor tasa de incumplimiento para los clientes viudos (16%), divorciados (17%) y casados (18%).

La mayor tasa de incumplimiento se presenta en los clientes de estrato 2 (22%), y la menor tasa de incumplimiento se reporta en los clientes de estrato 5 (15%).

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buenas conclusiones generales, ya que mencionas todo el trabajo realizado. Además lograste ordenarlas, dandole un relato más coherente, en el cual logras resaltar los principales aprendizajes. Muy buen trabajo!