# Análisis del riesgo de incumplimiento de los prestatarios

El proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

El informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

## Abre el archivo de datos y mira la información general. 

In [1]:
# Cargar todas las librerías
import pandas as pd

# Carga los datos
credit = pd.read_csv('credit_scoring_eng.csv')
credit

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

In [2]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
credit.shape

(21525, 12)

In [3]:
# vamos a mostrar las primeras filas N
credit.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Se tiene que revisar el porque de los datos negativos en la columma days_employed \
Hay que homologar los datos en la columna education

In [4]:
# Obtener información sobre los datos
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


*Tenemos valores ausentes solo en la columna,days_employed y total_income

In [5]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit[credit['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


*Tenemos que filtrar para ver si las filas en donde hay valores aunsentes en la columna days_employed, son las mismas a total_income, mas adelante podemos agrupar y sacar una media o mediana de acuerdo a la education, family_status, income_type

In [6]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
print(credit['days_employed'].isna().sum())
print(credit['total_income'].isna().sum())
print(credit.loc[(credit['days_employed'] == '') & (credit['total_income'] == '')])

2174
2174
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


**Conclusión intermedia**

[¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? ¿Qué conclusión podemos sacar de esto?]\
*Si es el mismo valor tanto en "days_employed" como "total_income" (2174), por lo que debio haber un error en el valor de entrada, datos perdidos o simplemento no se llenaron esos datos.


*Tenemos ya localizados en donde se encuentran los valores ausentes, sacaremos el porcentaje de los valores ausentes respecto a los valores totales, sabemos que los valores ausentes se encuentran en las mismas filas de ambas columnas, haremos una prequeña comprobacion de que realmente son las mismas filas las que contienen los valores ausentes.

In [7]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
porc_ausentes = (credit['days_employed'].isna().sum()/credit['education'].count())
print(f'La tasa de porcentaje de valores ausentes es : {porc_ausentes:.2%} del total de entradas por lo que representa una parte significativa')
print()

credit_missing_columns = ['days_employed', 'total_income']
missing_values = []
for miss in credit_missing_columns:
    missing_values.append(credit[credit[miss].isna()]['education'].value_counts())
    
print('Con estos valores comprobamos que son las mismas filas en ambas columnas con valores ausentes')    
print('Valores ausentes en la columna days_employes')    
print(missing_values[0])
print()
print('Valores ausentes en la columna total_income')
print(missing_values[1])

La tasa de porcentaje de valores ausentes es : 10.10% del total de entradas por lo que representa una parte significativa

Con estos valores comprobamos que son las mismas filas en ambas columnas con valores ausentes
Valores ausentes en la columna days_employes
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

Valores ausentes en la columna total_income
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION  

In [8]:
# Comprobación de la distribución
print('De acuerdo a la clasificacion del tipo de ingreso tenemos los siguientes valores ausentes')
print(credit[credit['days_employed'].isna()]['income_type'].value_counts())
print()
print('De un total de valores declarados en la columna income_type')
print(credit['income_type'].value_counts())

De acuerdo a la clasificacion del tipo de ingreso tenemos los siguientes valores ausentes
employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

De un total de valores declarados en la columna income_type
employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


Sabemos que los datos ausentes estan en las mismas filas en ambas columnas y la mayoria proviene de clientes con grado de estudios "secondary education"

**Posibles razones por las que hay valores ausentes en los datos**

[Propón tus ideas sobre por qué crees que los valores pueden estar ausentes. ¿Crees que están ausentes al azar o hay algún patrón?] \
*Podemos pensar que son valores ausentes por un error en la base de datos o el llenado, ya que son los mismos valores tanto en la columna de dias trabajados como en la columna de ingreso total

In [9]:
# Comprobando la distribución en el conjunto de datos entero
print('De acuerdo a la clasificacion del tipo de family_status tenemos los siguientes valores ausentes')
print(credit[credit['days_employed'].isna()]['family_status'].value_counts())
print()
print('De un total de valores declarados en la columna family_status')
print(credit['family_status'].value_counts())

De acuerdo a la clasificacion del tipo de family_status tenemos los siguientes valores ausentes
married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64

De un total de valores declarados en la columna family_status
married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64


**Conclusión intermedia**

[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

Si es similar, como ya habiamos valorado, los valores ausentes representan el 10% por lo que aqui podemos observar que esa condicion es real, aunque aun no podemos llegar a una conclusion de porque existen datos ausentes



In [10]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes 
print('De acuerdo a la clasificacion del tipo purpose tenemos los siguientes valores ausentes')
print(credit[credit['days_employed'].isna()]['purpose'].value_counts())
print()
print('De un total de valores declarados en la columna purpose')
print(credit['purpose'].value_counts())

print('Repararemos los valores similares para un mejor agrupamiento')
purpose_list = credit['purpose'].unique()

wedding_list=['having a wedding','to have a wedding','wedding ceremony']
real_estate_list=['building a real estate','buy commercial real estate','buy real estate','buy residential real estate','real estate transactions','transactions with commercial real estate','transactions with my real estate','buying property for renting out']
car_list=['buying a second-hand car','buying my own car','car','car purchase','cars','purchase of a car','second-hand car purchase','to buy a car','to own a car']
education_list=['education','getting an education','getting higher education','profile education','supplementary education','to get a supplementary education','university education','going to university','to become educated']
house_list=['purchase of my own house','purchase of the house','purchase of the house for my family','housing','housing renovation','housing transactions','building a property','construction of own property','property']

def replace_values(correct_value,incorrect_value,column):
    for value in incorrect_value:
        credit[column] = credit[column].replace(value,correct_value) 


replace_values("wedding plan",wedding_list,'purpose')
replace_values("real estate bussiness",real_estate_list,'purpose')
replace_values("get a car",car_list,'purpose')
replace_values("education purpose",education_list,'purpose')
replace_values("house plan",house_list,'purpose')
    
credit['purpose'].value_counts().sort_index()   
        


De acuerdo a la clasificacion del tipo purpose tenemos los siguientes valores ausentes
having a wedding                            92
to have a wedding                           81
wedding ceremony                            76
construction of own property                75
housing transactions                        74
buy real estate                             72
purchase of the house for my family         71
transactions with my real estate            71
transactions with commercial real estate    70
housing renovation                          70
buy commercial real estate                  67
buying property for renting out             65
property                                    62
real estate transactions                    61
buy residential real estate                 61
housing                                     60
building a property                         59
cars                                        57
going to university                         56
to become educated  

education purpose        4022
get a car                4315
house plan               5709
real estate bussiness    5131
wedding plan             2348
Name: purpose, dtype: int64

**Conclusión intermedia**

Tenemos valores accidentales, ausencia de valores las cuales se pudieron haber debido a una falla o a falta de llenado de datos, de igual forma tenemos datos mal clasifidos, es decir, es la misma descripcion pero con diferentes palabras las cuales reemplazaremos y en el caso del proposito ya los reemplazamos.

In [11]:
# Comprobación de otros patrones: explica cuáles
print('De acuerdo a la clasificacion del tipo de dob_years tenemos los siguientes valores ausentes')
print(credit[credit['days_employed'].isna()]['dob_years'].value_counts().sort_index())
print()
print('De un total de valores declarados en la columna dob_years')
print(credit['dob_years'].value_counts().sort_index())
print('Mas adelante realizaremos las clasificaciones necesarias')

De acuerdo a la clasificacion del tipo de dob_years tenemos los siguientes valores ausentes
0     10
19     1
20     5
21    18
22    17
23    36
24    21
25    23
26    35
27    36
28    57
29    50
30    58
31    65
32    37
33    51
34    69
35    64
36    63
37    53
38    54
39    51
40    66
41    59
42    65
43    50
44    44
45    50
46    48
47    59
48    46
49    50
50    51
51    50
52    53
53    44
54    55
55    48
56    54
57    56
58    56
59    34
60    39
61    38
62    38
63    29
64    37
65    20
66    20
67    16
68     9
69     5
70     3
71     5
72     2
73     1
Name: dob_years, dtype: int64

De un total de valores declarados en la columna dob_years
0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49   

**Conclusiones**

En las muestras podemos deducir que los valores ausentes son de personas, casadas, empleadas y con secundary education, aunque no sabemos con certeza porque hay valores ausentes, deduciremos que fue por un error en el ingreso de datos y/o desconocimiento de los datos solicitados.

Ya tenemos las clasificaciones y valores unicos, haremos agrupaciones correcionandolas con otra columna de valores y veremos si corresponde una media o una mediana.

Encontramos problemas en los datos principalmente mala clasificacion de datos y valores ausentes, por lo que se arreglaran y clasificacaran de acuerdo a su categoria correspondiente como ya explicamos anteriormente, el primer paso sera arreglar los datos que no esten homologados como lo hicimos con el datos en la columna purpose y porsterior arreglar los valores ausentes de acuerdo a su clasificacion, no podemos eliminar valores duplicados ya que aunque parezca dificil no es imposible que alguien tenga los mismos dias trabajados o la misma edad, ya que no tenemos un diferenciador unico para remover valores. 

## Transformación de datos

In [12]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print('Valores unicos en la columna "education"')
credit['education'].value_counts().sort_index()

Valores unicos en la columna "education"


BACHELOR'S DEGREE        274
Bachelor's Degree        268
GRADUATE DEGREE            1
Graduate Degree            1
PRIMARY EDUCATION         17
Primary Education         15
SECONDARY EDUCATION      772
SOME COLLEGE              29
Secondary Education      711
Some College              47
bachelor's degree       4718
graduate degree            4
primary education        250
secondary education    13750
some college             668
Name: education, dtype: int64

In [13]:
# Arregla los registros si es necesario
bachelor = ["BACHELOR'S DEGREE","Bachelor's Degree",]
graduate = ['GRADUATE DEGREE','Graduate Degree',]
primary = ['PRIMARY EDUCATION','Primary Education',]
secondary = ['SECONDARY EDUCATION','Secondary Education',]
college = ['SOME COLLEGE','Some College']

replace_values("bachelor's degree",bachelor,'education')
replace_values("graduate degree",graduate,'education')
replace_values("primary education",primary,'education')
replace_values("secondary education",secondary,'education')
replace_values("some college",college,'education')
    
credit['education'].value_counts()   

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [14]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
credit['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [15]:
# Veamos la distribución de los valores en la columna `children`
print(credit['children'].value_counts().sort_index())

tasa_children = credit['children'] == -1
tasa_children = tasa_children.sum() / credit['children'].count()
print(f'La tasa de valores -1 es de {tasa_children:.2%}')
print('Podemos deducir un numero negativo -1 como hijos 0 por lo que se reemplazaran por ese valor')

-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64
La tasa de valores -1 es de 0.22%
Podemos deducir un numero negativo -1 como hijos 0 por lo que se reemplazaran por ese valor


Tenemos el valor de -1, lo consideraremos como un valor 0 de no tener hijos por lo que reemplazaremos este valor, ya que solo represente 0.22% y es despreciable en una muestra tan grande.


In [16]:
# [arregla los datos según tu decisión]
tasa_children = credit['children'] == 20
tasa_children = tasa_children.sum() / credit['children'].count()
print(f'La tasa de valores 20 es de {tasa_children:.2%}')
print('Es raro que alguien tenga 20 hijos aunque no imposible, consideraremos de igual foram este valor como error de dedo y lo cambiaremos a 2 ya que no es muy representativo')

La tasa de valores 20 es de 0.35%
Es raro que alguien tenga 20 hijos aunque no imposible, consideraremos de igual foram este valor como error de dedo y lo cambiaremos a 2 ya que no es muy representativo


In [17]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
credit['children'] = credit['children'].replace(-1,0)
credit['children'] = credit['children'].replace(20,2)
credit['children'].value_counts().sort_index()

0    14196
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

El error a simple vista es que contiene valores negativos, al restar fechas existe el error que se invierte el orden de las fechas por lo que al restarlas da un numero negativo, el cual arreglaremos y de ahi revisar que tipo de valores tenemos en esta columna

In [18]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
print('El error mas comun que podriamos tener en los dias negativos en la columna "days_employed" es que hayan restado las fechas de forma inversa por lo que convertiremos estos valores a positivo')

dias_mayores = []
dias_menores = []
for days in credit['days_employed']:
    if days > 0:
        dias_mayores.append(days)
    elif days < 0:
        dias_menores.append(days)

print(len(dias_mayores))
print()
print(len(dias_menores))        
        
credit['days_employed'] = credit['days_employed'].abs()       

El error mas comun que podriamos tener en los dias negativos en la columna "days_employed" es que hayan restado las fechas de forma inversa por lo que convertiremos estos valores a positivo
3445

15906


Arreglaremos los vales negativos y comprobaremos que ya no existan

In [19]:
# Aborda los valores problemáticos, si existen.
print('Ya no tenemos valores negativos comenzaremos a verificiar los dias trabajados')
print()
print(credit['days_employed'].sort_values().head(10))
print()
print(credit['days_employed'].sort_values(ascending=False).head(10))
print()
print('Vaya tenemos valores en trabajadores que han trabajado mas de 1000 años, los revisaremos')

credit['years_employed'] = credit['days_employed'] / 365

print(credit[credit['days_employed'] > 20000].head(10))

Ya no tenemos valores negativos comenzaremos a verificiar los dias trabajados

17437    24.141633
8336     24.240695
6157     30.195337
9683     33.520665
2127     34.701045
5287     37.726602
17270    39.954170
13846    46.952793
7964     47.109840
3235     50.128298
Name: days_employed, dtype: float64

6954     401755.400475
10006    401715.811749
7664     401675.093434
2156     401674.466633
7794     401663.850046
4697     401635.032697
13420    401619.633298
17823    401614.475622
10991    401591.828457
8369     401590.452231
Name: days_employed, dtype: float64

Vaya tenemos valores en trabajadores que han trabajado mas de 1000 años, los revisaremos
    children  days_employed  dob_years            education  education_id  \
4          0  340266.072047         53  secondary education             1   
18         0  400281.136913         53  secondary education             1   
24         1  338551.952911         57  secondary education             1   
25         0  363548.489348   

In [20]:
# Comprueba el resultado - asegúrate de que esté arreglado
dias_mayores = []
dias_menores = []
for days in credit['days_employed']:
    if days > 0:
        dias_mayores.append(days)
    elif days < 0:
        dias_menores.append(days)

print(len(dias_mayores))
print()
print(len(dias_menores))

print('Ya no tenemos datos negativos')

19351

0
Ya no tenemos datos negativos


Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.]

In [21]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
credit['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
22    183
66    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Cambiaremos los valores de años trabajados en 0 a con el promedio de años trabajados en la muestra

In [22]:
# Resuelve los problemas en la columna `dob_years`, si existen
credit.loc[credit['dob_years'] == 0, 'dob_years'] = credit['dob_years'].mean()
credit['dob_years'].value_counts()
credit['dob_years'] = credit['dob_years'].astype('int')
credit['dob_years'].value_counts()

35    617
43    614
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [23]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit['dob_years'].value_counts()

35    617
43    614
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

[Ahora revisemos la columna `family_status`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar.]

In [24]:
# Veamos los valores de la columna
credit['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

[Ahora revisemos la columna `gender`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [25]:
# Veamos los valores en la columna
credit['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [26]:
# Aborda los valores problemáticos, si existen
credit[credit['gender'] == 'XNA']
print('No vemos problema en cambiar el genero de una persona ya que es irrelevante, lo cambiaremos por genero M')
credit.loc[credit['gender'] == 'XNA', 'gender'] = 'M'

No vemos problema en cambiar el genero de una persona ya que es irrelevante, lo cambiaremos por genero M


In [27]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit['gender'].value_counts()


F    14236
M     7289
Name: gender, dtype: int64

[Ahora vamos a revisar la columna `income_type`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [28]:
# Veamos los valores en la columna
print(credit['income_type'].value_counts())
print()
credit.head(10)

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,house plan,23.116912
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,get a car,11.02686
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,house plan,15.406637
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education purpose,11.300677
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding plan,932.235814
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,house plan,2.537495
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,house plan,7.888225
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education purpose,0.418574
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,wedding plan,18.985932
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,house plan,5.996593


In [29]:
# Comprobar los duplicados
credit[credit.duplicated('days_employed')]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education purpose,
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,real estate bussiness,
41,0,,50,secondary education,1,married,0,F,civil servant,0,,get a car,
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,wedding plan,
65,0,,21,secondary education,1,unmarried,4,M,business,0,,real estate bussiness,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,secondary education,1,married,0,M,business,0,,get a car,
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding plan,
21497,0,,48,bachelor's degree,0,married,0,F,business,0,,house plan,
21502,1,,42,secondary education,1,married,0,F,employee,0,,real estate bussiness,


Aun tenemos valores ausentes, necesitamos rellenarlos antes de tomar una decision de depurar la tabla

In [30]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
credit.shape

credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int32  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    19351 non-null  float64
dtypes: float64(3), int32(1), int64(4), object(5)
memory usage: 2.1+ MB


Tenemos los mismos datos con los que empezamos, sin embargo, ya tenemos cambios, hemos arreglado y homologado los datos en las diferentes columnas por lo que ya se nos es mas facil agrupar y tomar una decision para rellenar los valores ausentes y tomar decisiones

# Trabajar con valores ausentes

[Para acelerar el trabajo con algunos datos, puede que necesites trabajar con diccionarios para algunos valores, en los que se proporcionan IDs. Explica por qué y con qué diccionarios vas a trabajar.]

In [31]:
# Encuentra los diccionarios
print(credit.head(10))

education = {"bachelor's degree" : 0,
            'secondary education' : 1,
            'some college' : 2,
            'primary education' : 3,
            'graduate degree' : 4}

family = {"married" : 0,
            'civil partnership' : 1,
            'widow / widower' : 2,
            'divorced' : 3,
            'unmarried' : 4}

family_count = {"married" : 2,
            'civil partnership' : 2,
            'widow / widower' : 1,
            'divorced' : 1,
            'unmarried' : 1}

   children  days_employed  dob_years            education  education_id  \
0         1    8437.673028         42    bachelor's degree             0   
1         1    4024.803754         36  secondary education             1   
2         0    5623.422610         33  secondary education             1   
3         3    4124.747207         32  secondary education             1   
4         0  340266.072047         53  secondary education             1   
5         0     926.185831         27    bachelor's degree             0   
6         0    2879.202052         43    bachelor's degree             0   
7         0     152.779569         50  secondary education             1   
8         2    6929.865299         35    bachelor's degree             0   
9         0    2188.756445         41  secondary education             1   

       family_status  family_status_id gender income_type  debt  total_income  \
0            married                 0      F    employee     0     40620.102   
1

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Seria mejor si aqui muestras todo en DataFrame

### Restaurar valores ausentes en `total_income`

In [32]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(age):
    if age < 21:
        return 'N/A' 
    elif age < 30:
        return '21-29'
    elif age < 40:
        return '30-39'
    elif age < 50:
        return '40-49'
    elif age < 60:
        return '50-59'
    elif age < 70:
        return '60-69'
    return '70+'    

In [33]:
# Prueba si la función funciona bien
age_group(70)

'70+'

In [34]:
# Crear una nueva columna basada en la función
credit['age_group'] = credit['dob_years'].apply(age_group)

In [35]:
# Comprobar cómo los valores en la nueva columna
credit['age_group']

0        40-49
1        30-39
2        30-39
3        30-39
4        50-59
         ...  
21520    40-49
21521    60-69
21522    30-39
21523    30-39
21524    40-49
Name: age_group, Length: 21525, dtype: object

Si bien en la actualidad un factor importante en los ingresos de una persona es su preparacion profesional y los dependientes o familia de esta persona no siempre es asi, ya que hay personas que suelen ganar mas sin tener estudios profesionales, por lo que para llenar los valores ausentes tenemos que ver a que grupo pertenece ya sea su escolaridad, el estatus de su familia, el tamaño de su familia, y a su vez relacionarla con los ingresos y los dias trabajados para tomar una decision de rellenar con estos datos con media o mediana

In [36]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,house plan,23.116912,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,get a car,11.02686,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,house plan,15.406637,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education purpose,11.300677,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding plan,932.235814,50-59


In [37]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
print(credit.groupby('income_type')['total_income'].mean())
print()
print(credit.groupby('age_group')['total_income'].mean())
print()
print(credit.groupby('family_status')['total_income'].mean())
print()
print(credit.groupby('education')['total_income'].mean())

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

age_group
21-29    25658.177196
30-39    28312.479963
40-49    28491.929026
50-59    25811.700327
60-69    23242.812818
70+      20125.658331
N/A      19586.303559
Name: total_income, dtype: float64

family_status
civil partnership    26694.428597
divorced             27189.354550
married              27041.784689
unmarried            26934.069805
widow / widower      22984.208556
Name: total_income, dtype: float64

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           290

In [38]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
print(credit.groupby('income_type')['total_income'].median())
print()
print(credit.groupby('age_group')['total_income'].median())
print()
print(credit.groupby('family_status')['total_income'].median())
print()
print(credit.groupby('education')['total_income'].median())

income_type
business                       27577.2720
civil servant                  24071.6695
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18962.3180
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

age_group
21-29    22905.0740
30-39    24667.5280
40-49    24755.6960
50-59    22203.0745
60-69    19817.4400
70+      18751.3240
N/A      17257.2770
Name: total_income, dtype: float64

family_status
civil partnership    23186.534
divorced             23515.096
married              23389.540
unmarried            23149.028
widow / widower      20514.190
Name: total_income, dtype: float64

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25618.4640
Name: total_income, dtype: float64


Tenemos diferentes grupos de datos para conecer el ingreso, tomaremos el factor de tipo de ingreso, ya que en esta seccion tenemos una mayor diferenciacion en cuanto a cuanto es lo que puede llegar a ingresar una persona con un trabajo especifico y no dejarnos llevar por su situacion sentimental o la edad, ya que seria irrelevante.

In [39]:
#  Escribe una función que usaremos para completar los valores ausentes
mean_type_income = credit.groupby('income_type')['total_income'].mean()
print(mean_type_income)

def values_total_income(row):
    total_income = row['total_income']
    income_type = row['income_type']
    
    if total_income == '':
        if income_type == 'business':
            return 32386.79
        elif income_type == 'civil servant':
            return 27343.72
        elif income_type == 'employee':
            return 25820.84
        elif income_type == 'entrepreneur':
            return 79866.10
        elif income_type == 'paternity / maternity leave':
            return 8612.66
        elif income_type == 'retiree':
            return 21940.39
        elif income_type == 'student':
            return 15712.26
        elif income_type == 'unemployed':
            return 21014.36
    if total_income != 0:
        return total_income
    
      

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64


Estos datos los usamos solo de base para la realizacion de la funcion, los resultados ya los tenemos y aplicamos en las siguientes secciones

In [40]:
# Comprueba si funciona       
row_values=['','retiree']
row_columns=['total_income','income_type']
row = pd.Series(data=row_values, index=row_columns)
print(values_total_income(row))

21940.39


In [41]:
# Aplícalo a cada fila
credit['total_income'] = credit['total_income'].fillna('')
credit['total_income'] = credit.apply(values_total_income,axis=1)

In [42]:
# Comprueba si tenemos algún error
print(credit[credit['income_type'].isna()])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose, years_employed, age_group]
Index: []


Hemos LLenado los valores ausentes de la columna de ingresos totales con la media de los ingresos en relacion al tipo de ingreso que tienen las personas, ahora ya no contamos con valores ausentes en esta columna

In [43]:
# Comprobar el número de entradas en las columnas
credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int32  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    19351 non-null  float64
 13  age_group         21525 non-null  object 
dtypes: float64(3), int32(1), int64(4), object(6)
memory usage: 2.2+ MB


###  Restaurar valores en `days_employed`

Primero repararemos los valores ya que hay gente que ha trabajado mas años que su propia edad, vemos de acuerdo a los agrupamientos que tenemos que los valores saltan de dias trabajados abajo de veinte mil dias hasta arriba de cien mil dias que es mas de lo que han vivido, por eso corregiremos estos datos en esta parte para tomar una decision en cuanto a usar medias o medianas.

In [44]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
try_years =credit[credit['age_group'] == '50-59']
try_years =credit[credit['days_employed'] > 20000]
print(try_years.sort_values(by='days_employed',ascending=False).tail(10))



def days_fix(days):
    if days > 20000:
        return days/100
    return days

credit['days_employed'] = credit['days_employed'].apply(days_fix)
print()
print(credit.groupby('income_type')['days_employed'].median())
print()
print(credit.groupby('age_group')['days_employed'].median())
print()
print(credit.groupby('family_status')['days_employed'].median())
print()
print(credit.groupby('education')['days_employed'].median())


       children  days_employed  dob_years            education  education_id  \
3386          0  328895.862752         58  secondary education             1   
3642          0  328874.270668         54  secondary education             1   
13325         0  328862.571412         55  secondary education             1   
5756          0  328842.364916         51    bachelor's degree             0   
5332          0  328834.274455         55  secondary education             1   
7229          1  328827.345667         32  secondary education             1   
14783         0  328795.726728         62    bachelor's degree             0   
17782         0  328771.341387         56  secondary education             1   
9328          2  328734.923996         41    bachelor's degree             0   
20444         0  328728.720605         72  secondary education             1   

           family_status  family_status_id gender income_type  debt  \
3386     widow / widower                 2      

In [45]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
print(credit.groupby('income_type')['days_employed'].mean())
print()
print(credit.groupby('age_group')['days_employed'].mean())
print()
print(credit.groupby('family_status')['days_employed'].mean())
print()
print(credit.groupby('education')['days_employed'].mean())

income_type
business                       2111.524398
civil servant                  3399.896902
employee                       2326.499216
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                        3650.034912
student                         578.751554
unemployed                     3664.136527
Name: days_employed, dtype: float64

age_group
21-29    1227.068268
30-39    2035.917557
40-49    2752.695051
50-59    3399.066462
60-69    3693.761202
70+      3731.259123
N/A       673.648361
Name: days_employed, dtype: float64

family_status
civil partnership    2469.536856
divorced             2666.775004
married              2667.825633
unmarried            2073.707848
widow / widower      3382.588503
Name: days_employed, dtype: float64

education
bachelor's degree      2429.669060
graduate degree        3536.559416
primary education      2540.081375
secondary education    2682.330382
some college           1673.807532
Name: days_e

Tomaremos como base las medianas del agrupamiento por 'income_type' ya que la lista de clasificacion es mas grande por lo que los datos son mas precisos y los valores son muy similares de acuerdo a la media, por lo que si una persona al momento de solicitar el credito y rectificar los datos con la institucion de credito y tiene mas dias no tendra algun problema, caso contrario si ponemos que tiene mas dias y resulta que son muchos menos los reales.

In [46]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
print(credit.groupby('income_type')['days_employed'].median())

def values_days_employed(row):
    days_employed = row['days_employed']
    income_type = row['income_type']
    
    if days_employed == '':
        if income_type == 'business':
            return 1547.38
        elif income_type == 'civil servant':
            return 2689.36
        elif income_type == 'employee':
            return 1574.20
        elif income_type == 'entrepreneur':
            return 520.84
        elif income_type == 'paternity / maternity leave':
            return 3296.75
        elif income_type == 'retiree':
            return 3652.13
        elif income_type == 'student':
            return 578.75
        elif income_type == 'unemployed':
            return 3664.13
    if days_employed != 0:
        return days_employed

income_type
business                       1547.382223
civil servant                  2689.368353
employee                       1574.202821
entrepreneur                    520.848083
paternity / maternity leave    3296.759962
retiree                        3652.133063
student                         578.751554
unemployed                     3664.136527
Name: days_employed, dtype: float64


In [47]:
# Comprueba que la función funciona
row1_values=['','student']
row1_columns=['days_employed','income_type']
row1 = pd.Series(data=row1_values, index=row1_columns)
print(values_days_employed(row1))

578.75


In [48]:
# Aplicar la función al income_type
credit['days_employed'] = credit['days_employed'].fillna('')
credit['days_employed'] = credit.apply(values_days_employed,axis=1)

In [49]:
# Comprueba si la función funcionó
print('Asi mismo ya podremos calcular los años trabajados en nuestra columna adicional que creamos.')
credit.info()

Asi mismo ya podremos calcular los años trabajados en nuestra columna adicional que creamos.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int32  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    19351 non-null  float64
 13  age_group         21525 non-null  object 
dtypes: float64(3), int32(1), int64(4), object

In [50]:
# Reemplazar valores ausentes
credit['years_employed'] = credit['days_employed'] / 365

In [51]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit.info()
print()
print(credit.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int32  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    21525 non-null  float64
 13  age_group         21525 non-null  object 
dtypes: float64(3), int32(1), int64(4), object(6)
memory usage: 2.2+ MB

   children  days_employed  dob_years            education  educat

Hemos llenado los valores ausents de acuerdo a las categorias que corresponden, ahora ya podemos clasificar y analizar los datos para tomar nuestras conclusiones finales

## Clasificación de datos



In [52]:
# Muestra los valores de los datos seleccionados para la clasificación
print(credit[['children','family_status','total_income','debt','purpose']])

       children      family_status  total_income  debt            purpose
0             1            married     40620.102     0         house plan
1             1            married     17932.802     0          get a car
2             0            married     23341.752     0         house plan
3             3            married     42820.568     0  education purpose
4             0  civil partnership     25378.572     0       wedding plan
...         ...                ...           ...   ...                ...
21520         1  civil partnership     35966.698     0         house plan
21521         0            married     24959.969     0          get a car
21522         1  civil partnership     14347.610     1         house plan
21523         3            married     39054.888     1          get a car
21524         2            married     13127.587     0          get a car

[21525 rows x 5 columns]


In [53]:
# Comprobar los valores únicos
print(credit['children'].unique())
print(credit['family_status'].unique())
print(credit['total_income'].unique())
print(credit['debt'].unique())
print(credit['purpose'].unique())

[1 0 3 2 4 5]
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']
[40620.102 17932.802 23341.752 ... 14347.61  39054.888 13127.587]
[0 1]
['house plan' 'get a car' 'education purpose' 'wedding plan'
 'real estate bussiness']


Podemos clasificar en cuestion del ingreso total, asi como tambien sacar el numero de personas en la familia para saber una relacion entre lo ganado y los miembros de la familia, si tienen deuda y el proposito del credito.




In [54]:
# Escribamos una función para clasificar los datos en función de temas comunes

def family_number(row):
    children = row['children']
    family_status = row['family_status']
    if family_status == 'married':
        return 2 + children
    elif family_status == 'civil partnership':
        return 2 + children
    elif family_status == 'widow / widower':
        return 1 + children
    elif family_status == 'divorced':
        return 1 + children
    elif family_status == 'unmarried':
        return 1 + children
    
    
credit['family_size'] = credit.apply(family_number, axis=1)

def income_range(income):
    if income <= 15000:
        return 'Low'
    if income <= 30000:
        return 'Regular'
    if income <= 45000:
        return 'High'
    return 'Super High'

credit['income_category'] = credit['total_income'].apply(income_range)

In [55]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit['income_per_head'] = credit['total_income'] / credit['family_size']

credit.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,age_group,family_size,income_category,income_per_head
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,house plan,23.116912,40-49,3,High,13540.034
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,get a car,11.02686,30-39,3,Regular,5977.600667
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,house plan,15.406637,30-39,2,Regular,11670.876
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education purpose,11.300677,30-39,5,High,8564.1136
4,0,3402.66072,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding plan,9.322358,50-59,2,Regular,12689.286


In [56]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
print(credit['family_size'].value_counts().sort_index())
print(credit['income_category'].value_counts().sort_index())

1     3910
2    11124
3     4171
4     1965
5      309
6       37
7        9
Name: family_size, dtype: int64
High           4568
Low            3743
Regular       11354
Super High     1860
Name: income_category, dtype: int64


In [57]:
# Obtener estadísticas resumidas para la columna
income_per_head_median = credit['income_per_head'].median()
print(income_per_head_median)
print(credit['income_per_head'].mean())

11342.853
14101.680963360368


Agruparemos los en funcion a la mediana del income_per_head ya que es un valor que usaremos como referencia para clasificar si se puede sostener la familia de acuerdo al family_size 

In [58]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def income_per_head_category(row):
    income_per_head = row['income_per_head']
    family_size = row['family_size']
    if family_size <= 2 and income_per_head < income_per_head_median:
        return 'possyble'
    if family_size <= 4 and income_per_head < income_per_head_median:
        return 'check'
    if family_size > 4 and income_per_head < income_per_head_median:
        return 'questionable'
    if family_size <= 2 and income_per_head > income_per_head_median:
        return 'grant'
    if family_size <= 4 and income_per_head > income_per_head_median:
        return 'possyble'
    if family_size > 4 and income_per_head > income_per_head_median:
        return 'check'

In [59]:
# Crear una columna con categorías
credit['income_per_head_category'] = credit.apply(income_per_head_category, axis=1)

In [60]:
# Contar los valores de cada categoría para ver la distribución
credit['income_per_head_category'].value_counts()

grant           9662
possyble        6452
check           5074
questionable     336
Name: income_per_head_category, dtype: int64

Ya tenemos una columna con una cateoria que nos permite tener una idea si otorgar de forma facil un credito o cuestionarnos mas acerca si otorgar los creditos, esta categorizacino se realizo de acuerdo al tamaño de la familia, al ingreso por cabeza de la familia y la mediana de ingresos por cabeza de forma general.

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [61]:
# Comprueba los datos sobre los hijos y los pagos puntuales
print(credit.groupby('family_size')['children'].count())
print()
# Calcular la tasa de incumplimiento en función del número de hijos
print(credit.groupby('income_per_head_category')['children'].count()/credit['children'].count())

family_size
1     3910
2    11124
3     4171
4     1965
5      309
6       37
7        9
Name: children, dtype: int64

income_per_head_category
check           0.235726
grant           0.448873
possyble        0.299744
questionable    0.015610
Name: children, dtype: float64


**Conclusión**
De acuerdo al numero de niños y al ingreso por cabeza podemos ver que al 44% podemos garantizar el pago, sin embargo, al 66% restante tendriamos que revisar y cuestionar el otorgar el credito.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [62]:
# Comprueba los datos del estado familiar y los pagos a tiempo
print(credit.groupby('family_size')['children'].count())
print()
# Calcular la tasa de incumplimiento en función del número de hijos
print(credit.groupby('income_per_head_category')['children'].count()/credit['children'].count())

family_size
1     3910
2    11124
3     4171
4     1965
5      309
6       37
7        9
Name: children, dtype: int64

income_per_head_category
check           0.235726
grant           0.448873
possyble        0.299744
questionable    0.015610
Name: children, dtype: float64


**Conclusión**

Si bien la situacion familiar es un factor importante al momento de categorizar de acuerdo al numero de personas en la familia, usariamos el mismo estudio anterior de acuerdo al numero de personas en la familia, ya que puede ser una persona sin hijos o una persona con 5 hijos lo que independientemente del estatus de la familia, lo resumimos al ingreso por cabeza y asi entramos a revisar en que categoria se encuentran para otorgar el credito.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [63]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
print(credit.groupby('income_category')['children'].count())
print()

# Calcular la tasa de incumplimiento basada en el estado familiar
print(credit.groupby('income_category')['children'].count()/credit['children'].count())

income_category
High           4568
Low            3743
Regular       11354
Super High     1860
Name: children, dtype: int64

income_category
High          0.212218
Low           0.173891
Regular       0.527480
Super High    0.086411
Name: children, dtype: float64


**Conclusión**

Tenemos que de acuerdo al ingreso el 30% no tendria problema de adquirir un credito de acuerdo a su ingreso, sin embargo, tenemos que revisar los parametros de aquellos con categoria regular que representan el 52% y cuestionar a las personas con bajo ingreso que son el 17%.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [64]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
credit_pivot = credit.pivot_table(index=['purpose','income_category'],values='total_income',aggfunc='count',margins=True)
credit_pivot['%'] = (credit_pivot['total_income']/credit_pivot['total_income'].sum())*100
#ayuda ya que no me da el 100% en el total

print(credit_pivot)

                                       total_income          %
purpose               income_category                         
education purpose     High                      822   1.909408
                      Low                       725   1.684088
                      Regular                  2143   4.977933
                      Super High                332   0.771196
get a car             High                      920   2.137050
                      Low                       741   1.721254
                      Regular                  2278   5.291521
                      Super High                376   0.873403
house plan            High                     1233   2.864111
                      Low                       966   2.243902
                      Regular                  3028   7.033682
                      Super High                482   1.119628
real estate bussiness High                     1096   2.545877
                      Low                       911   2

**Conclusión**

Con esto nos damos cuenta que de acuerdo al proposito podemos observar en la clasificacion de total de ingreso si es posible o no otorgar un credito, ya que nos es indiferente el proposito con esto podemos ver el porcentaje de cada proposito con su categoria de ingreso total.


# Conclusión general 

1.- Teniamos datos ausentes en columnas numericas las cuales no pueden ser eliminados y/o rellenados con un valor medio o promedio, ya que dentro de esas columnas en especifico tenemos valores que categorizan la tabla y hasta no tener claraas las diferentes categorias podemos llenar estos valores ausentes.
2.- En cuanto a las columnas con valores categoricos teniamos que clasificar y arreglar los valores en las columnas que tenian datos similares pero no estaban homologados lo cual nos hacia tener una clasificacion mas amplia pero que no era confiable al tener datos del mismo tipo separados debido a la ortografia.
3.- Si bien es dificil tener un valor duplicado en esta tabla ya que no hay un identificador o valor unico por entrada de datos, lo que nos es imposible eliminar datos, ya que aunque parezca dificil no es imposible que una persona tenga los mismos datos que otra persona.
4.- Seguimos un plantemiento de primero identificar los datos unicos de cada columna y homologarlos, en este caso utilizamos columnas para categorizar de acuerdo al ingreso total, al numero de personas en la familia, al ingreso por numero de personas, lo que nos permite tener un panorama de diferentes opciones al decidir si otorgar o no un credito, de igual forma rellenamos los valores ausentes de acuerdo al promedio y de cada categoria en especifico y no un promedio general, lo que nos da un valor mas preciso al momento de rellenar valores ausentes.
5.-Finalmente podemos ver la comparacion de las diferentes agrupaciones para poder tener un panorama mas amplio al momento de tomar una decisino de otorgar un credito de acuerdo a las diferentes variables que podamos contemplar.



