# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

## Abre el archivo de datos y mira la información general. 


In [1]:
# Cargo todas las librerías
import pandas as pd

# Cargo los datos
data = pd.read_csv('/datasets/credit_scoring_eng.csv')
data
    

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [4]:
# Obtengo información de si hay valores ausentes sobre los datos
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

- tenemos valores ausentes en dos columnas cuales datos son importantes 
- ambas tienen la misma cantidad de valores ausentes

In [5]:
# Veo la tabla filtrada con valores ausentes de la primera columna donde faltan datos
days_datos = data[data['days_employed'].isna()]
days_datos.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [6]:
# Aplique múltiples condiciones para filtrar datos y ver el número de filas en la tabla filtrada.
days_income = data[data['days_employed'].isna() & data['total_income'].isna()] 
days_income.isna().sum()/len(data)

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

**Conclusión intermedia**

- El porcentaje de valores ausentes es minimo en comparación con el total de los datos, estos datos se podrian suplantar con valores medios o medianos.

In [7]:
# investigo a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
print(data[data['days_employed'].isna()]['education'].value_counts())
print()
print(data['education'].value_counts())

secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
PRIMARY EDUCATION         1
Primary Education         1
Name: education, dtype: int64

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64


- Notamos que las personas que estan graduadas no tienen valores ausentes en la columna dias trabajados.

In [8]:
# Comprobación de la distribución
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


- Encontramos con la descripcion de datos que las personas que no tenia educacion son las que mas valores ausentes tienen.



In [9]:
# Comprobando la distribución en el conjunto de datos entero
data['education'].value_counts() / len(data['days_employed'])

secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
Graduate Degree        0.000046
GRADUATE DEGREE        0.000046
Name: education, dtype: float64

## Transformación de datos

In [10]:
# Vemos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
data['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

- Conseguimos valores que son iguales y estan escritos de varias formas distintas. Lo arreglaremos cambiando todos los nombres a minusculas 

In [11]:
# Arreglo los registros.
data['education'] = data['education'].str.lower()

In [12]:
# Comprobando todos los valores en la columna para asegurarme de que los haya corregido
data['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [13]:
# Vemos la distribución de los valores en la columna `children`
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

- Encontramos que los valores problematicos son los siguientes:
- 47 personas dijeron que tenian -1 hijo.
- 76 personsas dijeron que tenian 20 hijos.

- Vamos a realizar un conteo de filas para saber cuantas filas son las que tienen valores problematicos, luego ese resultado lo vamos a dividir por el numero de filas en total y asi obtendremos un porcentaje de valores problematicos.

In [14]:
# Realizo un conteo de filas donde se encuentran las filas con valores problematicos.
len(data[data['children']== -1]) + len(data[data['children']== 20])

123

In [15]:
# Hago un porcentaje de valores problematicos.
total = len(data)
datos_problematicos = len(data[data['children']== -1]) + len(data[data['children']== 20])

children_dat = datos_problematicos / total
print(f'Porcentaje de valores problematicos: {children_dat:.4%}')


Porcentaje de valores problematicos: 0.5714%


- El porcentaje de valores problematicos es muy bajo por lo que esto puede ser un error humano, procederemos a reemplazar estos valores por 1 y 2

In [16]:
# Suplantamos los valores problematico con valores reales.
data['children'] = data['children'].replace(-1, 1)
data['children'] = data['children'].replace(20, 2)

In [17]:
# Compruebo la columna `children` de nuevo para asegurarme de que todo está arreglado
data.value_counts('children')

children
0    14149
1     4865
2     2131
3      330
4       41
5        9
dtype: int64

- En esta columna de dias trabajados encontramos que tenemos dias en negativos, y una cantidad de dias que suman mas de 100 años, por lo que debemos, cambiar estos a numeros positivos y averiguar si hablan de dias o horas trabajadas.

In [18]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

[Si la cantidad de datos problemáticos es alta, podría deberse a problemas técnicos. Puede que queramos proponer la razón más obvia por la que podría haber sucedido y cuáles podrían haber sido los datos correctos, ya que no podemos eliminar estas filas problemáticas.]

In [19]:
# Abordo los valores en negatico y los transformo a valores positivos.
# Compruebo que todos los valores se pasaran a negativos.
data['days_employed'] = abs(data['days_employed'])
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [20]:
# Reviso la columna `dob_years` en busca de valores sospechosos y cuento el porcentaje
data['dob_years'].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

- En esta columna conseguimos que 101 personas tienen 0 años de edad, como no se puede sacar el promedio de edad de una persona para solicitar un credito estos datos seran eliminado.

In [21]:
# Eliminaremos todos a las personas que tienen 0 de edad.
years_data = data[data.dob_years != 0]

In [22]:
# Compruebo que se eliminaran los valores 0
years_data['dob_years'].value_counts().reset_index().sort_values(by='index')

Unnamed: 0,index,dob_years
53,19,14
51,20,51
46,21,111
43,22,183
41,23,254
40,24,264
35,25,357
33,26,408
21,27,493
19,28,503


In [23]:
# Veo los valores de la columna family_status.
data['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

- No tenemos problemas con esta columna ya que el estado civil no afectaria a la hora de una solicitud de credito. por lo tanto no tenemos valores problematicos que abordar 

[Ahora revisemos la columna `gender`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [24]:
# Veo los valores en la columna gender
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

- en esta columna tenemos una persona que no tiene genero definido, esto no es importante para el seguimiento de las deudas.

In [25]:
# Vemos los valores en la columna income_type
data['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

-No hemos encontrado ningun valor problematico.



In [26]:
# Comprobamos si hay duplicados
data.duplicated().sum()


71

- Encontramos que hay 71 datos duplicados por lo que estos seran eliminado ya que no queremos tener la informacion repetida.

In [27]:
# ya que si se encontraron duplicados, abordamos estos y los eliminamos.
data2 = data.drop_duplicates().reset_index(drop=True)
data2.head(100)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
95,0,541.832241,51,bachelor's degree,0,married,0,F,employee,0,15070.060,car
96,0,,44,secondary education,1,married,0,F,employee,0,,buy residential real estate
97,0,,47,bachelor's degree,0,married,0,F,employee,0,,profile education
98,0,364906.205736,54,bachelor's degree,0,married,0,F,retiree,0,31953.168,buying property for renting out


In [28]:
# Eliminemos columnas que no son necesarias.
data.drop(['education_id', 'family_status_id'], axis=1)

Unnamed: 0,children,days_employed,dob_years,education,family_status,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,married,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,married,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,married,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,married,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,civil partnership,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,civil partnership,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,married,F,retiree,0,24959.969,purchase of a car
21522,1,2113.346888,38,secondary education,civil partnership,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,married,M,employee,1,39054.888,buying my own car


In [29]:
# comprobamos que se eliminaran los duplicados
data2.duplicated().sum()

0

In [30]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
data2.shape

(21454, 12)

In [31]:
# Realizamos un analisi para obtener el porcentaje de valores duplicados eliminados
data_duplicated = len(data)
data_limpia = len(data2)

data_total = (data_limpia / data_duplicated) - 1
print(f'Porcentaje de valores duplicados eliminados: {data_total:.2%}')

Porcentaje de valores duplicados eliminados: -0.33%


- En comparacion disminuyo el numero de filas y el porcentaje de valores duplicados es minimo 


# Trabajar con valores ausentes

- Hacemos un diccionario con un DataFrame, para trabajar con las columnas que contienen ids.

In [32]:
# Encuentra los diccionarios
data_dicc = {'education_id': data['education'], 'family_status_id': data['family_status']}
data_dicc

{'education_id': 0          bachelor's degree
 1        secondary education
 2        secondary education
 3        secondary education
 4        secondary education
                 ...         
 21520    secondary education
 21521    secondary education
 21522    secondary education
 21523    secondary education
 21524    secondary education
 Name: education, Length: 21525, dtype: object,
 'family_status_id': 0                  married
 1                  married
 2                  married
 3                  married
 4        civil partnership
                ...        
 21520    civil partnership
 21521              married
 21522    civil partnership
 21523              married
 21524              married
 Name: family_status, Length: 21525, dtype: object}

### Restaurar valores ausentes en `total_income`

In [33]:
# personas entre 18 y 35 entraran en la categoria ¡young!
# personas entre los 36 y 60 entraran en la categoria ¡adult!
# personas entres los 61 y 70 entrarab en la categoria ¡retired!

In [34]:
# Vamos a crear una función que calcule la categoría de edad
def category_years(dob_years):
    if dob_years <= 35 :
        return 'young'
    if dob_years >= 36 and dob_years <= 60:
        return 'adult'
    if dob_years >= 61:
        return 'retired'


In [35]:
# Prueba si la función funciona bien
category_years(38)

'adult'

In [36]:
category_years(62)

'retired'

In [37]:
category_years(20)

'young'

In [38]:
# Crear una nueva columna basada en la función
data['category_years'] = data['dob_years'].apply(category_years)


In [39]:
# Comprobar cómo los valores en la nueva columna
data['category_years'].value_counts()

adult      12690
young       6695
retired     2140
Name: category_years, dtype: int64

- Vamos a sumplatar los valores ausentes con 0 por el momento mientras seguimos estudiando si colocamos la media o mediana.

In [40]:
# Creamos una tabla sin valores ausentes sustituyendolos por el numero 0 mostramos las primeras 13 filas.
data = data.fillna(0)
data.head(13)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_years
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,young
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,young
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,young
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,young
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


In [41]:
# comprobando que se sustituyern los valores ausentes.
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
category_years      0
dtype: int64

- los valores ausentes fueron suplantados por valores en 0, ahora examinaremos los valores medios deacuerdo a la categoria de edad.

In [42]:
# Examino los valores medios de los ingresos en función de los factores que identificaste
data_media = data.groupby('category_years').agg({'total_income': 'mean'})
data_media

Unnamed: 0_level_0,total_income
category_years,Unnamed: 1_level_1
adult,24598.692559
retired,20655.027746
young,24198.217668


In [43]:
# Examino los valores medianos de los ingresos en función de los factores que identificaste
data_mediana = data.groupby('category_years').agg({'total_income': 'median'})
data_mediana

Unnamed: 0_level_0,total_income
category_years,Unnamed: 1_level_1
adult,22013.619
retired,18272.8285
young,22150.848


In [44]:
# examinamos con la misma funcion deacuerdo a nuestra categoria la media según la cantidad de hijos.
data_media_children = data.groupby('children').agg({'total_income': 'mean'})
data_mediana_children = data.groupby('children').agg({'total_income': 'median'})
print(data_media_children)
print()
print(data_mediana_children)


          total_income
children              
0         23735.159081
1         24679.582824
2         24732.258335
3         26123.792285
4         22630.590439
5         24238.975333

          total_income
children              
0           21361.5200
1           22254.7670
2           21795.1920
3           22746.6115
4           21908.5370
5           26953.7480


In [45]:
# examinamos con la misma funcion deacuerdo a nuestra categoria la media según el estatus laboral.
data_media_income = data.groupby('income_type').agg({'total_income': 'mean'})
data_mediana_income = data.groupby('income_type').agg({'total_income': 'median'})
print(data_media_income)
print()
print(data_mediana_income)

                             total_income
income_type                              
business                     29151.298994
civil servant                24588.741064
employee                     23254.780881
entrepreneur                 39933.051500
paternity / maternity leave   8612.661000
retiree                      19590.450797
student                      15712.260000
unemployed                   21014.360500

                             total_income
income_type                              
business                       25984.2160
civil servant                  22245.5120
employee                       21367.4330
entrepreneur                   39933.0515
paternity / maternity leave     8612.6610
retiree                        17628.7505
student                        15712.2600
unemployed                     21014.3605


- Aplicare para mi dataFrame la mediana, y tome esta decisión ya que los valores con la media se alteran mucho mas. 

In [46]:
# reemplazo los valores ausentes de total_income con la mediana segun su category_years.
median_young = data[data['category_years'] == 'young']['total_income'].median()
median_adult = data[data['category_years'] == 'adult']['total_income'].median()
median_retired =data[data['category_years'] == 'retired']['total_income'].median()
print(median_young, median_adult, median_retired)

22150.848 22013.619000000006 18272.8285


In [47]:
#  creamos una función que usaremos para completar los valores ausentes de total_income.
def total_income_remplazo(row):
    if row['category_years'] == 'young' and row['total_income'] == 0:
        return median_young
    elif row['category_years'] == 'adult' and row['total_income'] == 0:
        return median_adult
    elif row['category_years'] == 'retired' and row['total_income'] == 0:
        return median_retired
    else:
        return row['total_income'] 

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Aqui bien!

In [48]:
# Comprueba si funciona
data['total_income'] = data.apply(total_income_remplazo, axis=1)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_years
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,young
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,young
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult


In [49]:
# Comprueba si tenemos algún error
data['total_income'].describe()

count     21525.000000
mean      26270.813342
std       15701.425224
min        3306.762000
25%       17247.708000
50%       22150.848000
75%       31286.979000
max      362496.645000
Name: total_income, dtype: float64

- Logramos suplantar todos los valores ausentes de la columna total_income con la mediana ya que con la media los valores se alteraban mucho.

In [50]:
# Comprobar el número de entradas en las columnas
data.shape

(21525, 13)

In [51]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
days_employed_mediana = data.groupby('category_years').agg({'days_employed': 'median'})
days_employed_mediana


Unnamed: 0_level_0,days_employed
category_years,Unnamed: 1_level_1
adult,2232.969051
retired,350646.328811
young,1063.722745


In [52]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
days_employed_media = data.groupby('category_years').agg({'days_employed': 'mean'})
days_employed_media

Unnamed: 0_level_0,days_employed
category_years,Unnamed: 1_level_1
adult,56421.462262
retired,260415.093282
young,3224.833958


- Como sabemos los valores de la columna days_employed tienen un valor maximo muy alto para ser dias trabajados por lo tanto este valor altera el resultado en medias asi que decido utilizar la mediana para segir con mi estudio.

In [53]:
# Escribamos una función que calcule medianas según el parámetro identificado
median_adult_days = data[data['category_years'] == 'adult']['days_employed'].median()
median_retired_days = data[data['category_years'] == 'retired']['days_employed'].median()
median_young_days = data[data['category_years'] == 'young']['days_employed'].median()
print(median_adult_days, median_retired_days, median_young_days)

2232.9690512362786 350646.32881068747 1063.7227450351686


In [54]:
# creando una funcion para sustituir los valores ausentes de days_employed
def total_days_remplazo(row):
    if row['category_years'] == 'young' and row['days_employed'] == 0:
        return median_young_days
    elif row['category_years'] == 'adult' and row['days_employed'] == 0:
        return median_adult_days
    elif row['category_years'] == 'retired' and row['days_employed'] == 0:
        return median_retired_days
    else:
        return row['days_employed'] 

In [55]:
# Comprobando que la funcion si funcione.
data['days_employed'] = data.apply(total_days_remplazo, axis=1)
data.head(13)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category_years
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,young
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,young
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,young
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,young
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


In [56]:
# Comprobando el numero de entradas en las columnas.
data.shape

(21525, 13)

In [57]:
# Comprobando si total_income y days_employed tengan la misma cantidad de filas que el resto de la tabla.
print(data['total_income'].shape)
print()
print(data['days_employed'].shape)

(21525,)

(21525,)


In [58]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
print(data.info())
print()
print(data.isna().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  category_years    21525 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB
None

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_s

- Nuestra tabla ya quedo sin valores ausentes y todas la columnas tiene la misma cantidad de filas.


## Clasificación de datos

In [59]:
# Muestra los valores de los datos seleccionados para la clasificación
print(data['education'].value_counts())
print()
print(data['family_status'].value_counts())

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64


In [60]:
# Comprobar los valores únicos
print(data['education'].unique())
print()
print(data['family_status'].unique())

["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']


In [61]:
# Escribamos una función para clasificar los datos en función de temas comunes
data_group = data.groupby('family_status')['education'].value_counts(ascending=False)
data_group

family_status      education          
civil partnership  secondary education    2999
                   bachelor's degree       956
                   some college            166
                   primary education        56
divorced           secondary education     827
                   bachelor's degree       316
                   some college             31
                   primary education        20
                   graduate degree           1
married            secondary education    8848
                   bachelor's degree      3046
                   some college            341
                   primary education       141
                   graduate degree           4
unmarried          secondary education    1779
                   bachelor's degree       806
                   some college            193
                   primary education        34
                   graduate degree           1
widow / widower    secondary education     780
                   ba

- Con esta agrupacion no es necesario crear una columna con categorias ya que debido a que tomamos esta clasifcacion podemos ver el total de cuantas personas tienen en comun la educacion con el status familiar.

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [62]:
# Comprueba los datos sobre los hijos y los pagos puntuales
dat_1 = data.groupby('children')['debt'].count()
dat_2 = data[data['debt'] == 1]['children'].value_counts()
# Calcular la tasa de incumplimiento en función del número de hijos
dat_3 = dat_2 / dat_1 *100
print(dat_3)



0    7.512898
1    9.146968
2    9.479118
3    8.181818
4    9.756098
5         NaN
dtype: float64


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [63]:
# Comprueba los datos del estado familiar y los pagos a tiempo
dat_4 = data.groupby('family_status')['debt'].count()
dat_5 = data[data['debt'] == 1]['family_status'].value_counts()
# Calcular la tasa de incumplimiento basada en el estado familiar
dat_6 = dat_5 / dat_4 * 100
print(dat_6)

civil partnership    9.288963
divorced             7.112971
married              7.520194
unmarried            9.740491
widow / widower      6.562500
dtype: float64


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [64]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

dat_7 = data.groupby('total_income')['debt'].count()
dat_8 = data[data['debt'] == 1]['total_income'].value_counts()
# Calcular la tasa de incumplimiento basada en el nivel de ingresos
dat_9 = dat_7 / dat_8
print(dat_9)


3306.762      1.0
3392.845      NaN
3418.824      NaN
3471.216      NaN
3503.298      NaN
             ... 
273809.483    NaN
274402.943    NaN
276204.162    NaN
352136.354    1.0
362496.645    NaN
Length: 19350, dtype: float64


**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

**Conclusión**
- podemos observar que las personas que quieren construir una propiedad son las personas con mayor pocertanje de no pago en el credito 

In [65]:
# Consulta los porcentajes de tasa de incumplimiento para cada proposito del credito y analizalos.
data9 = data.groupby('purpose')['debt'].count()
data10 = data[data['debt'] == 1]['purpose'].value_counts()
data11 = data10 / data9
data11

building a property                         0.087097
building a real estate                      0.076677
buy commercial real estate                  0.070783
buy real estate                             0.068910
buy residential real estate                 0.067545
buying a second-hand car                    0.075157
buying my own car                           0.091089
buying property for renting out             0.079632
car                                         0.084848
car purchase                                0.090909
cars                                        0.092050
construction of own property                0.066142
education                                   0.071588
getting an education                        0.083521
getting higher education                    0.107981
going to university                         0.086694
having a wedding                            0.082368
housing                                     0.071097
housing renovation                          0.

- ¿Cómo describirías los problemas identificados en los datos?
 - todos los problemas identificados solo fueron por errores humanos 
- ¿Qué métodos utilizas para reemplazar tipos de datos y procesar valores ausentes y datos duplicados?
- Los metodos utilizados fueron:
 - abs
 - drop_duplicates()
 - replace()
 - fillna()
- ¿Has clasificado los datos? ¿Por qué lo hiciste de la manera en que lo hiciste?
 - logre clasificarlo de la mejor manera en la que se pueda entender la tabla. 
- ¿Exportaste los datos finales a tablas dinámicas?
 - no use tablas dinamicas
- ¿Utilizaste cláusulas try-except en tu código para manejar errores inesperados?
 - no
- ¿Seguiste la estructura correcta del proyecto y escribiste un código limpio?
 - no, me coto entender los enunciados del proyecto.
- ¿Sacaste conclusiones precisas y útiles?
 - no
- ¿Dejaste comentarios sobre cada paso que tomaste?
 - deje la mayoria de los comentarios posible.

 ### conclusiones
[Como podemos observar con los ejercicios realizados pudimos eliminar los valores duplicados, logramos sustituir los valores ausentes por medias esto debido a que en la columna de days_employed habian valores alterados.]
[logramos obtener los porcentaje de morosidad y por cada uno de los valores con morosidad 
logramos identificar las personas mas prospensas a tener morosidad: 
las personas que tienen mas de un hijo.
Personas que estan en estudio.
Personas que no terminaron sus estudios
personas que estan solteras 
tambien identificamos que las personas con el proposito de obtener un auto son las personas con mas morosidad.
clasificamos los usuarios por temas comunes y la mayoria de las personas tienen en comun que las personas casada solo tienen la educacion secundaria.]