# Record Crediticio

# Análisis del riesgo de incumplimiento de los prestatarios

En este proyecto analizaremos el perfil del cliente para la división de préstamos de un banco. probaremos si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. 

El informe resultante servira de base al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

# Contenido
1. Descripción de los datos
2. Exploración de datos
3. Transformación de datos
3.1 Restaurar valores ausentes
3.2 Restaurar valores 
4. Clasificación de datos
5. Comprobación de las hipótesis

## Descripción de datos. 

In [1]:
# Cargar todas las librerías
import pandas as pd

# Carga los datos
df=pd.read_csv("/datasets/credit_scoring_eng.csv")
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Ahora vamos a explorar nuestros datos. Querrás ver cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.]

In [2]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
# vamos a mostrar las primeras filas N
  
df.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


En esta primera impresión de la tabla ampliada podemos ver valores negativos en columnas con dias de trabajo, algunos valores ausentes, diferencias en tipografía lo cual debemos mejorar para que quede un trabajo más limpio.

In [4]:
# Obtener información sobre los datos
idx=df.isna().any(axis=1)
df[idx]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Tenemos valores ausentes principalmente en days_employed y en total_income

In [5]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
df_filtered=df[df['days_employed'].isnull()]
df_filtered

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [6]:
df_filtered['total_income'].count()


0

In [7]:
df_filtered=df[df['total_income'].isnull()]
df_filtered

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Los valores de la columna days_employed y total_income hasta el momento parecen ser simetricos.

In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
df_filtered=df[(df['days_employed'].isnull()) & (df['total_income'].isnull())]
print(f'El total de valores ausentes es de {len(df_filtered)}.')

El total de valores ausentes es de 2174.


**Conclusión intermedia**


El numero de filas con valores ausentes coincide para ambas posiciones.

In [9]:
print(f' el porcentaje de valores ausentes en df es de {len(df)}')

 el porcentaje de valores ausentes en df es de 21525


In [10]:
df_porcentajes= round(len(df_filtered)/len(df) * 100, 1)
print(f'los valores ausentes representan el {df_porcentajes} % de los datos')

los valores ausentes representan el 10.1 % de los datos


In [11]:
df_completo = df.dropna()

In [12]:
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [13]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes

# Como variable a investigar utilizaremos income_type con la finalidad de determinar la correlación entre los valores ausentes y el tipo de trabajo del cliente.
variable='income_type'

serie_completo=df_completo['income_type']
serie_filtered=df_filtered['income_type']

print('Totales de la serie con información sin valores ausentes:')
print(serie_completo.value_counts())
print('')
print('Totales de la serie con información con valores ausentes:')
print(serie_filtered.value_counts())

Totales de la serie con información sin valores ausentes:
employee                       10014
business                        4577
retiree                         3443
civil servant                   1312
unemployed                         2
student                            1
entrepreneur                       1
paternity / maternity leave        1
Name: income_type, dtype: int64

Totales de la serie con información con valores ausentes:
employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64


In [14]:
# Comprobación de la distribución

total_serie_completo=len(serie_completo)
total_serie_filtered=len(serie_filtered)

print('Total de ditribución serie completa:')
print(round(serie_completo.value_counts()/total_serie_completo *100,1))
print('')
print('Total de distribución serie con valores ausentes:')
print(round(serie_filtered.value_counts()/total_serie_filtered *100, 1))

Total de ditribución serie completa:
employee                       51.7
business                       23.7
retiree                        17.8
civil servant                   6.8
unemployed                      0.0
student                         0.0
entrepreneur                    0.0
paternity / maternity leave     0.0
Name: income_type, dtype: float64

Total de distribución serie con valores ausentes:
employee         50.8
business         23.4
retiree          19.0
civil servant     6.8
entrepreneur      0.0
Name: income_type, dtype: float64


In [15]:
# Comprobando la distribución en el conjunto de datos entero
total_serie_completo=(len(serie_completo))
print(round(serie_completo.value_counts()/total_serie_completo *100,1))


employee                       51.7
business                       23.7
retiree                        17.8
civil servant                   6.8
unemployed                      0.0
student                         0.0
entrepreneur                    0.0
paternity / maternity leave     0.0
Name: income_type, dtype: float64


Si, la distribución de una tabla a otra no tiene tanta diferencia, podemos probar con la variable educación para determinar si existe alguna variación comparando diferentes variables dentro de la tabla.

In [16]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
variable='education'

serie_completo=df_completo['education']
serie_filtered=df_filtered['education']

print('Totales de la serie con información sin valores ausentes:')
print(serie_completo.value_counts())
print('')
print('Totales de la serie con información con valores ausentes:')
print(serie_filtered.value_counts())

Totales de la serie con información sin valores ausentes:
secondary education    12342
bachelor's degree       4222
SECONDARY EDUCATION      705
Secondary Education      646
some college             613
BACHELOR'S DEGREE        251
Bachelor's Degree        243
primary education        231
Some College              40
SOME COLLEGE              22
PRIMARY EDUCATION         16
Primary Education         14
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

Totales de la serie con información con valores ausentes:
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
SOME COLLEGE              7
Some College              7
PRIMARY EDUCATION         1
Primary Education         1
Name: education, dtype: int64


Aun cuando probamos con diferentes variables podemos ver que existe poca diferencia entre las tablas filtradas y las tablas completas, por tanto considero que los datos nulos corresponden a accidentes ya que en caso de haber algun patron que cause los vacios tendriamos mucho mas columnas y clientes con problemas.

Considero que los valores ausentes son accidentales, no ocurre algo en especifico que pueda llevar a que los clientes no suministren toda la información correspondiente.

Los valores ausentes se mantendran, podrian ser reemplazados por no aplica, ya que en caso de eliminarlos podria alterarse el resultado final. 

Para abordar los datos que tienen valores incorrectos o que no nos son utiles para nuestros datos, tendremos que aplicar correcciones en cuanto a escrituras, corregir problemas en cuanto a los rangos en los dias trabajados, tenemos datos en negativo que no pueden ser utilizados,con la finalidad de dejar una base de datos limpia que pueda permitir tomar decisiones acertadas basadas en un perfil previamente analizado y corregido.

## Transformación de datos


In [17]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print(df['education'])

0          bachelor's degree
1        secondary education
2        Secondary Education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object


In [18]:
# Arregla los registros si es necesario
df_filtered['education']=df_filtered['education'].str.lower()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['education']=df_filtered['education'].str.lower()


In [19]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
df_filtered['education']

12       secondary education
26       secondary education
29       secondary education
41       secondary education
55       secondary education
                ...         
21489    secondary education
21495    secondary education
21497      bachelor's degree
21502    secondary education
21510    secondary education
Name: education, Length: 2174, dtype: object

In [20]:
df['education']=df['education'].str.lower()

In [21]:
# Veamos la distribución de los valores en la columna `children`
print(df['children'].describe())

count    21525.000000
mean         0.538908
std          1.381587
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64


In [22]:
# [arregla los datos según tu decisión]
df['children']=df['children'].replace(-1, 1)
df['children']=df['children'].replace(20,2)

In [23]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

print(df['children'].describe())

count    21525.000000
mean         0.479721
std          0.755528
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          5.000000
Name: children, dtype: float64


In [24]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [25]:
df.drop(df.index[df['days_employed']>18250], axis=0, inplace=True)

In [26]:
df['days_employed'].describe()

count    15906.000000
mean     -2353.015932
std       2304.243851
min     -18388.949901
25%      -3157.480084
50%      -1630.019381
75%       -756.371964
max        -24.141633
Name: days_employed, dtype: float64

In [27]:
len('df')/len('days_employed')*100

15.384615384615385

Existen valores en negativo lo cual no deberia aplicar en este tipo de columna trabajamos con el total de dias trabajados y no tendria un sentido lógico tener algún valor negativo.

La cantidad de valores valores problematicos es de 15% por tanto pudiesemos concluir que se debe a un error o accidente cometido por los clientes al suministrar sus datos.

Si la cantidad de datos problemáticos es alta, podría deberse a problemas técnicos. Puede que queramos proponer la razón más obvia por la que podría haber sucedido y cuáles podrían haber sido los datos correctos, ya que no podemos eliminar estas filas problemáticas.

In [28]:
# Aborda los valores problemáticos, si existen.
filtered=df[df['days_employed']>0]

for value in filtered:
    df['days_employed']=df['days_employed'].abs()
    print(filtered)

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status

In [29]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['days_employed'].describe()

count    15906.000000
mean      2353.015932
std       2304.243851
min         24.141633
25%        756.371964
50%       1630.019381
75%       3157.480084
max      18388.949901
Name: days_employed, dtype: float64

Ahora analizaremos la edad de clientes para ver si hay algún problema allí.

In [30]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
df_years=df['dob_years'].unique()
df_years.sort()
df_years

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

Eliminaremos los valores que no corresponden con los datos que necesitamos para evaluar correctamente a nuestros clientes.

In [31]:
# Resuelve los problemas en la columna `dob_years`, si existen
df.drop(df.index[df['dob_years']== 0], axis=0, inplace=True)

In [32]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['dob_years'].unique()

array([42, 36, 33, 32, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24, 21,
       28, 63, 47, 34, 25, 31, 30, 20, 49, 37, 45, 61, 44, 53, 52, 46, 23,
       38, 39, 51, 62, 29, 59, 55, 64, 58, 60, 22, 66, 69, 57, 19, 67, 71,
       70, 68, 72, 75, 74, 73])

Ahora revisemos la columna `family_status`.

In [33]:
# Veamos los valores de la columna
df['family_status'].unique()

array(['married', 'civil partnership', 'divorced', 'unmarried',
       'widow / widower'], dtype=object)

Considero que la variable family_status no tiene valores con problemas.

In [34]:
# Aborda los valores problemáticos en `family_status`, si existen



In [35]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['family_status'].describe()

count       17996
unique          5
top       married
freq        10466
Name: family_status, dtype: object

Revisemos la columna `gender`.

In [36]:
# Veamos los valores en la columna
df.gender.unique()

array(['F', 'M', 'XNA'], dtype=object)

In [37]:
# Aborda los valores problemáticos, si existe
df.drop(df.index[df['gender']== 'XNA'], axis=0, inplace=True)

In [38]:
# Comprueba el resultado - asegúrate de que esté arreglado

df['gender'].value_counts()

F    11373
M     6622
Name: gender, dtype: int64

Revisar la columna `income_type`. 

In [39]:
# Veamos los valores en la columna
df['income_type'].unique()

array(['employee', 'business', 'retiree', 'civil servant', 'entrepreneur',
       'student', 'paternity / maternity leave'], dtype=object)

No existen valores problematicos para esta categoria.

In [40]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['income_type'].unique()


array(['employee', 'business', 'retiree', 'civil servant', 'entrepreneur',
       'student', 'paternity / maternity leave'], dtype=object)

Considero que en esta columna no tenemos valores problemáticos

Ahora veamos si hay duplicados en nuestros datos.

In [41]:
# Comprobar los duplicados
df.duplicated()

0        False
1        False
2        False
3        False
5        False
         ...  
21519    False
21520    False
21522    False
21523    False
21524    False
Length: 17995, dtype: bool

In [42]:
# Aborda los duplicados, si existen
df.duplicated().sum()

71

In [43]:
# Última comprobación para ver si tenemos duplicados
df.isna().sum()

children               0
days_employed       2164
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2164
purpose                0
dtype: int64

In [44]:
df.duplicated().drop(df.index, axis=0, inplace=True)

In [45]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.isna().sum()

children               0
days_employed       2164
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2164
purpose                0
dtype: int64

Se eliminaron los valores duplicados en las columnas days_employed y total_income dado que no causaria error en los datos.

Hemos realizado eliminaciones de datos duplicados, columnas con error en selección de genero y reemplazo en edad del cliente, asi como tambien correcciones ortográficas para mantener el orden dentro de los datos.

# Trabajar con valores ausentes

In [46]:
# Encuentra los diccionarios
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21513,0,1166.216789,35,secondary education,1,married,0,F,employee,0,40157.783,purchase of the house
21514,0,280.469996,27,some college,2,unmarried,4,M,business,0,56958.145,building a property
21515,1,467.68513,28,secondary education,1,married,0,F,employee,1,17517.812,to become educated
21516,0,914.391429,42,bachelor's degree,0,married,0,F,business,0,51649.244,purchase of my own house
21517,0,404.679034,42,bachelor's degree,0,civil partnership,1,F,business,0,28489.529,buying my own car
21519,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car
21524,2,1984.507589,40,secondary education,1,married,0,F,employee,0,13127.587,to buy a car


In [47]:
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [48]:
df['education_id'].unique()

array([0, 1, 2, 3, 4])

### Restaurar valores ausentes en `total_income`

Las columnas con valores ausentes corresponden a 'days_employed' y 'total_income'

In [49]:
# Vamos a escribir una función que calcule la categoría de edad
def edades(edad):
    if edad <10:
        return'<10'
    if edad <20:
        return'10-20'
    if edad <30:
        return'20-30'
    if edad <40:
        return'30-40'
    if edad <50:
        return'40-50'
    return'60+'

In [50]:
# Prueba si la función funciona bien
print(edades(35))

30-40


In [51]:
# Crear una nueva columna basada en la función
df['edades']=df['dob_years'].apply(edades)

In [52]:
# Comprobar cómo los valores en la nueva columna
df['edades'].value_counts()


30-40    5644
40-50    5243
60+      3933
20-30    3161
10-20      14
Name: edades, dtype: int64

Para fines crediticios podriamos suponer que el nivel de los ingresos de un cliente depende de su edad, su educación y si tiene deudas.

In [53]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
df_limpio=df.drop_duplicates()
df_limpio.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-50
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-40
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-40
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20-30


In [54]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
df.groupby('dob_years')['total_income'].mean()

dob_years
19    16993.942462
20    20318.927348
21    22980.763140
22    22423.451194
23    22154.104601
24    24036.031306
25    25211.566611
26    25281.951124
27    28449.467665
28    26389.813465
29    27079.430236
30    27515.250983
31    27858.869791
32    26814.920057
33    29088.726860
34    28519.627047
35    28484.842502
36    29254.018935
37    29365.418432
38    26933.126543
39    29549.911255
40    28347.450744
41    28351.512714
42    29650.282709
43    29589.306324
44    28686.552738
45    27562.801291
46    29701.860626
47    27218.810167
48    28412.602212
49    28223.170096
50    26816.613689
51    27800.111652
52    28735.336625
53    28600.873284
54    26876.653025
55    26200.636657
56    28724.799153
57    27785.185609
58    27794.737350
59    29667.113795
60    27159.615968
61    30967.852942
62    27147.463215
63    28114.399833
64    35005.255102
65    26329.183684
66    31715.744000
67    29114.966000
68    25226.745500
69    26525.753667
70    31665.795000
71

In [55]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
df.groupby('dob_years')['total_income'].median()

dob_years
19    14934.9010
20    17520.3290
21    20522.5150
22    19885.7780
23    19706.0455
24    22461.0545
25    22899.0990
26    23273.1360
27    24764.5810
28    23951.6760
29    23458.8230
30    23511.1470
31    23868.3225
32    24269.8830
33    25046.2160
34    24885.6790
35    25008.0615
36    25477.8830
37    25665.1440
38    24290.7100
39    23941.9695
40    25407.1045
41    23485.7865
42    25582.5690
43    24516.2850
44    24555.2970
45    24617.6395
46    24981.6230
47    24507.4270
48    25438.2915
49    24928.5105
50    22844.0065
51    23770.6940
52    24479.8355
53    23875.8975
54    22880.8430
55    22828.7720
56    24867.8550
57    25004.9990
58    24862.9120
59    26296.8440
60    23722.5620
61    27235.9410
62    22967.0910
63    24414.5370
64    25730.3220
65    25067.9685
66    26817.1385
67    24238.0050
68    24137.3820
69    21969.2320
70    30666.2480
71    24660.9010
72    26948.7450
73    29329.0450
74    17902.0790
75    24525.2240
Name: total_income, d

[Repite tales comparaciones para múltiples factores. Asegúrate de considerar diferentes aspectos y explica tu razonamiento.]



In [56]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
df.groupby('education_id')['total_income'].mean()

education_id
0    33895.773014
1    25506.021789
2    29414.460093
3    22990.762982
4    27772.929500
Name: total_income, dtype: float64

In [57]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
df.groupby('education_id')['total_income'].median()

education_id
0    28744.4340
1    22678.9820
2    26113.4020
3    20823.9590
4    25161.5835
Name: total_income, dtype: float64

In [58]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
df.groupby('debt')['total_income'].mean()

debt
0    27963.863141
1    26607.992125
Name: total_income, dtype: float64

In [59]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
df.groupby('debt')['total_income'].median()

debt
0    24271.0730
1    23216.1585
Name: total_income, dtype: float64

Para realizar la etapa de reemplazar valores ausentes utilizare el calculo de mediana ya que considero que al ser una porcion grande de valores ausentes puede brindar una aproximación más exacta.

In [60]:
#  Escribe una función que usaremos para completar los valores ausentes
income_by_ed = df.dropna().groupby('education_id')['total_income'].median()
def reemplazar_nan(row):
    ed_id = row['education_id']
    if pd.isna(row['total_income']):
        return income_by_ed[ed_id]
    else:
        return row['total_income']
df['total_income']=df.apply(lambda x: reemplazar_nan(x),axis=1)

In [61]:
# Comprueba si funciona
df['total_income'].isna().sum() 

0

In [62]:
df['total_income'].duplicated()

0        False
1        False
2        False
3        False
5        False
         ...  
21519    False
21520    False
21522    False
21523    False
21524    False
Name: total_income, Length: 17995, dtype: bool

In [63]:
# Comprueba si tenemos algún error
df['total_income'].isna().sum()

0

Todos los datos han sido reemplazados correctamente.

In [64]:
# Reemplazar los valores ausentes si hay algún error


In [65]:
# Comprobar el número de entradas en las columnas
df['total_income'].describe()

count     17995.000000
mean      27417.552082
std       16016.066902
min        3418.824000
25%       18171.753000
50%       23260.592000
75%       31968.329000
max      362496.645000
Name: total_income, dtype: float64

###  Restaurar valores en `days_employed`

En esta etapa al igual que en el reemplazo de total_income utilizaremos dob years, education id y debt para restaurar correctamente los valores ausentes en days employed

In [66]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df.groupby('dob_years')['days_employed'].median()

dob_years
19     724.492610
20     674.838979
21     618.733817
22     699.061214
23     690.204208
24     942.390603
25     919.199388
26    1072.973567
27    1150.680518
28    1136.788826
29    1315.453550
30    1420.586863
31    1302.524255
32    1435.782308
33    1424.283347
34    1600.234154
35    1607.509390
36    1795.040574
37    1799.953904
38    1789.796539
39    1860.347969
40    1698.924518
41    1858.556909
42    2212.410477
43    1762.880393
44    1904.849348
45    2166.149196
46    2027.897336
47    2037.453670
48    2238.254263
49    2376.194828
50    2202.025766
51    2062.343288
52    2338.721042
53    2252.537414
54    2100.650584
55    2648.051579
56    2255.214465
57    1940.168251
58    2271.003374
59    2725.756401
60    2742.052311
61    2916.882467
62    2306.399145
63    3137.126575
64    2115.452056
65    3294.557469
66    2830.361431
67    1944.771377
68    3838.842521
69    3202.178779
70    3424.228550
71    1504.924191
72    8615.516055
73    3429.205485


In [67]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
df.groupby('dob_years')['days_employed'].mean()

dob_years
19     633.678086
20     684.944308
21     709.440930
22     781.376775
23     827.309437
24    1020.900547
25    1088.406453
26    1200.288052
27    1358.153479
28    1397.672853
29    1553.823200
30    1696.039355
31    1652.717935
32    1735.782175
33    1868.655183
34    1983.724384
35    2108.881612
36    2272.773915
37    2178.934808
38    2307.062965
39    2406.564360
40    2345.284329
41    2433.612130
42    2793.169884
43    2492.648991
44    2814.375145
45    2791.307088
46    2867.112262
47    2963.394330
48    2898.197374
49    3096.942310
50    3096.417569
51    3050.331333
52    3262.730016
53    3280.806279
54    2979.965858
55    3577.539706
56    3271.207884
57    3436.439512
58    3269.127650
59    3865.467480
60    3789.996829
61    4033.667004
62    3029.123002
63    4385.872648
64    4045.360383
65    4059.315441
66    3899.935741
67    3614.078059
68    4551.440293
69    3775.909777
70    4666.178573
71    2774.862819
72    6603.920060
73    3429.205485


In [68]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df.groupby('education_id')['days_employed'].median()

education_id
0    1611.056758
1    1686.419677
2    1151.601485
3    1189.581396
4    3851.735057
Name: days_employed, dtype: float64

In [69]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
df.groupby('education_id')['days_employed'].mean()

education_id
0    2277.650856
1    2435.122216
2    1566.010098
3    1940.672957
4    3520.186537
Name: days_employed, dtype: float64

In [70]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df.groupby('debt')['days_employed'].median()

debt
0    1673.332567
1    1256.621658
Name: days_employed, dtype: float64

In [71]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
df.groupby('debt')['days_employed'].mean()

debt
0    2403.916465
1    1829.013032
Name: days_employed, dtype: float64

Al igual que en el caso anterior utilizaremos las medianas ya que considero que pueden entregar aproximaciones más exacta que con media.

In [72]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
days_employed_by_ed = df.dropna().groupby('education_id')['days_employed'].median()
def reemplazar_nan(row):
    ed_id = row['education_id']
    if pd.isna(row['days_employed']):
        return days_employed_by_ed[ed_id]
    else:
        return row['days_employed']
df['days_employed']=df.apply(lambda x: reemplazar_nan(x),axis=1)

In [73]:
df['days_employed'].isna().sum()

0

In [74]:
# Comprueba que la función funciona
df['days_employed'].isna().sum()

0

In [75]:
# Aplicar la función al income_type
def median_income(income_type):
    df.groupby('income_type')['days_employed'].median()

    
    return df

In [76]:
# Comprueba si la función funcionó
print(median_income(df))

       children  days_employed  dob_years            education  education_id  \
0             1    8437.673028         42    bachelor's degree             0   
1             1    4024.803754         36  secondary education             1   
2             0    5623.422610         33  secondary education             1   
3             3    4124.747207         32  secondary education             1   
5             0     926.185831         27    bachelor's degree             0   
...         ...            ...        ...                  ...           ...   
21519         1    2351.431934         37      graduate degree             4   
21520         1    4529.316663         43  secondary education             1   
21522         1    2113.346888         38  secondary education             1   
21523         3    3112.481705         38  secondary education             1   
21524         2    1984.507589         40  secondary education             1   

           family_status  family_status

In [77]:
# Reemplazar valores ausentes
df.fillna(df.median(), inplace=True)

In [78]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-50
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-40
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-40
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house,20-30
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,30-40
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-50
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-40
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-40


In [79]:

df['total_income'].isna().sum()

0

In [80]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,edades
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-50
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-40
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-40
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-40
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house,20-30
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate,30-40
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-50
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-40
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-40


## Clasificación de datos

In [81]:
# Muestra los valores de los datos seleccionados para la clasificación
df['education'].value_counts()

secondary education    12388
bachelor's degree       4708
some college             706
primary education        189
graduate degree            4
Name: education, dtype: int64

In [82]:
df['income_type'].value_counts()

employee                       11064
business                        5064
civil servant                   1453
retiree                          410
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [83]:
df['purpose'].value_counts()

wedding ceremony                            671
having a wedding                            647
to have a wedding                           642
real estate transactions                    561
buy commercial real estate                  557
housing transactions                        551
buying property for renting out             549
transactions with commercial real estate    542
housing                                     540
property                                    539
purchase of my own house                    538
transactions with my real estate            533
purchase of the house for my family         533
construction of own property                532
purchase of the house                       531
building a property                         524
buy real estate                             519
housing renovation                          519
buy residential real estate                 519
building a real estate                      511
buying my own car                       

In [84]:
# Comprobar los valores únicos
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [85]:
# Escribamos una función para clasificar los datos en función de temas comunes
def cat_purpose(purpose):
    if purpose=='wedding ceremony' or purpose=='having a wedding' or purpose=='to have a wedding':
        return "wendding"
    elif purpose=='real estate transactions' or purpose=='buy commercial real estate' or purpose=='housing transactions' or purpose=='buying property for renting out' or purpose=='transactions with commercial real estate' or purpose=='purchase of the house' or purpose=='housing' or purpose=='purchase of the house for my family' or purpose=='construction of own property' or purpose=='property' or purpose=='transactions with my real estate' or purpose=='building a real estate' or purpose=='buy real estate' or purpose=='building a property' or purpose=='purchase of my own house' or purpose=='housing renovation' or purpose=='buy residential real estate':
        return "realstate"
    elif purpose=='buying my own car' or purpose=='car' or purpose=='second-hand car purchase' or purpose=='to own a car' or purpose=='buying a second-hand car' or purpose=='cars' or purpose=='buying a second-hand car' or purpose=='to buy a car' or purpose=='car purchase' or purpose=='purchase of a car':
        return "car"
    elif purpose=='going to university' or purpose=='supplementary education' or purpose=='university education' or purpose=='education' or purpose=='to get a supplementary education' or purpose=='getting an education' or purpose=='profile education' or purpose=='getting higher education' or purpose=='to become educated':
        return "education"

In [86]:
# Crea una columna con las categorías y cuenta los valores en ella
df['cat_purpose'] = df['purpose'].apply(cat_purpose)

In [87]:
df['cat_purpose'].value_counts()

realstate    9098
car          3581
education    3356
wendding     1960
Name: cat_purpose, dtype: int64

In [88]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
df['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

In [89]:
# Obtener estadísticas resumidas para la columna

df['total_income'].describe()

count     17995.000000
mean      27417.552082
std       16016.066902
min        3418.824000
25%       18171.753000
50%       23260.592000
75%       31968.329000
max      362496.645000
Name: total_income, dtype: float64

Utilizaremos rangos desde 3.000 a 50.000 tomando en consideracion que la media de ingresos es de 26425.517

In [90]:
#Crear una función para clasificar en diferentes grupos los ingresos
def ingresos(ingreso):
    
    if ingreso  <=10000:
        return'bajo'
    if ingreso  <=20000:
        return'medio'
    if ingreso  <=30000:
        return'alto'
    if ingreso  >30000:
        return'muy alto'
    

In [91]:
# Crear una columna con categorías
df['cat_ingresos']=df['total_income'].apply(ingresos)

In [92]:
# Contar los valores de cada categoría para ver la distribución
df['cat_ingresos'].describe()

count     17995
unique        4
top        alto
freq       7287
Name: cat_ingresos, dtype: object

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

Comprueba los datos sobre los hijos y los pagos puntuales

Calcular la tasa de incumplimiento en función del número de hijos


In [93]:
df_table=df.pivot_table('debt','children')
df_table_ptj=df_table*100
print(df_table_ptj)

               debt
children           
0          8.152075
1          9.370233
2          9.555662
3          8.074534
4         10.000000
5          0.000000


In [94]:
df.children.value_counts()

0    10942
1     4589
2     2093
3      322
4       40
5        9
Name: children, dtype: int64

**Conclusión**

La tasa de incumplimientos no tiene variaciones grandes entre un cliente que tiene un hijo y los que no tienen dado que para clientes sin hijos tienen 8% de probabilidades de incumplir pagos y los clientes con 1 y 2 hijos tienen 9% teniendo la probalidad mas alta clientes con 4 hijos donde se ubican en 10% y luego tenemos el caso de nuestros 9 clientes que tienen 5 hijos el cual no tiene deudas y nos indica que tiene probablidad del 100% de cumplir con nuestros pagos ya que no tienen deudas, es una población reducida y para efectos de esta solicitud no han incumplido con anterioridad.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [95]:
# Comprueba los datos del estado familiar y los pagos a tiempo

# Calcular la tasa de incumplimiento basada en el estado familiar
df.pivot_table('debt', 'family_status')
df_family=df.pivot_table('debt', 'family_status')
df_family_ptj=df_family*100
print(df_family_ptj)

                        debt
family_status               
civil partnership   9.977641
divorced            7.489879
married             7.920887
unmarried          10.490354
widow / widower     6.526316




**Conclusión**

El estatus familiar del cliente indica que existen posibilidades de no pago del 6 al 10% entre clientes solteros, casados y divorciados , considero que no existen variaciones tan grandes que nos hagan considerar que un cliente con familia pueda o no pagar un credito

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [96]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo

# Calcular la tasa de incumplimiento basada en el nivel de ingresos

df.pivot_table('debt', 'cat_ingresos')
df_ingreso=df.pivot_table('debt', 'cat_ingresos')
df_ingreso_ptj=df_ingreso*100
print(df_ingreso_ptj)

                  debt
cat_ingresos          
alto          8.782764
bajo          7.169811
medio         9.618875
muy alto      7.606821


**Conclusión**

El nivel de ingresos del cliente no nos indica que puedan tener incumplimientos salvo casos aislados, dado que existen parametros sobre cuanto se le puede prestar a cada cliente según su nivel de ingresos para salvaguardar el pago de los mismos.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [97]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
df.pivot_table('debt', 'purpose')
df_purpose=df.pivot_table('debt', 'cat_purpose')
df_purpose_ptj=df_purpose*100
print(df_purpose_ptj)

                 debt
cat_purpose          
car          9.997207
education    9.773540
realstate    7.704990
wendding     8.418367


**Conclusión**

Las probablidades de incumplimiento de pagos de acuerdo al tipo de credito que el cliente solicita nos indica que el tipo de credito más riesgoso es el de autos ya que tiene una tasa de incumplimiento del 10% seguidos por los prestamos educacionales y las bodas, lo cual nos deja que los creditos con mas probabilidades de pago son los de real state con un 7& de incumplimiento de pagos

# Conclusión general 

Para poder desarrollar el proyecto iniciamos identificando valores ausentes principalmente en las columnas days_employed y total_income lo cual determinamos que no cumplian un patron sino que es accidentalmente en las mismas lineas, por tanto se eliminaron, eliminamos datos duplicados que no interferian en el análisis de los datos y nos permitian tener un dataframe mas limpio y ordenado. 

Para obtener valores mas precisos y poder reemplazar basados en ellos obtuvimos la mediana para columnas como educacion id, days_employed, total_income entre otras. Realizamos clasificaciones segun los ingresos, edades y propositos de credito para cada cliente para poder tener conclusiones adecuadas y que permitan tomar mejores decisiones en cuanto a que clientes son más o menos riesgosos según pueda ser su situaciòn familiar, nivel de ingresos o educación.

1. Los clientes con hijos en su posibilidad de incumplimiento en los pagos más alta se ubican en un 10% lo cual no esta tan alejado de los clientes que no tienen hijos que tienen posibilidades de incumplimiento del 8% por tanto podriamos concluir que la cantidad de hijos puede influir en la capacidad de pagos de los clientes cerca de un 3% con respecto a clientes sin hijos.

2. Los clientes solteros encabezan la lista como los más probables de incumplimiento de pagos debido a su situación familiar, seguido de clientes bajo unón civil con 9.9% de probabilidades 

3. El nivel de ingreso de los clientes debe observarse y ser tomado en cuenta para establecer el monto que puede ser prestado según las necesidades y perfil de cada cliente.

4. Debemos concluir que el tipo de préstamo más riesgoso es el de autos ya que ocupa el 10% de incumplimiento de pagos y el más seguro dentro de los observados es el relacionado a real state.

4. En este proyecto pudimos evaluar diferentes variables y el impacto de los valores ausentes en ellas, considero que para analizar correctamente la situación financiera de cada cliente deben solicitarse a los mismos mediante formularios automaticos los datos que quedan pendiente los cuales podemos observar como ausentes y dificultan el analisis de sus perfiles.