## Archivo de datos

In [None]:
# Cargando las librerías
import pandas as pd
data = pd.read_csv('https://code.s3.yandex.net/datasets/credit_scoring_eng.csv')

## Exploración de datos e información general

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - deuda en el pago de un préstamo
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

In [None]:
print(data.shape) # Filas y columnas de los datos



(21525, 12)


In [None]:
data.head()# Primeras 5 filas del dataframe



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [None]:
data.info()# # Información general acerca del contenido del dataframe, por columnas.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Algunos de los datos en la columna `days_employed` y `total_income` representan valores ausentes en ciertas filas de esas columnas. Vamos a analizar lo que representa en el dataframe la cantidad de valores ausentes que hay en estas dos filas, comparado con el resto de las columnas con la diferencia de valores registrados.

In [None]:
data[['days_employed', 'total_income']].isnull().sum()
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos



days_employed    2174
total_income     2174
dtype: int64

In [None]:
data[['days_employed', 'total_income']].tail(20)

Unnamed: 0,days_employed,total_income
21505,338904.866406,12070.399
21506,-1556.249906,23286.719
21507,-79.832064,15708.845
21508,386497.714078,11622.175
21509,362161.054124,11684.65
21510,,
21511,-612.569129,22410.956
21512,-165.377752,23568.233
21513,-1166.216789,40157.783
21514,-280.469996,56958.145


In [None]:
data.isna().sum() / len(data) 

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

**Conclusión intermedia**

¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? El número de valores ausentes en las columnas `days_employed` y `total_income` coincide con la diferencia del número de filas faltantes en ambas. Hay 2714 filas en mabas que no tienen un valor asignado.

El porcentaje de valores ausentes es 10% así que podríamos deshacernos de ellos y continuar con el análisis. Eliminaremos las filas que tienen valores ausentes para continuar sólo con las filas que si tienen valores en esas columnas, esto es para eliminar los valroes atípicos que afectan los valores de media y mediana por mucho, afectando también el análisis.

In [None]:
print(len(data['total_income']))
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada
# y la columna con los valores ausentes



21525


In [None]:
no_nan = data.dropna()
no_nan['education'].value_counts()

data['education'].value_counts()
# Comprobación de la distribución



secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

Parece que hay ciertas columnas duplicadas de acuerdo con la comparación de distribución en la columna de `education` ya que hay diferencias por mayúsculas y minúsculas en las categorías/respuestas que hay en esa columna para los clientes. Aquí estamos visualizando la cantidad de registros únicos que hay en todas las filas del dataframe separándolas por los caracteres utilizados durante el registro. Podemos ver que hay algunos repetidos en los que la diferencia radica en el uso de mayúsculas y minúsculas de cada uno de ellos.

**Posibles razones por las que hay valores ausentes en los datos**

Podría haber sucedido un error al registrar los datos.

In [None]:
no_nan['education'].value_counts(normalize=True)
data['education'].value_counts(normalize=True)# Comprobando la distribución en el conjunto de datos entero



secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
GRADUATE DEGREE        0.000046
Graduate Degree        0.000046
Name: education, dtype: float64

**Conclusión intermedia**

¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? Sí es similar lo cual podría significar que la diferencia entre la tabla original y la filtrada no cambia mucho en cuanto a la distribución de los datos. Podemos continuar.

In [None]:
print(data.duplicated().sum())
print(data[data.duplicated()])# Comprueba otras razones y patrones que podrían llevar a valores ausentes



54
       children  days_employed  dob_years            education  education_id  \
2849          0            NaN         41  secondary education             1   
4182          1            NaN         34    BACHELOR'S DEGREE             0   
4851          0            NaN         60  secondary education             1   
5557          0            NaN         58  secondary education             1   
7808          0            NaN         57  secondary education             1   
8583          0            NaN         58    bachelor's degree             0   
9238          2            NaN         34  secondary education             1   
9528          0            NaN         66  secondary education             1   
9627          0            NaN         56  secondary education             1   
10462         0            NaN         62  secondary education             1   
10697         0            NaN         40  secondary education             1   
10864         0            NaN       

**Conclusión intermedia**

Podría ser que los duplicados están ocasionando algunos de los valores ausentes y los demás podrían ser por accidentes al llenar la información para cada cliente.

**Conclusiones**

Las dos columnas con valores ausentes son `total_income` y `days_employed` que podrían estar relacionadas con las personas que tienen en su education parameter secondary school o some college ya que tal vez no han tenido un empleo y no han recibido salario, además de que en esta misma columna 'education' hay duplicados no aparentes por la ortografía de la respuesta.

Los valores ausentes en `days_employed` serán reemplazados con 0, y en `total_income` veremos de acuerdo conforme avanzamos. Vamos a checar now los valores duplicados y algunas otras cosas extrañas las vamos a resolver según lo que encontremos al analizar cada columna.

## Transformación de datos

Aquí vamos a combinar las diferentes variabilidades que tenemos convirtiéndo todo a minúsculas para minimizar la cantidad de categorías que podríamos tomar en cuenta y volverlo más fácil de analizar.

In [None]:
print(data['education'].unique())
# Valores en la columna de educación para verificar si será necesario corregir la ortografía y
# qué habrá que corregir exactamente


["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [None]:
data['education'] = data['education'].str.lower() # Arregla los registros si es necesario


In [None]:
data['education'].unique()# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido



array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Comprobando los datos de la columna `children`

In [None]:
no_nan['children'].value_counts(normalize=True)
data['children'].value_counts(normalize=True)# Veamos la distribución de los valores en la columna `children`


 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

En las filas en la que el númeor de hijos es -1 y 20 lo vamos a converitr respectivamente en 1 y 2 asumiendo que fue un error de registro, convirtiendo -1 a absoluto y eliminando el 0 de 20.

In [None]:
data['children'] = data['children'].abs()
data['children'] = data['children'].replace(20, 2)

In [None]:
print(data[data['children'] == 20])
print(data[data['children'] == -1])
print(data['children'].unique())
# Comprobando la columna `children` de nuevo para asegurarnos de que todo está arreglado



Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
[1 0 3 2 4 5]


In [None]:
data['dob_years'].sort_values(ascending=True).unique()
# `dob_years` en busca de valores sospechosos y cuenta el porcentaje



array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [None]:
data[data['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,-2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,-1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,-1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,-108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [None]:
data['dob_years'].describe()

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Aquí vamos a eemplazar los valores que están en 0 por la mediana de los valores de la columna de `dob_years` ya que no es probable que personas recién nacidas o que no han nacido ya tengan una deuda, estén retirados y hayan cursado algun nivel educativo.

In [None]:
len(data[data['dob_years'] == 0]) / len(data)

0.004692218350754936

In [None]:
non_zero = data[(data['dob_years']>= 19)]
# Vamos a tomar  para reemplazar todos los valores del nuevo dataframe que están en cero

In [None]:
mean_dob = non_zero['dob_years'].mean()
mean_dob

43.497479462285284

In [None]:
data['dob_years'].replace(0, 40, inplace=True)
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.479721,63046.497661,43.481069,0.817236,0.972544,0.080883,26787.568355
std,0.755528,140827.311974,12.220504,0.548138,1.420324,0.272661,16475.450632
min,0.0,-18388.949901,19.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,34.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [None]:
data[data['dob_years'] ==  0].sum()
# Aquí ya reemplazamos todas las personas con 0 años de edad con la media de la edad para rellenar los valroes ausentes.
# Y no hay nadie con edad igual a cero.


children            0.0
days_employed       0.0
dob_years           0.0
education           0.0
education_id        0.0
family_status       0.0
family_status_id    0.0
gender              0.0
income_type         0.0
debt                0.0
total_income        0.0
purpose             0.0
dtype: float64

Aquí vamos a analizar los datos de la columna `days_employed`.

In [None]:
no_nan['days_employed'].describe()
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje


count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Vamos a convertir los datos de `days_employed` en absolutos para eliminar los negativos. Y observemo que cambian los estadísticos de la columna, será más fácil analizarlos con valores positivos considerando que es imposible que alguien "destrabaje" por 50 años.

In [None]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

In [None]:
data[data['total_income'].isnull()]['gender'].value_counts()

F    1484
M     690
Name: gender, dtype: int64

In [None]:
data[data['total_income'].isnull()]['gender'].value_counts()

F    1484
M     690
Name: gender, dtype: int64

Aquí ahora podemos ver que la cantidad de valores ausentes tanto en `total_income`como en `days_employed` están relacionados con el género registrado. 

In [None]:
data['days_employed'].isna().sum()

2174

In [None]:
mean = data[(data['days_employed']>= 0.) & (data['days_employed'] <= 18000.)].mean()
mean['days_employed']

2352.0076997468445

In [None]:
data['days_employed'] = data['days_employed'].fillna(mean['days_employed'])
data['days_employed'].isna().sum() # Aquí ya no hay valores ausentes en la columna de days employed porque los reemplazamos
# Con la media de los valores que están dentro del rango de días trabajados normales, sin contar los valores atípicos.

0

Con este nuevo dataframe `data` podemos continuar con la investigación y el análisis de datos sabiendo que conservamos el 100% de los datos del dataframe original y considerando que reemplazamos las filas que están por encima del límite de los 50 años o 18000 días de trabajo. Sólo conservamos los datos dentro del rango de 0 a 50 años para descartar valores mayores ya que puede haber un error al trasladar y registrar los datos de acuerdo con el contenido de las filas de la columna `days_employed`. Se realizó esta segregación porque los valores atípicos en promedio eran de 1629.99 días, lo que significa 185 años y utilizamos el valor de la mediana de los valores dentro de los 50 años.

In [None]:
data['total_income'].isnull().sum()

2174

Aquí podemos ver que tenemos aún algunos valores ausentes en la columna de `total_income`. Vamos a reemplazar los valroes ausentes con el promedio de los que no son ausentes. Utilizamos la mediana para rellenar los valores ausentes de `total_income` y la media para la columna `days_employed` pensando que es el mejor tratamiento para cada distribución de datos. Los días trabajados sí tenían valores atípicos en sí que afectan la distribución, pero se rellenaron los valroes ausentes con la media de los valores que 'tienen sentido' para el tipo de dato que tenemos. Y para los ingresos, esos valores aunque puedan parecer outliers sí pueden ser más realistas que trabajar más de 100 años, por eso utilizamos la mediana para los valores ausentes de la columna.

In [None]:
median = data['total_income'].dropna().median()
median

23202.87

In [None]:
data['total_income'].fillna(median, inplace=True)
data['total_income'].isnull().sum()

0

Ya no tenemos valores ausentes en `days_employed` ni en `total_income`. Llenamos los valores ausentes de total income con el promedio de ingresos, tomando en cuenta solamente las filas que sí tienen un valor para sacar la `mean` de los valores de esa columna.

Ahora revisemos la columna `family_status`.

In [None]:
data['family_status'].unique()# Veamos los valores de la columna

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Ahora revisemos la columna `gender`.

In [None]:
data['gender'].unique()
#No parece haber valores problematicos en esta columna

array(['F', 'M', 'XNA'], dtype=object)

In [None]:
data.groupby('gender').count()

Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,income_type,debt,total_income,purpose
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
F,14236,14236,14236,14236,14236,14236,14236,14236,14236,14236,14236
M,7288,7288,7288,7288,7288,7288,7288,7288,7288,7288,7288
XNA,1,1,1,1,1,1,1,1,1,1,1


In [None]:
data.drop(data[data['gender'] == 'XNA'].index, inplace=True)
data.groupby('gender').count()

Unnamed: 0_level_0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,income_type,debt,total_income,purpose
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
F,14236,14236,14236,14236,14236,14236,14236,14236,14236,14236,14236
M,7288,7288,7288,7288,7288,7288,7288,7288,7288,7288,7288


In [None]:
data[data['days_employed'].isnull()]['gender'].value_counts()

Series([], Name: gender, dtype: int64)

In [None]:
data['purpose'].unique()
# Aquí etsamos viendo las variables que tenemos para los distintos propósitos que tienen los clientes.

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [None]:
data['purpose'].value_counts().count() # there are 38 different types of purpose
from nltk.stem import SnowballStemmer 
english_stemmer = SnowballStemmer('english')

def type_of_purpose(purpose):
    for word in purpose.split(' '):
        if 'car' == english_stemmer.stem(word):
           return 'buying a car'
        if 'wed' == english_stemmer.stem(word):      
           return 'wedding ceremony'
        if ('educ' == english_stemmer.stem(word) or 'univers' == english_stemmer.stem(word)):   
           return 'going to university'
        if ('hous' == english_stemmer.stem(word) or 'properti' == english_stemmer.stem(word) or 'estat' == english_stemmer.stem(word)):
           return 'real estate transactions'
    
    return purpose

In [None]:
data['purpose'] = data['purpose'].apply(type_of_purpose)
data['purpose'].value_counts()

real estate transactions    10839
buying a car                 4315
going to university          4022
wedding ceremony             2348
Name: purpose, dtype: int64

<div class="alert alert-block alert-info">
También tengo este error abajo en otras tablas. Me gusta que funciona porque muestra lo que quería ver, pero parece que al Kernel le gustaría algo distinto? sólo que creo que .loc no queda bien para lo que estoy tratando de hacer aquí, o si?
</div>

In [None]:
data['purpose'].unique()

array(['real estate transactions', 'buying a car', 'going to university',
       'wedding ceremony'], dtype=object)

Aquí acabamos de reducir a solo 4 razones después del párrafo que teníamos con muchas opciones posibles de `purpose`. Y vamos a revisar la columna `income_type`.

In [None]:
data['income_type'].unique()# Veamos los valores en la columna

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [None]:
#No parece haber problema con estos datos

Ahora revisaremos los duplicados en nuestro dataframe.

In [None]:
data.duplicated().sum()# Comprobar los duplicados



407

In [None]:
# Ya no hay duplicados

In [None]:
data.info()
# Hasta aquí la descripción general del nuevo dataframe filtrado

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     21524 non-null  float64
 2   dob_years         21524 non-null  int64  
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21524 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


In [None]:
data['debt'].unique() 
# Aquí podemos ver que 0 y 1 son los únicos valores que se encuentran en la columna de `debt`
# haciendo referencia a que se tiene o no se tiene una deuda. 0 no 1 sí.

array([0, 1])

# Trabajar con valores ausentes

In [None]:
data.info()# Comprobar el número de entradas en las columnas



<class 'pandas.core.frame.DataFrame'>
Int64Index: 21524 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21524 non-null  int64  
 1   days_employed     21524 non-null  float64
 2   dob_years         21524 non-null  int64  
 3   education         21524 non-null  object 
 4   education_id      21524 non-null  int64  
 5   family_status     21524 non-null  object 
 6   family_status_id  21524 non-null  int64  
 7   gender            21524 non-null  object 
 8   income_type       21524 non-null  object 
 9   debt              21524 non-null  int64  
 10  total_income      21524 non-null  float64
 11  purpose           21524 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


In [None]:
data.isna().sum()
# Ya no hay ningún valor ausente.

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Eliminamos algunos valores ausentes y otros los reemplazamos por la media de los datos que sie tienen un valore mayor a 0 en las filas de las columnas correspondientes. Redujimos el tamaño del dataframe pero no tan considerablemente para poder mantener una cantidad representativa de datos.

## Clasificación de datos

Vamos a clasificar los datos en nuevas columnas para hacer un análisis más fácil de los datos que tenemos en el dataframe apra la determinación de si algunas de las variables categóricas afectan la variable cuantitativa de el cumplimiento de pago o la columna `debt`.

In [None]:
edu_dic = data.drop_duplicates(['education_id', 'education'])[['education_id', 'education']].reset_index(drop=True)
edu_dic = edu_dic.set_index('education_id').to_dict()
edu_dic
# Encuentra los diccionarios

{'education': {0: "bachelor's degree",
  1: 'secondary education',
  2: 'some college',
  3: 'primary education',
  4: 'graduate degree'}}

In [None]:
fam_dic = data.drop_duplicates(['family_status_id', 'family_status'])[['family_status_id', 'family_status']].reset_index(drop=True)
fam_dic = fam_dic.set_index('family_status_id').to_dict()
fam_dic

{'family_status': {0: 'married',
  1: 'civil partnership',
  2: 'widow / widower',
  3: 'divorced',
  4: 'unmarried'}}

Aquí creamos una nueva columna con una cateogría de edad para los clientes.

In [None]:
data['dob_years'].describe()

count    21524.000000
mean        43.481974
std         12.220066
min         19.000000
25%         34.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [None]:
def dob_years_id(dob_years):
  if dob_years < 20:
    return 0
  elif dob_years < 35:
    return 1
  elif dob_years < 50:
    return 2
  elif dob_years < 65:
    return 3
  else:
    return 4# Vamos a escribir una función que calcule la categoría de edad

    

In [None]:
print(dob_years_id(47))# Prueba si la función funciona bien


2


In [None]:
data['dob_years_id'] = data['dob_years'].apply(dob_years_id)
data['dob_years_id']# Crear una nueva columna basada en la función

0        2
1        2
2        1
3        1
4        3
        ..
21520    2
21521    4
21522    2
21523    2
21524    2
Name: dob_years_id, Length: 21524, dtype: int64

In [None]:
data['dob_years_id'].unique()# Comprobar cómo los valores en la nueva columna



array([2, 1, 3, 4, 0])

In [None]:
id_mean = data.groupby('dob_years_id')[['dob_years', 'total_income']].mean()
id_mean

Unnamed: 0_level_0,dob_years,total_income
dob_years_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,19.0,17693.487168
1,28.81902,26700.687752
2,41.725814,28369.082615
3,56.329363,25472.814944
4,67.431591,22015.218137


Aquí hemos calculado la mediana de edad para cada una de las categorías de edad que definimos anteriormente, podemos observar sólo con la tabla que la distribución podría dser normal debido a que el pico de `total_income` se encuentra en el número 2 que es el valore mediano de la lista de categorías, disminuyendo hacia el 0 y el 4. Esto quiere decir que las personas entre 36 y 50 años son quienes mayores ingresos promedio tienen en la lista de categorías, y la media de edad es de 41 años.

In [None]:
data[['purpose', 'children', 'debt', 'total_income']].head()# Muestra los valores de los datos seleccionados para la clasificación



Unnamed: 0,purpose,children,debt,total_income
0,real estate transactions,1,0,40620.102
1,buying a car,1,0,17932.802
2,real estate transactions,0,0,23341.752
3,going to university,3,0,42820.568
4,wedding ceremony,0,0,25378.572


Vamos a comprobar los valores únicos.

In [None]:
data['purpose'].unique()# Comprobar los valores únicos

array(['real estate transactions', 'buying a car', 'going to university',
       'wedding ceremony'], dtype=object)

Vamos a reducir las varias opciones que tenemos.

In [None]:
from nltk.stem import SnowballStemmer 
english_stemmer = SnowballStemmer('english')

def cat_purpose(purpose):
    for word in purpose.split(' '):
        if 'car' == english_stemmer.stem(word):
           return 'buying a car'
        if 'wed' == english_stemmer.stem(word):      
           return 'wedding ceremony'
        if ('educ' == english_stemmer.stem(word) or 'univers' == english_stemmer.stem(word)):   
           return 'going to university'
        if ('hous' == english_stemmer.stem(word) or 'properti' == english_stemmer.stem(word) or 'estat' == english_stemmer.stem(word)):
           return 'real estate'
    
    return purpose

data['purpose'] = data['purpose'].apply(cat_purpose)
data['purpose'].value_counts()# Escribamos una función para clasificar los datos en función de temas comunes


real estate            10839
buying a car            4315
going to university     4022
wedding ceremony        2348
Name: purpose, dtype: int64

In [None]:
data['purpose_category'] = data['purpose'].replace(['real estate', 'buying a car', 'going to university', 'wedding ceremony'], ['a', 'b', 'c', 'd'])
data.head()
# Columna con las categorías y la cuenta los valores en ellas.



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,dob_years_id,purpose_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,real estate,2,a
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,buying a car,2,b
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,real estate,1,a
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,going to university,1,c
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding ceremony,3,d


Aquí creamos una categoría con letras para definir cad auna de las `purpose`a las que redujimos. Obtuvimos un 4 objetivos por los que las personas piden un préstamo personal y le asignamos una letra a cada uno.

In [None]:
data['total_income'].describe()# Obtener estadísticas resumidas para la columna



count     21524.000000
mean      26787.297157
std       15621.580646
min        3306.762000
25%       17247.356500
50%       25021.895500
75%       31286.192250
max      362496.645000
Name: total_income, dtype: float64

Vamos a agrupar por rangos de `income_type`, del mayor a menor irán los clientes clasificados de la A a la F sólo para separarlos por sectores de ingresos.

In [None]:
def cat_income (total_income):
    if total_income <15000 :
        return 'F'
    if total_income <20000 :
        return 'E'
    if total_income <25000 :
        return 'D'
    if total_income <30000 :
        return 'C'
    if total_income <40000 :
        return 'B'
    return 'A' # Función para clasificar en diferentes grupos numéricos basándose en rangos



Utilizamos este rango de A, B, C, D, E y F que está dividido en rangos de 5 mil de acuerdo a los valores del describe.() para cada cuartil aproximadamente y tomando en cuenta que existen algunos valores por debajo y encima de los valores promedio o medios.

In [None]:
data['group_income'] = data['total_income'].apply(cat_income)
data['group_income'].head(10)# Columna con categorías


0    A
1    E
2    D
3    A
4    C
5    A
6    B
7    D
8    E
9    D
Name: group_income, dtype: object

In [None]:
data['group_income'].value_counts()# Cuenta los valores de cada categoría para ver la distribución

C    4858
F    3743
E    3626
D    3379
B    3106
A    2812
Name: group_income, dtype: int64

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
def hay_children(children):
    if children == 0 :
        return 'no'
    return 'yes'

data['yes_children'] = data['children'].apply(hay_children)

def hay_debt(debt):
    if debt == 0 :
        return 'no debt'
    return 'debt'

data['yes_debt'] = data['debt'].apply(hay_debt)
# Comprueba los datos sobre los hijos y los pagos puntuales

# Calcular la tasa de incumplimiento en función del número de hijos



In [None]:
data.groupby('yes_debt')['yes_children'].value_counts(normalize=True)



yes_debt  yes_children
debt      no              0.610569
          yes             0.389431
no debt   no              0.661426
          yes             0.338574
Name: yes_children, dtype: float64

**Conclusión**

La existencia de hijos no parece ser un factor significativo de la deuda en las familias. Son menos las familias que tienen hijos y sin deudas que familias sin hijos y con deudas.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
data.groupby('yes_debt')['family_status'].value_counts(normalize=True)# Comprueba los datos del estado familiar y los pagos a tiempo



# Calcular la tasa de incumplimiento basada en el estado familiar



yes_debt  family_status    
debt      married              0.534750
          civil partnership    0.222860
          unmarried            0.157381
          divorced             0.048823
          widow / widower      0.036186
no debt   married              0.578729
          civil partnership    0.191478
          unmarried            0.128343
          divorced             0.056109
          widow / widower      0.045342
Name: family_status, dtype: float64

**Conclusión**

Las familias casadas están en mayor probabilidad de incumplimiento, seguido de las uniones libres, solteros, divorciados y viudos.

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
data.groupby('yes_debt')['group_income'].value_counts(normalize=True)# Comprueba los datos del nivel de ingresos y los pagos a tiempo



# Calcular la tasa de incumplimiento basada en el nivel de ingresos



yes_debt  group_income
debt      C               0.234922
          E               0.178059
          F               0.171166
          D               0.165422
          B               0.139001
          A               0.111430
no debt   C               0.224890
          F               0.174139
          E               0.167619
          D               0.156245
          B               0.144771
          A               0.132336
Name: group_income, dtype: float64

**Conclusión**

Las personas dentro de las 3 categorías de menor ingreso, están más alineados con el incumplimiento (D, E y F), mientras que las personas dentro de las primeras 3 categorías de alto ingreso (A, B y C) existen en menor proporción dentro del análisis de la deuda.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
data.groupby('yes_debt')['purpose'].value_counts(normalize=True)
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos



yes_debt  purpose            
debt      real estate            0.449167
          buying a car           0.231476
          going to university    0.212522
          wedding ceremony       0.106835
no debt   real estate            0.508366
          buying a car           0.197746
          going to university    0.184603
          wedding ceremony       0.109286
Name: purpose, dtype: float64

**Conclusión**

De acuerdo a los datos que acabamos de obtener sobre el dataframe y sobre como se interrelacionan con respecto de una variable podemos observar que cuando el propósito del préstamo está relacionado con los bienes raíces es cuando se tiende en mayor proporción hacia el incumplimiento de los pagos.

# Conclusión general

* A lo largo del proyecto pudimos encontrar que había ciertos valores ausentes y atípicos en las columnas que fue necesario reparar para continuar con un análisis más confiable. Lso datos que tuvimos que restaurar se encontraban en las columnas de `days_employed`y `total_income`. Lo que hicimos fue rellenar los valores ausentes con mediana y media respectivamente para evitar la eliminación de datos que podría causar algún patrón en la distribución del dataframe.
* No encontramos una relación concreta entre el ingreso y el incumplimiento de pagos.
* Después de los cambios que realizamos en los datos, especialmente en `children` podemos asumir que la existencia de hijos no afecta el cumplimiento de las familias del dataframe para realizar los pagos.
* En la población, aquellos con estado civil 'married' resultaron ser aquellos que en mayor proporción tienen tendencia al incumplimiento de los pagos.
* También las personas que tienen objetivos relacionados con los bienes raíces al momento de obtener un préstamo, son los que podrían tener atraso de pago.