# ¡Hola!  

Mi nombre es Maria Efimova, soy code reviewer de Practicum y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión. 

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

¡Empecemos!

# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

[En este cuaderno se te brindan pistas, breves instrucciones y sugerencias para pensar. No los ignores, ya que están diseñados para equiparte con la estructura del proyecto y te ayudarán a analizar lo que estás haciendo en un nivel más profundo. Antes de enviar tu proyecto, asegúrate de eliminar todas las sugerencias y descripciones que se te hayan proporcionado. Más bien, haz que este informe parezca como si se lo estuvieras enviando a tus compañeros de equipo para demostrar tus hallazgos: ¡no deben saber que recibiste ayuda externa de nuestra parte! Para ayudarte, hemos colocado las pistas que debes eliminar entre corchetes.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

## Abre el archivo de datos y mira la información general. 

[Empieza con la importación de las librerías y la carga de los datos. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [2]:
# Cargar todas las librerías
import pandas as pd 

# Carga los datos
dataset = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Ahora vamos a explorar nuestros datos. Querrás ver cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.]

In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
dataset.shape


(21525, 12)

In [4]:
# vamos a mostrar las primeras filas N
dataset.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Describe lo que ves y notas en tu muestra de datos mostrada en la pantalla. ¿Existe algún problema que pueda necesitar investigación y cambios adicionales?]

Se puede ver que el número de días empleados es negativo en muchos casos. También puedo notar que en la columna purpose existen descripciones similares pero escritas de modo distinto.

In [5]:
# Obtener información sobre los datos
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[¿Hay valores ausentes en todas las columnas o solo en algunas? Describe brevemente lo que ves en 1 o 2 oraciones.]

Al menos dos columnas (days_employed y total_income) tienen datos ausentes.

In [6]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

dataset[dataset['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> atencion a los NaN's!

[¿Los valores ausentes parecen simétricos? ¿Podemos estar seguros de esta suposición? Explica brevemente tus pensamientos en esta sección. Probablemente desees realizar investigaciones adicionales y contar los valores ausentes en todas las filas con valores ausentes para confirmar que las muestras que faltan son del mismo tamaño.]

Parece que los valores ausentes en days_employed corresponden con los valores ausentes en total_income.

In [7]:
dataset['days_employed'].isna().value_counts()

False    19351
True      2174
Name: days_employed, dtype: int64

In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
for column in dataset:
    print()
    
    if (dataset[column].isna().count())>0:
        print(dataset[column].isna().value_counts())
               
    else: 
        print('no hay valores ausentes en esta columna')




False    21525
Name: children, dtype: int64

False    19351
True      2174
Name: days_employed, dtype: int64

False    21525
Name: dob_years, dtype: int64

False    21525
Name: education, dtype: int64

False    21525
Name: education_id, dtype: int64

False    21525
Name: family_status, dtype: int64

False    21525
Name: family_status_id, dtype: int64

False    21525
Name: gender, dtype: int64

False    21525
Name: income_type, dtype: int64

False    21525
Name: debt, dtype: int64

False    19351
True      2174
Name: total_income, dtype: int64

False    21525
Name: purpose, dtype: int64


**Conclusión intermedia**

[¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? ¿Qué conclusión podemos sacar de esto?]

El número de filas con datos ausentes coincide para days_employed y total_income. Cada vez que se omitió el dato days_employed también sucedió lo mismo para total_income.

[Calcula el porcentaje de los valores ausentes en comparación con el conjunto de datos completo. ¿Se trata de una porción de datos considerablemente grande? Si es así, es posible que quieras completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. Tendrás que decidir qué característica, según *tú*, podría ser la razón. En segundo lugar, debemos verificar si los valores ausentes dependen de alguna manera del valor de otros indicadores con las columnas con características de clientes, específicas e identificadas.]

El porcentaje de datos ausentes es de 10% en cada caso. No parece que haya correlación con ninguna característica específica del cliente a primera vista.

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora.]

A continuación, voy a revisar algunas filas de las columnas en donde days_employed es un dato ausente para verificar si existe algún patrón evidente que pudiera indicar la razón de los datos ausentes.

In [9]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
dataset['debt'].isna().value_counts()

    
    
    
        
        


False    21525
Name: debt, dtype: int64

In [10]:
# Comprobación de la distribución
print(dataset.columns[1])
print(dataset[dataset['days_employed'].isna()]['debt'].value_counts())
print()
print(dataset.columns[10])
print(dataset[dataset['total_income'].isna()]['debt'].value_counts())




days_employed
0    2004
1     170
Name: debt, dtype: int64

total_income
0    2004
1     170
Name: debt, dtype: int64


He podido comprobar que cuando days_employed y total_income son valores ausentes, la mayoría de las entradas en debt son igual a 0. La distribución de datos en debt = 1 y debt = 0 confirman que debt=0 posee la mayoría pero no todos los datos ausentes de las coñumnas days_employed y total_income.

Describe aquí tus hallazgos.

Se ha podido determinar que solamente el 8% de los datos ausentes tienen un valor en debt = 1, en oposisicón al 92% de los datos ausentes en los cuales debt = 0. Sin embargo, no existe evidencia suficiente para concluir que todos los valores ausentes siguen a los niveles de la columna debt.

**Posibles razones por las que hay valores ausentes en los datos**

[Propón tus ideas sobre por qué crees que los valores pueden estar ausentes. ¿Crees que están ausentes al azar o hay algún patrón?]

No hay una razón lógica aparente por la que los datos ausentes sigan a la distribución de la columna debt (a pesar de que el 92% de los datos ausentes son debt=0).

[Empecemos a comprobar si los valores ausentes son aleatorios.]
A continuación me gustaría verificar la distribución de datos ausentes en cada una de las columnas a detalle por medio de una tabla de Pareto.

In [11]:
# Comprobando la distribución en el conjunto de datos entero
for i in range(12):
    print('*Pareto by',dataset.columns[i],":")
    #print('total count:',len(dataset.iloc[:,i].unique())) 
    #print('unique list:',dataset.iloc[:,i].unique())
    print(dataset.iloc[:,i][dataset['days_employed'].isna()].value_counts())
    print()
print()


*Pareto by children :
 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

*Pareto by days_employed :
Series([], Name: days_employed, dtype: int64)

*Pareto by dob_years :
34    69
40    66
31    65
42    65
35    64
36    63
47    59
41    59
30    58
28    57
57    56
58    56
54    55
38    54
56    54
37    53
52    53
39    51
33    51
50    51
51    50
45    50
49    50
29    50
43    50
46    48
55    48
48    46
53    44
44    44
60    39
61    38
62    38
64    37
32    37
27    36
23    36
26    35
59    34
63    29
25    23
24    21
66    20
65    20
21    18
22    17
67    16
0     10
68     9
69     5
20     5
71     5
70     3
72     2
19     1
73     1
Name: dob_years, dtype: int64

*Pareto by education :
secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
p

**Conclusión intermedia**

[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

- Pareto de ausentes by children: el 80% de los datos ausentes están en los niveles de children 0 (66%) y 1 (21.8%).
- Pareto de ausentes by DOB_years: se requiere un análisis más profundo en rangos de edad (a continuación).
- Pareto de ausentes by education: el 70% de los datos corresponden a secondary education; el 25% a bachelor´s degree.
- Pareto de ausentes by education_id: el 70% de los datos ausentes corresponden a id 1; y el 25% de los datos corresponde a id 0.
- Pareto de ausentes by family_status: el 56% de los datos corresponden a married; el 20% corresponde a civil partnership.
- Pareto de ausentes by family_status_id: el 56% de los datos corresponden a id 0; el 20% corresponde a id 1.
- Pareto de ausentes by gender: el 68% de los datos corresponde a gender F; el 32% a gender M.
- Pareto de ausentes by income_type: el 50% de los datos corresponde a type employee; el 23% a type business.
- Pareto de ausentes by purpose: solo 11% corresponde a wedding; no existe una distribución sesgada en ninguna categoría.

[Si crees que aún no podemos llegar a ninguna conclusión, investiguemos más a fondo nuestro conjunto de datos. Pensemos en otras razones que podrían llevar a la ausencia de datos y verifiquemos si podemos encontrar algún patrón que nos haga pensar que los valores ausentes no son aleatorios. Ya que es tu trabajo, esta sección es opcional.]

In [12]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
#print(dataset[dataset['dob_years']<=18]['gender'].value_counts())
#print(dataset[dataset['dob_years']<=18]['dob_years'].value_counts())
for i in range(9):
    i*=10
    print("age range", i-10,"to",i)
    print(dataset[(dataset['days_employed'].isna())&(dataset['dob_years']<i)&(dataset['dob_years']>=(i-10))]['dob_years'].count())

age range -10 to 0
0
age range 0 to 10
10
age range 10 to 20
1
age range 20 to 30
298
age range 30 to 40
565
age range 40 to 50
537
age range 50 to 60
501
age range 60 to 70
251
age range 70 to 80
11


- Pareto de ausentes by DOB_years: el 20% de los datos ausentes corresponden al rango de edad menor a 30 años. El 80% corresponde a el rango de edad mayor de 30 años.

**Conclusión intermedia**

[¿Podemos finalmente confirmar que los valores ausentes son accidentales? Verifica cualquier otra cosa que creas que podría ser importante aquí.]

Tengo certeza de que los datos faltantes son aleatorios. A pesar de que los grupos de datos children, debt y dob_years presentan sesgos importantes en alguna de sus categorías (80% o más de los datos ausentes), no existe evidencia lógica suficiente para determinar que los valores ausentes en las columnas total_income y days_employed están relacionados con las columnas evaluadas.

In [13]:
# Comprobación de otros patrones: explica cuáles

**Conclusiones**

[¿Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?]

No he encontrado ningún patrón en relación a los datos ausentes. Se han revisado todas las columnas donde las filas de datos ausentes se encuentran y no hay una separación completa de datos respecto a los datos ausentes.

[Explica cómo abordarás los valores ausentes. Ten en cuenta las categorías en las que faltan valores.]

Dado que los valores ausentes son numéricos y representan el 10% de los datos totales de la tabla yo optaría por eliminarlos.

[Planifica brevemente tus próximos pasos en la transformación de datos. Probablemente tendrás que abordar diferentes tipos de problemas: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.]

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Genial!

## Transformación de datos

[Repasemos cada columna para ver qué problemas podemos tener en ellas.]

[Comienza con la eliminación de duplicados y la corrección de la información educativa si es necesario.]

In [14]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
print(dataset['education'].unique())


["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [15]:
# Arregla los registros si es necesario
def replace_wrong_values(wrong_values,correct_value):
    for wrong_value in wrong_values:
        dataset['education'] = dataset['education'].replace(wrong_value,correct_value)

duplicates = [["bachelor's degree", "BACHELOR'S DEGREE"],['secondary education','SECONDARY EDUCATION'],['some college','SOME COLLEGE'],['primary education','PRIMARY EDUCATION'],['GRADUATE DEGREE','graduate degree']]
correction = ["Bachelor's Degree",'Secondary Education','Some College','Primary Education','Graduate Degree']

for duplicate in duplicates: 
        for correct_name in correction:
            replace_wrong_values(duplicate,correct_name)



<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Funciona correcto!

In [16]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
print(dataset['education'].unique())


["Bachelor's Degree" 'Secondary Education' 'Some College'
 'Primary Education' 'Graduate Degree']


[Comprueba los datos de la columna `children`]

In [17]:
# Veamos la distribución de los valores en la columna `children`
print(dataset['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


[¿Hay cosas extrañas en esta columna? Si es así, ¿cuál es el porcentaje de datos problemáticos? ¿Cómo es posible que hayan ocurrido? Toma una decisión sobre lo que harás con estos datos y explica tu razonamiento.]

-1 y 20 no son números razonables, es probable que sea un error de captura y su contenido requiere ser añadido a 1 y 2 respectivamente.

In [18]:
# [arregla los datos según tu decisión]

dataset.loc[dataset['children']==-1,'children']=1
dataset.loc[dataset['children']==20,'children']=2

In [19]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado

print(dataset['children'].value_counts())

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64


[Comprueba los datos en la columna `days_employed`. En primer lugar, piensa qué tipo de problemas podría haber, qué posiblemente desees comprobar y cómo lo harás.]

In [20]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje

total = dataset['days_employed'].count()
wrong = dataset[dataset['days_employed']<=0]['days_employed'].count()
percentage_wrong = wrong / total
print(percentage_wrong)

0.8219730246498889


[Si la cantidad de datos problemáticos es alta, podría deberse a problemas técnicos. Puede que queramos proponer la razón más obvia por la que podría haber sucedido y cuáles podrían haber sido los datos correctos, ya que no podemos eliminar estas filas problemáticas.]

La cantidad de datos con números negativos para los días es del 82%, es bastante alta y procederá a corregirlos.

In [21]:
# Aborda los valores problemáticos, si existen.

dataset.loc[dataset['days_employed']<=0,'days_employed']*=-1


In [22]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(dataset[dataset['days_employed']<=0]['days_employed'].count())
print()
dataset['days_employed'].head(10)


0



0      8437.673028
1      4024.803754
2      5623.422610
3      4124.747207
4    340266.072047
5       926.185831
6      2879.202052
7       152.779569
8      6929.865299
9      2188.756445
Name: days_employed, dtype: float64

In [23]:
# Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.

print(dataset.groupby('education')['dob_years'].median())

count = 0
#wrong_age_list = []
for data in dataset['dob_years']:
    if data < int(18):
        count +=1
#print(count)
print()
print(dataset[dataset['dob_years']<18]['dob_years'].value_counts())





education
Bachelor's Degree      42
Graduate Degree        69
Primary Education      40
Secondary Education    45
Some College           31
Name: dob_years, dtype: int64

0    101
Name: dob_years, dtype: int64


Existen 101 datos en edad que corresponden a la edad de cero años, lo cual es extraño e incorrecto. Estos dtos se distribuyen en los diferentes niveles de educación. He calculado la mediana por nivel educativo para asignar este valor a los datos donde la edad es cero.

In [24]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje

print(count/dataset['dob_years'].count())
print()
print(dataset[dataset['dob_years']<18]['education'].value_counts())




0.004692218350754936

Bachelor's Degree      98
Secondary Education     3
Name: education, dtype: int64


[Decide qué harás con los valores problemáticos y explica por qué.]

Voy a cambiar los valores de edad cero por la mediana de edad por nivel de educación corresondiente.

In [25]:
# Resuelve los problemas en la columna `dob_years`, si existen

#print(dataset[dataset['education']=="Bachelor's Degree"]['dob_years'].median())
#print(dataset[dataset['education']=="Secondary Education"]['dob_years'].median())
#dataset['dob_years'] = dataset['dob_years'].replace(0,42)
#dataset[dataset['education']=="Bachelor's Degree"]['dob_years'].replace(0,42)
dataset['dob_years'] = dataset.loc[(dataset['dob_years']==0)&(dataset['education']=="Secondary Education")] = 45
dataset['dob_years'] = dataset.loc[(dataset['dob_years']==0)&(dataset['education']=="Bachelor's Degree")] = 42


In [26]:
#dataset[dataset['education']=="Secondary Education"]['dob_years'].replace(0,45)
#print(dataset[dataset['dob_years']==45].count())

In [27]:
# Comprueba el resultado - asegúrate de que esté arreglado
print(dataset[dataset['dob_years']==0])


Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


[Ahora revisemos la columna `family_status`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar.]

In [28]:
# Veamos los valores de la columna

print(dataset['family_status'].value_counts())
print(dataset['family_status'].unique())
print(dataset['family_status'].count())


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64
['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']
21525


In [29]:
# Aborda los valores problemáticos en `family_status`, si existen



In [30]:
# Comprueba el resultado - asegúrate de que esté arreglado


[Ahora revisemos la columna `gender`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [31]:
# Veamos los valores en la columna
print(dataset['gender'].value_counts())
print(dataset['gender'].unique())
print(dataset['gender'].count())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64
['F' 'M' 'XNA']
21525


In [32]:
# Aborda los valores problemáticos, si existen
dataset[dataset['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,42,Bachelor's Degree,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


In [33]:
# Comprueba el resultado - asegúrate de que esté arreglado



[Ahora vamos a revisar la columna `income_type`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [34]:
# Veamos los valores en la columna
print(dataset['income_type'].value_counts())
print(dataset['income_type'].unique())
print(dataset['income_type'].count())

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64
['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']
21525


In [35]:
# Aborda los valores problemáticos, si existen

In [36]:
# Comprueba el resultado - asegúrate de que esté arreglado



[Ahora veamos si hay duplicados en nuestros datos. Si los hay, tendrás que decidir qué harás con ellos y explicar por qué.]

In [37]:
# Comprobar los duplicados
print(dataset.duplicated().sum())



733


In [38]:
dataset[dataset.duplicated()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
322,0,,42,Bachelor's Degree,1,civil partnership,1,F,retiree,1,,to have a wedding
627,1,,42,Bachelor's Degree,0,civil partnership,1,M,employee,0,,to have a wedding
681,0,,42,Bachelor's Degree,0,married,0,M,employee,0,,buy residential real estate
1118,0,,42,Bachelor's Degree,1,married,0,M,employee,0,,purchase of a car
1237,0,,42,Bachelor's Degree,1,married,0,F,retiree,0,,real estate transactions
...,...,...,...,...,...,...,...,...,...,...,...,...
21415,0,,42,Bachelor's Degree,1,married,0,F,retiree,0,,housing transactions
21463,1,,42,Bachelor's Degree,0,civil partnership,1,M,employee,0,,having a wedding
21495,1,,42,Bachelor's Degree,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,42,Bachelor's Degree,0,married,0,F,business,0,,building a property


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Seria mejor si lo muestras en DataFrame

In [39]:
# Aborda los duplicados, si existen
dataset = dataset.drop_duplicates().reset_index()

In [40]:
# Última comprobación para ver si tenemos duplicados
print(dataset.duplicated().sum())
duplicated_dataset = dataset[dataset.duplicated()]
print(duplicated_dataset)

0
Empty DataFrame
Columns: [index, children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


In [41]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20792 entries, 0 to 20791
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             20792 non-null  int64  
 1   children          20792 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         20792 non-null  int64  
 4   education         20792 non-null  object 
 5   education_id      20792 non-null  int64  
 6   family_status     20792 non-null  object 
 7   family_status_id  20792 non-null  int64  
 8   gender            20792 non-null  object 
 9   income_type       20792 non-null  object 
 10  debt              20792 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           20792 non-null  object 
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


[Describe tu nuevo conjunto de datos: di brevemente qué has cambiado y cuál es el porcentaje de cambios, si hubo alguno.]

La cantidad de datos ha bajado de un total de 21525 a 21461 representando una reducción del 0.30% del total inicial.


# Trabajar con valores ausentes

[Para acelerar el trabajo con algunos datos, puede que necesites trabajar con diccionarios para algunos valores, en los que se proporcionan IDs. Explica por qué y con qué diccionarios vas a trabajar.]

#Encuentra los diccionarios
Se podría crear un diccionario que relacione education con su ID, así igual para family y su ID.

### Restaurar valores ausentes en `total_income`

[Indica brevemente qué columnas tienen valores ausentes que debes abordar. Explica cómo las arreglarás.]


Las columnas con valores ausentes son total_income y days_employed.

[Empieza por abordar los valores ausentes del ingreso total. Crea una categoría de edad para los clientes. Crea una nueva columna con la categoría de edad. Esta estrategia puede ayudar a calcular valores para el ingreso total.]


In [42]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group_example(age):
    #age = row['dob_years']
    
    if age <= 20:
        return '20 and under'
    if age <= 30:
        return '20-30'
    if age <= 40:
        return '30-40'
    if age <= 50:
        return '40-50'
    if age <= 60:
        return '50-60'
    if age <= 70:
        return '60-70'
    if age <= 90:
        return '70+'
    


    

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Tambien puedes usar aqui 'case'
    

In [43]:
# Prueba si la función funciona bien
print(age_group_example(60))

50-60


In [44]:
# Crear una nueva columna basada en la función
def age_group(row):
    age = row['dob_years']
    
    if age <= 20:
        return '20 and under'
    if age <= 30:
        return '20-30'
    if age <= 40:
        return '30-40'
    if age <= 50:
        return '40-50'
    if age <= 60:
        return '50-60'
    if age <= 70:
        return '60-70'
    if age <= 90:
        return '70+'
    
dataset['age_group'] = dataset.apply(age_group, axis=1)



In [45]:
# Comprobar cómo los valores en la nueva columna
dataset['age_group'].value_counts()


40-50    20792
Name: age_group, dtype: int64

[Piensa en los factores de los que suelen depender los ingresos. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Para tomar esta decisión, probablemente querrás ver la distribución de los factores que, según tu análisis, pueden tener un impacto en los ingresos de uno.]

[Crea una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.]

In [46]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
dataset = dataset.dropna()

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Si no necesitas todas las columnas entocnes puedes eliminar unas

In [47]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 20791
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  int64  
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.2+ MB


In [48]:
dataset['total_income'].isna().value_counts()

False    19351
Name: total_income, dtype: int64

In [49]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
dataset.groupby('age_group')['total_income'].mean().sort_values(ascending=False)


age_group
40-50    26787.568355
Name: total_income, dtype: float64

In [50]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
dataset.groupby('age_group')['total_income'].median().sort_values(ascending=False)

age_group
40-50    23202.87
Name: total_income, dtype: float64

[Repite tales comparaciones para múltiples factores. Asegúrate de considerar diferentes aspectos y explica tu razonamiento.]



In [51]:
print(dataset.groupby('education')['total_income'].mean().sort_values(ascending=False))
print()
print(dataset.groupby('education')['total_income'].median().sort_values(ascending=False))
#print(dataset.groupby('education')['total_income'].max().sort_values(ascending=False))
#print()
#print(dataset.groupby('education')['total_income'].min().sort_values(ascending=False))

education
Bachelor's Degree      26873.875798
Some College           25470.138250
Secondary Education    24590.943454
Primary Education      17721.156643
Graduate Degree        15800.399000
Name: total_income, dtype: float64

education
Some College           25664.3970
Bachelor's Degree      23242.8040
Secondary Education    21616.9360
Primary Education      16731.2685
Graduate Degree        15800.3990
Name: total_income, dtype: float64


In [52]:
print(dataset.groupby('family_status')['total_income'].mean().sort_values(ascending=False))
print()
print(dataset.groupby('family_status')['total_income'].median().sort_values(ascending=False))
#print(dataset.groupby('family_status')['total_income'].max().sort_values(ascending=False))
#print()
#print(dataset.groupby('family_status')['total_income'].min().sort_values(ascending=False))

family_status
divorced             27189.354550
married              27041.784689
unmarried            26934.069805
civil partnership    26694.428597
widow / widower      22984.208556
Name: total_income, dtype: float64

family_status
divorced             23515.096
married              23389.540
civil partnership    23186.534
unmarried            23149.028
widow / widower      20514.190
Name: total_income, dtype: float64


In [53]:
#print(dataset.groupby('income_type')['total_income'].mean().sort_values(ascending=False))
print()
print(dataset.groupby('income_type')['total_income'].median().sort_values(ascending=False))
#print(dataset.groupby('income_type')['total_income'].max().sort_values(ascending=False))
#print()
#print(dataset.groupby('income_type')['total_income'].min().sort_values(ascending=False))


income_type
entrepreneur                   79866.1030
business                       27577.2720
civil servant                  24071.6695
employee                       22815.1035
unemployed                     21014.3605
retiree                        18962.3180
student                        15712.2600
paternity / maternity leave     8612.6610
Name: total_income, dtype: float64


[Determina qué características definen mejor los ingresos y decide si utilizarás una mediana o una media. Explica por qué tomaste esta decisión.]

La característica que mejor define los ingresos es income_type ya que tiene el mayor range de valores. En segundo lugar se encuentra education y en tercer lugar se encuentra age_group.

En general las medias son más altas que las medianas, debido a que existen valores máximos más grandes que la mayoría de los datos. Utilizaré la mediana para eliminar el sesgo ocasionado por valores máximos o mínimos.

In [54]:
#  Escribe una función que usaremos para completar los valores ausentes
def category_mean(row):
    income_type = row['income_type']
    #education = row['education']
    for data in row:
        if data == "entrepreneur":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "business":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "civil servant":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "employee":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "retiree":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "student":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean
        if data == "paternity / maternity leave":
            mean = dataset[dataset[income_type]==data]['total_income'].median()
            return mean

    

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Aqui correcto!

In [55]:
# Comprueba si funciona


In [56]:
# Aplícalo a cada fila
dataset['total_income']=dataset['total_income'].fillna(value=category_mean)

In [57]:
# Comprueba si tenemos algún error
dataset['total_income'].isna().value_counts()

False    19351
Name: total_income, dtype: int64

[Si has encontrado errores al preparar los valores para los datos ausentes, probablemente signifique que hay algo especial en los datos de la categoría. Piénsalo un poco: tal vez hará falta arreglar algunas cosas manualmente, si hay suficientes datos para encontrar medianas/medias.]


In [58]:
# Reemplazar los valores ausentes si hay algún error


[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [59]:
# Comprobar el número de entradas en las columnas
dataset.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 20791
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  int64  
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.2+ MB


###  Restaurar valores en `days_employed`

[Piensa en los parámetros que pueden ayudarte a restaurar los valores ausentes en esta columna. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Probablemente llevarás a cabo una investigación similar a la que realizaste cuando restauraste los datos en la columna anterior.]

In [60]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
dataset.groupby('age_group')['days_employed'].median().sort_values(ascending=False)

age_group
40-50    2194.220567
Name: days_employed, dtype: float64

In [61]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
(dataset.groupby('education')['days_employed'].median().sort_values(ascending=False))

education
Graduate Degree        337584.815560
Secondary Education      2520.675781
Bachelor's Degree        2186.827418
Some College             1458.540265
Primary Education        1059.892431
Name: days_employed, dtype: float64

In [62]:
(dataset.groupby('family_status')['days_employed'].median().sort_values(ascending=False))

family_status
widow / widower      337017.713307
divorced               2401.954568
married                2304.964439
civil partnership      1944.345291
unmarried              1462.009287
Name: days_employed, dtype: float64

In [63]:
(dataset.groupby('income_type')['days_employed'].median().sort_values(ascending=False))

income_type
unemployed                     366413.652744
retiree                        365213.306266
paternity / maternity leave      3296.759962
civil servant                    2689.368353
employee                         1574.202821
business                         1547.382223
student                           578.751554
entrepreneur                      520.848083
Name: days_employed, dtype: float64

[Decide qué vas a utilizar: medias o medianas. Explica por qué.]

In [64]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def category_mean_2(row):
    income_type = row['income_type']
    #education = row['education']
    for data in row:
        if data == "unemployed":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean  
        if data == "entrepreneur":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "business":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "civil servant":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "employee":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "retiree":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "student":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean
        if data == "paternity / maternity leave":
            mean = dataset[dataset[income_type]==data]['days_employed'].median()
            return mean

In [65]:
# Comprueba que la función funciona



In [66]:
# Aplicar la función al income_type
dataset['days_employed']=dataset['days_employed'].fillna(value=category_mean_2)


In [67]:
# Comprueba si la función funcionó
dataset[dataset['days_employed'].isna()]

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group


In [68]:
# Reemplazar valores ausentes



[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [69]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
dataset['days_employed'].isna().value_counts()

False    19351
Name: days_employed, dtype: int64

In [70]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 20791
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  int64  
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.2+ MB


In [71]:
dataset['total_income'] =pd.to_numeric(dataset['total_income'],errors='coerce')

#dataset['total_income'].astype('float')

In [72]:
dataset['days_employed'] =pd.to_numeric(dataset['days_employed'],errors='coerce')

In [73]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 20791
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  int64  
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 2.2+ MB


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Buen trabajo!

## Clasificación de datos

[Para poder responder a las preguntas y probar las diferentes hipótesis, querrás trabajar con datos clasificados. Mira las preguntas formuladas que debes responder. Piensa qué parte de los datos tiene que ser clasificada para responder a estas preguntas. A continuación, encontrarás una plantilla a través de la cual puedes trabajar para clasificar los datos. El primer procesamiento paso a paso cubre los datos de texto; el segundo aborda los datos numéricos que necesitan ser clasificados. Puedes usar ambas o ninguna de las instrucciones sugeridas, eso solo depende de ti.]

[Independientemente de cómo decidas abordar la clasificación, asegúrate de proporcionar una explicación clara de la razón por la que tomaste tu decisión. Recuerda: este es tu trabajo y aquí tú tomas todas las decisiones.]


In [74]:
# Muestra los valores de los datos seleccionados para la clasificación
dataset.loc[:,['family_status','income_type','debt','total_income','age_group']].head(10)

Unnamed: 0,family_status,income_type,debt,total_income,age_group
0,married,employee,0,40620.102,40-50
1,married,employee,0,17932.802,40-50
2,married,employee,0,23341.752,40-50
3,married,employee,0,42820.568,40-50
4,civil partnership,retiree,0,25378.572,40-50
5,civil partnership,business,0,40922.17,40-50
6,married,business,0,38484.156,40-50
7,married,employee,0,21731.829,40-50
8,civil partnership,employee,0,15337.093,40-50
9,married,employee,0,23108.15,40-50


[Vamos a comprobar los valores únicos]

In [75]:
# Comprobar los valores únicos

#print(dataset['debt'].unique())
#print(dataset['age_group'].unique())


In [76]:
#print(dataset['total_income'].max())
#print(dataset['total_income'].min())
#print(dataset['total_income'].mean())

[¿Qué grupos principales puedes identificar en función de los valores únicos?]

Voy a utilizar el grupo debt y group_age y crearé una columna rango de ingreso (income_range) para clasificar el riesgo del tipo de cliente en 4 niveles (very high, high, medium, low).

[Según estos temas, probablemente querremos clasificar nuestros datos.]


In [77]:
# Escribamos una función para clasificar los datos en función de temas comunes
def income_range(row):
    total_income = row['total_income']
    if 300000 < total_income <= 400000:
        return '>300K'
    if 200000 < total_income <= 300000:
        return '200-300K'
    if total_income <= 200000:
        return '<200K'
    if total_income <= 150000:
        return '<150K'
    




In [78]:
# Crea una columna con las categorías y cuenta los valores en ellas
dataset['income_range'] = dataset.apply(income_range, axis=1)



[Si decides clasificar los datos numéricos, también tendrás que crear las categorías para ello.]

In [79]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación

      
      
      

In [80]:
# Obtener estadísticas resumidas para la columna

dataset['income_range'].value_counts()


<200K       19340
200-300K        9
>300K           2
Name: income_range, dtype: int64

[Decide qué rangos utilizarás para agrupar y explica por qué.]

In [81]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def age_range_(row):
    age = row['dob_years']
    if age >= 60:
        return '>60'
    if 40 <age < 60:
        return '40-60'
    if age < 200000:
        return '<40'

In [82]:
# Crear una columna con categorías
dataset['age_range'] = dataset.apply(age_range_, axis=1)


In [83]:
# Contar los valores de cada categoría para ver la distribución
print(dataset['age_range'].value_counts())

40-60    19351
Name: age_range, dtype: int64


In [84]:
def debt_risk_calc(row):
    debt = row['debt']
    age_range = row['age_range']
    income_range = row['income_range']
        
    if debt == 1:
        if age_range == '>60':
            if income_range == '<200K':
                return 'very high risk'
            return 'high risk'
        return 'medium risk'
    return 'low risk'
dataset['debt_risk'] = dataset.apply(debt_risk_calc, axis=1)
print(dataset['debt_risk'].value_counts())

low risk       17780
medium risk     1571
Name: debt_risk, dtype: int64


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Seria mejos si aqui anades los conclusiones

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [85]:
# Comprueba los datos sobre los hijos y los pagos puntuales
debt_grouped_by_children = dataset.groupby('debt').agg({'children': ['value_counts']})





In [86]:
# Calcular la tasa de incumplimiento en función del número de hijos
total_debt_by_children = dataset.groupby('debt')['children'].count()
print(total_debt_by_children)
print(debt_grouped_by_children['children']['value_counts'])
print(debt_grouped_by_children['children']['value_counts']/total_debt_by_children)




debt
0    17780
1     1571
Name: children, dtype: int64
debt  children
0     0           11758
      1            3978
      2            1733
      3             272
      4              31
      5               8
1     0             952
      1             409
      2             185
      3              22
      4               3
Name: value_counts, dtype: int64
debt  children
0     0           0.661305
      1           0.223735
      2           0.097469
      3           0.015298
      4           0.001744
      5           0.000450
1     0           0.605983
      1           0.260344
      2           0.117759
      3           0.014004
      4           0.001910
dtype: float64


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]

La cantidad de deudores total es más alta para clientes que no tienen una deuda previa (debt=0). En ambos casos, la tasa de deudores es más grande para personas que no tienen hijos, y la tendencia es que mientras más hijos tienen la tasa de deudores es más baja.


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [87]:
# Comprueba los datos del estado familiar y los pagos a tiempo

debt_grouped_by_family = dataset.groupby('debt').agg({'family_status': ['value_counts']})

# Calcular la tasa de incumplimiento basada en el estado familiar
total_debt_by_family = dataset.groupby('debt')['family_status'].count()

print(debt_grouped_by_family['family_status']['value_counts'])
print(debt_grouped_by_family['family_status']['value_counts']/total_debt_by_family)


debt  family_status    
0     married              10297
      civil partnership     3396
      unmarried             2271
      divorced              1007
      widow / widower        809
1     married                846
      civil partnership      339
      unmarried              254
      divorced                76
      widow / widower         56
Name: value_counts, dtype: int64
debt  family_status    
0     married              0.579134
      civil partnership    0.191001
      unmarried            0.127728
      divorced             0.056637
      widow / widower      0.045501
1     married              0.538511
      civil partnership    0.215786
      unmarried            0.161680
      divorced             0.048377
      widow / widower      0.035646
dtype: float64


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]

El estado civil influye en la situación de pago de las familias, siendo los casados y los que tienen unión librequienes tienen la tasa de deuda más alta.


**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [88]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
debt_grouped_by_income = dataset.groupby('debt').agg({'income_range': ['value_counts']})


# Calcular la tasa de incumplimiento basada en el nivel de ingresos
total_debt_by_income = dataset.groupby('debt')['income_range'].count()
print(debt_grouped_by_income['income_range']['value_counts'])
print(debt_grouped_by_income['income_range']['value_counts']/total_debt_by_income)


debt  income_range
0     <200K           17770
      200-300K            9
      >300K               1
1     <200K            1570
      >300K               1
Name: value_counts, dtype: int64
debt  income_range
0     <200K           0.999438
      200-300K        0.000506
      >300K           0.000056
1     <200K           0.999363
      >300K           0.000637
dtype: float64


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]

Para el nivel de ingresos podemos observar que las personas con menor nivel de ingresos representan la mayor cantidad de deudores.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [89]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
debt_grouped_by_purpose = dataset.groupby('debt').agg({'purpose': ['value_counts']})
total_debt_by_purpose = dataset.groupby('debt')['purpose'].count()
print(debt_grouped_by_purpose)
print(debt_grouped_by_purpose['purpose']['value_counts']/total_debt_by_purpose)


                                     purpose
                                value_counts
debt purpose                                
0    wedding ceremony                    665
     to have a wedding                   641
     having a wedding                    635
     real estate transactions            563
     buy commercial real estate          554
...                                      ...
1    to become educated                   34
     purchase of my own house             32
     education                            31
     getting an education                 31
     housing renovation                   31

[76 rows x 1 columns]
debt  purpose                   
0     wedding ceremony              0.037402
      to have a wedding             0.036052
      having a wedding              0.035714
      real estate transactions      0.031665
      buy commercial real estate    0.031159
                                      ...   
1     to become educated            0.021642

**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]


- Aquellos que no tienen una deuda previa tienen la tasa de deudores más alta en aquellos cuyo propósito es tener una boda o comprar un bien inmeble.

- Aquellos que  tienen una deuda previa tienen la tasa de deudores está uniformemente distribuida entre los diferentes propósitos.


# Conclusión general 

[Enumera tus conclusiones en esta última sección. Asegúrate de incluir todas las conclusiones importantes que hiciste y que te llevaron a la forma en que procesaste y analizaste los datos. Habla de los valores ausentes, los duplicados y las posibles razones y soluciones para los artefactos problemáticos que tuviste que abordar.]

[Enumera tus conclusiones con respecto a las preguntas planteadas aquí también.]


In [90]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 20791
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  int64  
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  object 
 14  income_range      19351 non-null  object 
 15  age_range         19351 non-null  object 
 16  debt_risk         19351 non-null  object

La cantidad de deudores total es más alta para clientes que no tienen una deuda previa (debt=0). 

La mayoría de los clientes presentados en la base de datos son de bajo riesgo debido a que son menores de 60 años y no tienen una deuda previa.

La tasa de deudores es más grande para personas que no tienen hijos, y la tendencia es que mientras más hijos tienen la tasa de deudores es más baja.

El estado civil influye en la situación de pago de las familias, siendo los casados y los que tienen unión librequienes tienen la tasa de deuda más alta.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a> Buen trabajo! El proyecto esta aceptado!