# Hola Héctor!

Mi nombre es David Bautista, soy code reviewer de Practicum y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión.

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres.**

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div

¡Empecemos!

# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

# Contents <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusions](#data_review_conclusions)
* [Etapa 2. Data preprocessing](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: música al principio y al final de la semana](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones](#end)

## Própositos del proyecto

`Este análisi se realiza con el fin de obtener un score crediticio de referencia para que el banco determine la liquidez de los solicitantes contra el monto requerido, usando como variable el número de dependientes que tienen, esto para revisar si el número de hijos influye en el pago del crédito.`

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
**Comentario Importante**
    
~~Hola hecto, buen trabajo realizando la introducción del proyecto, simplemente no olvides que es importante que generes un índice de las secciones que se van a presentar y que **debes eliminar los comentarios que vienen entre corchetes, estos solo son pistas - instrucciones y sugerencias que te permiten orientas tus conclusiones, sin embargo, tampoco es necesario que estas respondan explícitamente las incógnitas de apoyo, ten en cuenta esto para todo el proyecto.**~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo!
</div>

## Abre el archivo de datos y mira la información general. <a></a>

In [2]:
# Cargar todas las librerías
import pandas as pd


# Carga los datos
try:
    df = pd.read_csv('credit_scoring_eng.csv')
except: 
    df = pd.read_csv('/datasets/credit_scoring_eng.csv')


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo!</div>

## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.shape

(21525, 12)

In [4]:
# vamos a mostrar las primeras filas N
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


`Los datos nos muestran números negativos en la columna days_employed, experiencia laboral, esto no suena lógico ya que alguien no puede tener experiencia negativa, se tendrá que revisar de donde proviene ese dato y verifiar la si esto es correcto o fue un error de ingreso a la base de datos.`

In [5]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [6]:
# Obtener información sobre los datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


`Los datos tienen valores ausentes en la columna de days_employed y en total_income.`

In [7]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
df_na = df[df['days_employed'].isna()]
df_na

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


`Los valores parecen simetricos, ya que los mismos valores faltantes en la columna days_employed faltan valores en la columna total_income`

In [8]:
df['days_employed'].isna().sum()

2174

In [9]:
df['total_income'].isna().sum()

2174

In [10]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
df[(df['days_employed'].isna()) & (df['total_income'].isna())].shape[0]


2174

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Entendiendo que estás explorando una posible asimetría `de valores nulos entre las columnas ``days_employed`` y ``total_income`` sería más interesante que la anterior comparación la realices usando esas dos columnas y no ``children``.~~</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~No se tuvo en cuenta la recomendación.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo!
</div>

**Conclusión intermedia**

`El número de valores ausentes de la tabla filtrada coincide con el número de valores ausentes de la columna days_employed y de la columna total_income. Por ellos podemos concluir que esos datos no fueron provistos por las personas, habrá que verificar si se podrían simplemente desechar los datos ausentes o se deberán completar.`


`Para saber si se puden eliminar los valores ausentes se calcula el porcentaje de valores ausentes, el cual es de alrededor del 10%, esto quiere decir que si no se atiende puede provocar poca confianza en nuestros resultados del análisis.`

`Probaré la relación de los valores de las columnas 'childen', 'education_id' para encontrar alguna relación y poder explicar la razón de los valores ausentes que se encontraron.`

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Aparte del comentario que te realice anteriormente Buen trabajo con esta primera sección, simplemente debes tener en cuenta lo que te comente en el primer recuadro de revisión, por ende sería ideal que modifiques tus conclusiones y fueran un poco más robustas, entendiendo que los comentarios entre corchetes están para orientar el análisis, pero no deben ser usados para generar respuestas explícitas.~~</div>

In [11]:
df['days_employed'].isna().sum()/df.shape[0]

0.10099883855981417

In [12]:
df['total_income'].isna().sum()/df.shape[0]

0.10099883855981417

`Ambas columnas muestran la misma cantidad de datos ausentes`

`Se obtendrá la cuenta de valores de la tabla filtrada de la columna children utilizando el método value_counts(), esto nos podría dar la distribución de si la cantidad de hijos influye en la falta de valores.`

In [13]:
df_na['children'].value_counts()

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

`Los valores de la columna de children muestran que de los valores ausentes todos tienen faltantes, por lo que la cantidad de hijos no influye en la falta de estos valores en la tabla`

In [14]:
df_na['education_id'].value_counts()

1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64

In [15]:
df_na['family_status_id'].value_counts()

0    1237
1     442
4     288
3     112
2      95
Name: family_status_id, dtype: int64

`Para la columna education_id, es decir el grado de escolaridad de las personas del dataframe, tampoco hay indicador absoluto para determinar si esto incluye en la falta de valores`

Esto nos lleva a concluir que no hay una relación entre las dos columnas (`children y education_id`) que explique la presencia de valores ausentes. Se probará ahora la columna `dob_years`.

In [16]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
df[(df['days_employed'].isna() & (df['total_income'].isna()))]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [17]:
# Comprobación de la distribución
df_na['children'].value_counts(normalize=True)

 0     0.661914
 1     0.218491
 2     0.093836
 3     0.016559
 20    0.004140
 4     0.003220
-1     0.001380
 5     0.000460
Name: children, dtype: float64

In [18]:
df['children'].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

**Posibles razones por las que hay valores ausentes en los datos**

`Con los datos que se muestran no puedo llegar a alguna conclusión en la falta de valores para las columnas days_employed y total_income, busque la forma de encontrar un patrón con las columnas children, education_id y family_status_id, sin tener hallazgos de como investigar con lo que tenemos disponible.
De solo observar los datos podría considerarse que usar la mediana para los days_employed, retirando los valores ilógicos que se tienen en el dataframe y el promedio en total_income, igual retirando o corrigiendo los valores ilógicos que se muestran.`

In [19]:
# Comprobando la distribución en el conjunto de datos entero
df['children'].value_counts(normalize=True)

 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

**Conclusión intermedia**

`Las distribuciones son muy similares, hay una variación de milesimas, por lo que se concluye que los datos tienen la misma distribución con lo que no podemos encontrar algún patrón a simple vista para trabajar con los valores ausentes, esto nos llevará a hacer un preprocesamiento previo a realizar un análisis completo del conjunto.`

## Prueba para columna `dob_years` para distribución de valores

In [20]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
df['dob_years'].value_counts(normalize=True)

35    0.028664
40    0.028293
41    0.028200
34    0.028014
38    0.027782
42    0.027735
33    0.026992
39    0.026620
31    0.026016
36    0.025784
44    0.025412
29    0.025319
30    0.025087
48    0.024994
37    0.024948
50    0.023879
43    0.023833
32    0.023693
49    0.023600
28    0.023368
45    0.023089
27    0.022904
56    0.022625
52    0.022485
47    0.022300
54    0.022253
46    0.022067
58    0.021417
57    0.021370
53    0.021324
51    0.020813
59    0.020627
55    0.020581
26    0.018955
60    0.017515
25    0.016585
61    0.016492
62    0.016353
63    0.012497
64    0.012311
24    0.012265
23    0.011800
65    0.009013
66    0.008502
22    0.008502
67    0.007758
21    0.005157
0     0.004692
68    0.004599
69    0.003949
70    0.003020
71    0.002695
20    0.002369
72    0.001533
19    0.000650
73    0.000372
74    0.000279
75    0.000046
Name: dob_years, dtype: float64

In [21]:
df_na['dob_years'].value_counts(normalize=True)

34    0.031739
40    0.030359
31    0.029899
42    0.029899
35    0.029439
36    0.028979
47    0.027139
41    0.027139
30    0.026679
28    0.026219
57    0.025759
58    0.025759
54    0.025299
38    0.024839
56    0.024839
37    0.024379
52    0.024379
39    0.023459
33    0.023459
50    0.023459
51    0.022999
45    0.022999
49    0.022999
29    0.022999
43    0.022999
46    0.022079
55    0.022079
48    0.021159
53    0.020239
44    0.020239
60    0.017939
61    0.017479
62    0.017479
64    0.017019
32    0.017019
27    0.016559
23    0.016559
26    0.016099
59    0.015639
63    0.013339
25    0.010580
24    0.009660
66    0.009200
65    0.009200
21    0.008280
22    0.007820
67    0.007360
0     0.004600
68    0.004140
69    0.002300
20    0.002300
71    0.002300
70    0.001380
72    0.000920
19    0.000460
73    0.000460
Name: dob_years, dtype: float64

## Prueba para columna `education` para distribución de valores

In [22]:
df['education'].value_counts(normalize=True)

secondary education    0.638792
bachelor's degree      0.219187
SECONDARY EDUCATION    0.035865
Secondary Education    0.033031
some college           0.031034
BACHELOR'S DEGREE      0.012729
Bachelor's Degree      0.012451
primary education      0.011614
Some College           0.002184
SOME COLLEGE           0.001347
PRIMARY EDUCATION      0.000790
Primary Education      0.000697
graduate degree        0.000186
GRADUATE DEGREE        0.000046
Graduate Degree        0.000046
Name: education, dtype: float64

In [23]:
df_na['education'].value_counts(normalize=True)

secondary education    0.647654
bachelor's degree      0.228151
SECONDARY EDUCATION    0.030819
Secondary Education    0.029899
some college           0.025299
Bachelor's Degree      0.011500
BACHELOR'S DEGREE      0.010580
primary education      0.008740
SOME COLLEGE           0.003220
Some College           0.003220
PRIMARY EDUCATION      0.000460
Primary Education      0.000460
Name: education, dtype: float64

**Conclusión intermedia**

`Con las pruebas de distribución que se realizaron se concluye que los valores ausentes son un accidente, sin embargo que se deben trabajar los datos para corregir errores que se tienen con las cadenas, ya que hay diferencias. Aunque se realice esto pareciera que no hay un patrón y los valores ausentes son un accidente de ingreso de datos`

## Prueba para `family_status` con distribución de valores

In [24]:
# Comprobación de otros patrones: explica cuáles
#Comprobando con family_status

df['family_status'].value_counts(normalize=True)

married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

In [25]:
df_na['family_status'].value_counts(normalize=True)

married              0.568997
civil partnership    0.203312
unmarried            0.132475
divorced             0.051518
widow / widower      0.043698
Name: family_status, dtype: float64

**Conclusiones**

`Al verificar la distribución de los datos para encontrar patrones, no se encontró ningún patrón a seguir para poder explicar los valores ausentes. En este caso para la columna days_employed, usaré la mediana para reemplazar esos valores, y para la columna total_income utilizaré el promedio, también dentro de estas columnas hay valores ilógicos, es decir hay valores negativos o muy altos que no son factibles para usar en el cálculo estadísticos de los datos por lo que se reemplazarán estos valores en el conjunto previo a trabajar los valores ausentes.
También en las demás columnas se encuentran valores con diferencias de escritura aunque sea para el mismo valor, por lo que se trabajarán estos valores para corregir y poder encontrar filas duplicados y eliminar valores ausentes o ilógicos`

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~En la última parte de esta sección realizas el procedimiento correcto (comparar la distribución de los datos sin filtros vs. los datos sin valores nulos usando ``value_counts()``); sin embargo, hay algunas cosas que se pueden mejorar, en un principio el dataframe que creas sin valores nulos puede ser aplicado sobre toda las variables usando un ``df.dropna()``, de modo que ninguna columna contendrá valores nulos. Por otro lado, en la primera parte de la sección no se termina de entender lo que se está queriendo mostrar y así mismo se tiende a repetir código en algunos bloques de código, esto puede mejorar a medida que generes subtitulos y concluciones intermedias.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen tarbajo.
</div>

## Transformación de datos

Se verificará los valores unicos que existen en la columna `education`, y se abordará el trabajo para los duplicados.

In [26]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

Se encontraron diferencias en los valores ingresados en la columna `education`, se eliminarán las inconsistencias dejando los siguientes valores:

- secondary education
- bachelor's degree
- some college
- primary education
- graduate degree

In [27]:
# Arregla los registros si es necesario
df['education'] = df['education'].str.lower()


In [28]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
df['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo pero no olvides mejorar las concluciones y borrar los comentarios entre corchetes.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen tarbajo.
</div>

### Revisión de la distribución de columna `children`

In [29]:
# Veamos la distribución de los valores en la columna `children`
df['children'].value_counts(normalize=True)


 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

`Con la distribución se encuentra que hay algunas entradas con 20 hijos y otras con -1, estos valores no son lógicos y están incorrectos, el valor de 20 puedo suponer que fue un eror al ingresar el valor poniendo un 0 de más, este valor se pude cambiar por un 2, en cuanto al -1 este valor se cambiará a 1.`

`Se realiza el cambio dejando los valores positivos y reales conforme la distribución mostrada en el apartado anterior para esta columna`

In [30]:
# [arregla los datos según tu decisión]
df['children'] = df['children'].replace(20, 2)
df['children'] = df['children'].replace(-1, 1)

In [31]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
df['children'].value_counts(normalize=True)

0    0.657329
1    0.226016
2    0.099001
3    0.015331
4    0.001905
5    0.000418
Name: children, dtype: float64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo pero no olvides mejorar las concluciones y borrar los comentarios entre corchetes.~~</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen tarbajo.
</div>

## Revisión columna `days_employed` en busca de problemas

In [32]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
df[df['days_employed']<0]['days_employed'].count()/df.shape[0]


0.7389547038327526

In [33]:
df[df['days_employed']>10950]['days_employed'].count()/df.shape[0]

0.16004645760743322

`La cantidad de valores menores a 0 días trabajados son un punto a resolver ya que esto es imposible, así mismo se hizo el análisis para revisar si existían valores por encima de los 30 años trabajados, lo cual nos da un porcentaje bajo, sin embargo para poder realizar un análisis correcto se tomaran estas entradas como si fueran horas trabajadas y se convertirán a días trabajados diviendo entre 24 el valor.`

In [34]:
# Aborda los valores problemáticos, si existen.
for value in df['days_employed']:
    if value < 0:
        df['days_employed'] = df['days_employed'].replace(value, value*-1)
    if value > 10950:
        df['days_employed'] = df['days_employed'].replace(value, value/24)

In [35]:
# Comprueba el resultado - asegúrate de que esté arreglado
df[df['days_employed']<0]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [36]:
df['days_employed'].describe()

count    19351.000000
mean      4641.641176
std       5355.964289
min         24.141633
25%        927.009265
50%       2194.220567
75%       5537.882441
max      18388.949901
Name: days_employed, dtype: float64

In [37]:
df[df['days_employed']==18388.949900568383]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,18388.949901,61,secondary education,1,married,0,F,employee,0,29788.629,real estate transactions


`En este caso encontramos valores superiores a los 30 años, sin embargo son valores que muchas personas consiguen trabajar, el dato mayor como se muestra arriba es de 18388.949901 días trabajados el cual es 50 años, la persona de esa entrada tiene 61 años, y con secundaría terminada, es decir que si bien es un poco ilógico podría ser cierto que desde temprana edad comenzó a trabajar y sigue haciendolo por lo que podemos considerar que este valor es correcto. `

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo, interesante solución para los valores atípicamente altos, no olvides mejorar las conclusiones y borrar los comentarios entre corchetes.~~</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen tarbajo.
</div>

###  Comprobación de valores de columna `dob_years`

In [38]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
df['dob_years'].unique()
dobyears = df['dob_years'].value_counts()/df.shape[0]
dobyears


35    0.028664
40    0.028293
41    0.028200
34    0.028014
38    0.027782
42    0.027735
33    0.026992
39    0.026620
31    0.026016
36    0.025784
44    0.025412
29    0.025319
30    0.025087
48    0.024994
37    0.024948
50    0.023879
43    0.023833
32    0.023693
49    0.023600
28    0.023368
45    0.023089
27    0.022904
56    0.022625
52    0.022485
47    0.022300
54    0.022253
46    0.022067
58    0.021417
57    0.021370
53    0.021324
51    0.020813
59    0.020627
55    0.020581
26    0.018955
60    0.017515
25    0.016585
61    0.016492
62    0.016353
63    0.012497
64    0.012311
24    0.012265
23    0.011800
65    0.009013
66    0.008502
22    0.008502
67    0.007758
21    0.005157
0     0.004692
68    0.004599
69    0.003949
70    0.003020
71    0.002695
20    0.002369
72    0.001533
19    0.000650
73    0.000372
74    0.000279
75    0.000046
Name: dob_years, dtype: float64

`Hay un valor de 0 dentro de las edades, este valor lo cambiaré por la mediana de las edades con esto la columna tendrá valores lógicos acorde con lo que muestra la tabla.`
`Se hizo el cambio al valor de la mediana ya que si utilizamos el valor de la media esto nos cambiará el tipo de dato a flotante, y habría inconsistencias en la columna ya que todos los datos son enteros.`

In [39]:
# Resuelve los problemas en la columna `dob_years`, si existen
df['dob_years'] = df['dob_years'].replace(0,int(df['dob_years'].median()))

In [40]:
# Comprueba el resultado - asegúrate de que esté arreglado
df[df['dob_years']==0]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo, acertado que uses la mediana como estadístico para imputar, no olvides mejorar las conclusiones y borrar los comentarios entre corchetes.~~</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen tarbajo.
</div>

### Comprobación de valores en columna `family_status`

In [41]:
# Veamos los valores de la columna
df['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

`Se cambiarán los valores de la columna utilizando el formato` *snake_case*`.`

In [42]:
# Aborda los valores problemáticos en `family_status`, si existen
df['family_status'] = df['family_status'].replace('civil partnership', "civil_partnership")
df['family_status'] = df['family_status'].replace('widow / widower', 'widow/widower')

*La columna `family_status` no cuenta con datos problemáticos*

In [43]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['family_status'].value_counts()

married              12380
civil_partnership     4177
unmarried             2813
divorced              1195
widow/widower          960
Name: family_status, dtype: int64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~En este caso podrías aplicar ``snake_case`` a las categorías que presenten más de una palabra, esto con el fin de lograr manejar los datos de una mejor manera.~~</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Bien hecho.
</div>

###  Verificar datos columna `gender`

In [44]:
# Veamos los valores en la columna
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [45]:
# Aborda los valores problemáticos, si existen
df[df['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,some college,2,civil_partnership,1,XNA,business,0,32624.825,buy real estate


Se decidió cambiar a género femenino ya que con en los datos se muestran más mujeres que hombres

In [46]:
df['gender'] = df['gender'].replace('XNA','F')

In [47]:
# Comprueba el resultado - asegúrate de que esté arreglado
df[df['gender']=='XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


`El cambio de género fue para poder continuar con los datos de forma homógenea, este valor pudo haber sido eror de ingreso, o alguien que no quiere ser identificado con alguno. Se decidió cambiar a género femenino ya que es el mayor grupo de los que aparecen en la tabla. Para realizarlo, se identificó el número de fila en la tabla de datos y se reemplazo el valor de XNA por F. Con esto seguimos con la homogeneidad de los datos.`

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Este tipo de problemas es algo a tener en cuenta en casos reales, es difícil imputar este tipo de categorías, algo inteligente sería consultar con los responsables de los datos porque existe esa falta de información, aun así, buen trabajo. Aprovecho este comentario para recordarte que los comentarios en rojo que he dejado aun así comentándote que el procedimiento está bien es por el tema de las conclusiones y los corchetes.~~</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~Buen trabajo, pero sigues sin generar conclusiones intermedias sobre lo realizado.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

### Revisión datos columna `income_type`

In [48]:
# Veamos los valores en la columna
df['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

*Se cambiarán los datos con espacios a formato `snake_case`*

In [49]:
# Aborda los valores problemáticos, si existen
df['income_type'] = df['income_type'].replace('civil servant','civil_servant')
df['income_type'] = df['income_type'].replace('paternity / maternity leave','paternity/maternity_leave')

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~En este caso podrías aplicar ``snake_case`` a las categorías que presenten más de una palabra, esto con el fin de lograr manejar los datos de una mejor manera.~~</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>

Se cambiaron los valores `civil servant` por `civil_servant` y `paternity / maternity leave` por `paternity/maternity_leave`

</div>


In [50]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['income_type'].value_counts()



employee                     11119
business                      5085
retiree                       3856
civil_servant                 1459
unemployed                       2
entrepreneur                     2
paternity/maternity_leave        1
student                          1
Name: income_type, dtype: int64

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

## Verificación de duplicados en los datos

In [51]:
# Comprobar los duplicados
df.duplicated().sum()

72

In [52]:
# Aborda los duplicados, si existen
df = df.drop_duplicates().reset_index(drop = True)

In [53]:
# Última comprobación para ver si tenemos duplicados
df.duplicated().sum()

0

In [54]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.shape

(21453, 12)

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo con los duplicados obvios, no olvides mejorar las conclusiones y borrar los comentarios entre corchetes.~~</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

`Los datos se modificaron, ya no contamos con números negativos, se eliminaron los valores duplicados dejando solo los valores necesarios para realizar el análisis. Así mismo se cambiaron las entradas de texto a formato` *snake_case*`, por lo que el análisis puede considerarse correcto y verdadero `

In [55]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21453.0,19351.0,21453.0,21453.0,21453.0,21453.0,19351.0
mean,0.480585,4641.641176,43.469025,0.817089,0.973896,0.081154,26787.568355
std,0.756079,5355.964289,12.214162,0.548686,1.421601,0.273078,16475.450632
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,927.009265,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,23202.87
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,32549.611
max,5.0,18388.949901,75.0,4.0,4.0,1.0,362496.645


# Trabajar con valores ausentes

[Para acelerar el trabajo con algunos datos, puede que necesites trabajar con diccionarios para algunos valores, en los que se proporcionan IDs. Explica por qué y con qué diccionarios vas a trabajar.]

In [56]:
# Encuentra los diccionarios
education= {
    "bachelor's degree":0,
    'secondary education':1,
    'some college':2,
    'primary education':3,
    'graduate degree':4,
}

family = {
    'married':0,
    'civil_partnership':1,
    'widow/widower':2,
    'divorced':3,
    'unmarried':4,
}

income_type = {
    'employee':0,
    'retiree':1,
    'business':2,
    'civil_servant':3,
    'unemployed':4,
    'entrepreneur':5,
    'student':6,
    'paternity/maternity_leave':7
}


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~La creación de diccionarios refiere a generar categóricas numéricas a variables categóricas con el fin de mapearlas y manejarlas de manera más fácil, en últimas es el cambio de un valor de string a una escala numérica que mantenga un sentido lógico.~~</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~No se modificó nada en esta sección.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Genial, muy buen trabajo!
</div>

### Restaurar valores ausentes en `total_income`

Las columnas que presentan valores ausentes son `days_employed` y `total_income`.
La columna *`days_employed`*, se usará el valor de la media de los días para completar los valores ausentes.
Para la columna *`total_income`*, se usará el valor de la media de ingresos de las personas para completar los valores ausentes.


In [57]:
# Vamos a escribir una función que calcule la categoría de edad
def age_category(age):
    
    if age <= 29:
        return 0
    if age <= 49:
        return 1
    if age <= 69:
        return 2
    if age >= 70:
        return 3
    

In [58]:
# Prueba si la función funciona bien
age_category(78)


3

In [59]:
# Crear una nueva columna basada en la función
df['age_category'] = df['dob_years'].apply(age_category)


In [60]:
# Comprobar cómo los valores en la nueva columna
df[['dob_years', 'age_category']].head()

Unnamed: 0,dob_years,age_category
0,42,1
1,36,1
2,33,1
3,32,1
4,53,2


*Los factores que influyen en los ingresos el nivel de estudios y el genero, entre mayor sea el nivel de estudios mayores los ingresos. Y en algunos casos se muestra que los hombres pueden ganar más que las mujeres, por lo que orientaremos nuestro análisis a estas columnas para encontrar patrones.*

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo
</div>

###  Tabla sin valores ausentes

In [61]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
df_dropna = df.dropna().reset_index(drop=True)
df_dropna.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,1
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,1
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,1
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,1
4,0,14177.753002,53,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,2
5,0,926.185831,27,bachelor's degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,0
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,1
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,2
8,2,6929.865299,35,bachelor's degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,1
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,1


In [62]:
df_dropna.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

### Revisión de columna `total_income` con respecto a `education`

In [63]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
df_dropna.groupby('education')['total_income'].mean()

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29045.443644
Name: total_income, dtype: float64

In [64]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
df_dropna.groupby('education_id')['total_income'].median()

education_id
0    28054.5310
1    21836.5830
2    25618.4640
3    18741.9760
4    25161.5835
Name: total_income, dtype: float64

### Revisión de columna `total_income` con respecto a `gender`

In [65]:
df_dropna.groupby('gender')['total_income'].mean()

gender
F    24656.229647
M    30907.144369
Name: total_income, dtype: float64

In [66]:
df_dropna.groupby('gender')['total_income'].median()

gender
F    21465.165
M    26834.295
Name: total_income, dtype: float64

### Revisión de columna `total_income` con respecto a `income_type` 

In [67]:
df_dropna.groupby('income_type')['total_income'].mean()

income_type
business                     32386.793835
civil_servant                27343.729582
employee                     25820.841683
entrepreneur                 79866.103000
paternity/maternity_leave     8612.661000
retiree                      21940.394503
student                      15712.260000
unemployed                   21014.360500
Name: total_income, dtype: float64

In [68]:
df_dropna.groupby('income_type')['total_income'].median()

income_type
business                     27577.2720
civil_servant                24071.6695
employee                     22815.1035
entrepreneur                 79866.1030
paternity/maternity_leave     8612.6610
retiree                      18962.3180
student                      15712.2600
unemployed                   21014.3605
Name: total_income, dtype: float64

### Revisión de columna `total_income` con respecto a `age_category` 

In [69]:
df_dropna.groupby('age_category')['total_income'].mean()

age_category
0    25533.960641
1    28400.559157
2    24953.766431
3    20125.658331
Name: total_income, dtype: float64

In [70]:
df_dropna.groupby('age_category')['total_income'].median()

age_category
0    22742.6535
1    24719.0200
2    21437.0100
3    18751.3240
Name: total_income, dtype: float64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~Estas exploraciones de los valores de las medianas para la variable ``total_income`` sujeto a otras categorías podría realizarse en el dataframe normal, ten en cuenta que algunas secciones del proyecto tienden a ser confusas, puesto que no generes conclusiones intermedias que comenten lo que estás realizando.~~
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>

Se usa la tabla filtrada para poder obtener valores sin tomar en cuanta los valores ausentes de la columna `total_income`, realicé el ejercicio y obtengo resultados diferentes
    
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo!
</div>

Se utilizará la mediana para rellenar los valores ausentes de la columna `total_income` e `income_type`, para esto utilizaré la columna `education_id` para poder realizar la categorización de las entradas y rellenar los valores ausentes que corresponda a cada categoría. Esto nos llevará a ser consistentes con la columna del total de ingresos.

In [71]:
df.groupby(['education_id','income_type'])['total_income'].median()

education_id  income_type              
0             business                     32285.6640
              civil_servant                27601.7775
              employee                     26502.5190
              entrepreneur                 79866.1030
              retiree                      23078.5230
              student                      15712.2600
              unemployed                   32435.6020
1             business                     25451.3100
              civil_servant                21864.4750
              employee                     21848.8175
              paternity/maternity_leave     8612.6610
              retiree                      18374.8570
              unemployed                    9593.1190
2             business                     28778.7440
              civil_servant                25694.7750
              employee                     24209.4300
              retiree                      19221.9030
3             business                    

In [72]:
MEDIANA_INCOME = df[df['total_income'].notna()].groupby(['education_id','income_type'])['total_income'].median()
MEDIANA_INCOME

education_id  income_type              
0             business                     32285.6640
              civil_servant                27601.7775
              employee                     26502.5190
              entrepreneur                 79866.1030
              retiree                      23078.5230
              student                      15712.2600
              unemployed                   32435.6020
1             business                     25451.3100
              civil_servant                21864.4750
              employee                     21848.8175
              paternity/maternity_leave     8612.6610
              retiree                      18374.8570
              unemployed                    9593.1190
2             business                     28778.7440
              civil_servant                25694.7750
              employee                     24209.4300
              retiree                      19221.9030
3             business                    

In [73]:
#  Escribe una función que usaremos para completar los valores ausentes
def ausent_sust(row):
    education = row['education_id']
    income = row['income_type']
    total_income = row['total_income']
    
    if not pd.isna(total_income):
        return total_income
    try:
        return MEDIANA_INCOME[education][income]
    except KeyError:
        return total_income
    

In [74]:
# Comprueba si funciona
df_nu =df.copy()
new = df.apply(ausent_sust,axis=1)
df_nu['total_income'] = new
df_nu['total_income'].isna().sum()


0

In [75]:
# Aplícalo a cada fila
new = df.apply(ausent_sust,axis=1)
df['total_income'] = new

In [76]:
df[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_category


In [77]:
# Comprueba si tenemos algún error
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,age_category
count,21453.0,19351.0,21453.0,21453.0,21453.0,21453.0,21453.0,21453.0
mean,0.480585,4641.641176,43.469025,0.817089,0.973896,0.081154,26472.778966,1.19326
std,0.756079,5355.964289,12.214162,0.548686,1.421601,0.273078,15726.519645,0.684215
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762,0.0
25%,0.0,927.009265,33.0,1.0,0.0,0.0,17202.449,1.0
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,22993.41,1.0
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,31729.462,2.0
max,5.0,18388.949901,75.0,4.0,4.0,1.0,362496.645,3.0


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Estás abordando la solución del problema de la manera correcta, aun así teniendo en cuentas las demás variables de la tabla, es importante tener en cuenta la columna ``imncome_type`` a la hora de analizar lo que está sucediendo, te puedo aconsejar que aparte del ID de educación agregues dicha variable a la categorización creada para hallar las medianas y remplazar en los valores nulos.~~</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~Estás abordando el problema de manera correcta, aun así te aconsejo que explores como puedes hacer la función de forma más simplificada por medio del uso de agrupaciones, de manera que no tengas que tu registrar todos los posibles valores de medianas.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Interesante forma de simplificar el código, por ahora me parece una buena aproximación; sin embargo, te invito a seguir explorando ejemplos de funciones que cumplan el mismo propósito, estamos acá para aprender muchas cosas nuevas, muy buen trabajo!
</div>

In [78]:
# Comprobar el número de entradas en las columnas
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_category      21453 non-null  int64  
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


Las columnas tienen el mimo número de entradas, excepto `days_employed`, en el cual aparecen valores ausentes.

###  Restaurar valores en `days_employed`

Para la columna de `days_employed` se considerará el factor del tipo de ingreso en la columna `income_type`

In [79]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
df.groupby(['income_type','age_category'])['days_employed'].median()

income_type                age_category
business                   0                 908.139502
                           1                1693.348542
                           2                2061.677399
                           3                3095.344969
civil_servant              0                1362.645769
                           1                2892.841512
                           2                3819.289067
                           3                1678.969771
employee                   0                1008.784193
                           1                1700.234535
                           2                2295.203582
                           3                1504.924191
entrepreneur               0                 520.848083
                           2                        NaN
paternity/maternity_leave  1                3296.759962
retiree                    0               15181.174890
                           1               15275.850012
        

In [80]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
df.groupby(['income_type','age_category'])['days_employed'].mean()

income_type                age_category
business                   0                1129.938925
                           1                2147.052990
                           2                2904.701161
                           3                5292.598849
civil_servant              0                1595.684495
                           1                3408.921984
                           2                4754.058388
                           3                2811.783573
employee                   0                1202.858627
                           1                2327.173844
                           2                3347.289543
                           3                3310.691322
entrepreneur               0                 520.848083
                           2                        NaN
paternity/maternity_leave  1                3296.759962
retiree                    0               15029.457014
                           1               15261.529795
        

En las dos celdas anteriores se agrupan los valores entre el `income_type` y `age_category` en el cual se muestra un valor ausente, por lo que solo se hará el análisis con `income_type`

Para continuar con método se utilizarán las medianas para completar los valores ausentes tomando como consideración el tipo de ingreso. En este caso vamos a usar las medias de los días trabajados dependiendo del tipo de ingreso, ya que si lo filtramos por caregoría de edad encontramos un valor ausente en la media y mediana.

In [81]:
df.groupby(['age_category','income_type'])['days_employed'].median()

age_category  income_type              
0             business                       908.139502
              civil_servant                 1362.645769
              employee                      1008.784193
              entrepreneur                   520.848083
              retiree                      15181.174890
              student                        578.751554
1             business                      1693.348542
              civil_servant                 2892.841512
              employee                      1700.234535
              paternity/maternity_leave     3296.759962
              retiree                      15275.850012
              unemployed                   15267.235531
2             business                      2061.677399
              civil_servant                 3819.289067
              employee                      2295.203582
              entrepreneur                          NaN
              retiree                      15205.931615
3       

In [82]:
MEDIANA_DAYS = df[df['days_employed'].notna()].groupby(['age_category','income_type'])['days_employed'].median() 
MEDIANA_DAYS

age_category  income_type              
0             business                       908.139502
              civil_servant                 1362.645769
              employee                      1008.784193
              entrepreneur                   520.848083
              retiree                      15181.174890
              student                        578.751554
1             business                      1693.348542
              civil_servant                 2892.841512
              employee                      1700.234535
              paternity/maternity_leave     3296.759962
              retiree                      15275.850012
              unemployed                   15267.235531
2             business                      2061.677399
              civil_servant                 3819.289067
              employee                      2295.203582
              retiree                      15205.931615
3             business                      3095.344969
        

In [83]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def medianas(row):
    age = row['age_category']
    income = row['income_type']
    days = row['days_employed']
    
    if not pd.isna(days):
        return days
    try:
        return MEDIANA_INCOME[age][income]
    except KeyError:
        return days
    

In [84]:
# Comprueba que la función funciona
df_nu =df.copy()
new = df.apply(ausent_sust,axis=1)
df_nu['total_income'] = new
df_nu['total_income'].isna().sum()

0

In [85]:
# Reemplazar valores ausentes
new = df.apply(medianas,axis=1)
df['days_employed'] = new

In [86]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income,age_category
count,21453.0,21452.0,21453.0,21453.0,21453.0,21453.0,21453.0,21453.0
mean,0.480585,6482.540259,43.469025,0.817089,0.973896,0.081154,26472.778966,1.19326
std,0.756079,7625.113501,12.214162,0.548686,1.421601,0.273078,15726.519645,0.684215
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762,0.0
25%,0.0,1023.688788,33.0,1.0,0.0,0.0,17202.449,1.0
50%,0.0,2591.702285,42.0,1.0,0.0,0.0,22993.41,1.0
75%,1.0,13890.18505,53.0,1.0,1.0,0.0,31729.462,2.0
max,5.0,32285.664,75.0,4.0,4.0,1.0,362496.645,3.0


In [87]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21452 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_category      21453 non-null  int64  
dtypes: float64(2), int64(6), object(5)
memory usage: 2.1+ MB


In [88]:
df.isna().sum()

children            0
days_employed       1
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

Se encontró un valor ausente en la columna `days_employed` el cual corresponde a una entrada de *`entrepreneur`*, este valor lo eliminaremos del dataframe.

In [89]:
df = df.dropna()

In [90]:
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_category        0
dtype: int64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo seleccionado las columnas a al que están condicionando las categorías para hallar las medianas que remplazaran los valores nulos, aun así es importante que tanto en esta sección como en la anterior puedas mejorar la función, no es necesario que tengas que tú mismo escribir los valores de las medianas, puedes buscar la forma en que estas sean calculadas dentro de la función.~~</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~Nuevamente, te recomiendo revisar una mejor forma de construir las funciones (te aconsjeo explorar el uso de agrupaciones con ``groupby()``, de modo que los argumentos de la función solo tengan que ser llaves de acceso a una tabla agrupada). Por otro lado, te recomiendo usar la mediana en vez de la media en este caso.~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo, opino lo mismo que en el comentario anterior.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
**Nota Importante**    
    
De aquí en adelante el proyecto no se logró ejecutar, aun así realizando una revisión rápida me doy cuenta de que no se tomaron en cuenta muchas de las recomendaciones de la revisión pasada. Por favor revisa los nuevos y antiguos comentarios para completar el proyecto.
</div>

## Clasificación de datos

Se van a clasificar los datos por las columnas `education`, `family_status`, `income_type` y `children` esto ya que son las columnas se considera que influyen en el pago del prestamo

In [91]:
# Muestra los valores de los datos seleccionados para la clasificación
df_class = df.loc[:,['education','family_status','total_income','children','purpose','debt']]
df_class


Unnamed: 0,education,family_status,total_income,children,purpose,debt
0,bachelor's degree,married,40620.102,1,purchase of the house,0
1,secondary education,married,17932.802,1,car purchase,0
2,secondary education,married,23341.752,0,purchase of the house,0
3,secondary education,married,42820.568,3,supplementary education,0
4,secondary education,civil_partnership,25378.572,0,to have a wedding,0
...,...,...,...,...,...,...
21448,secondary education,civil_partnership,35966.698,1,housing transactions,0
21449,secondary education,married,24959.969,0,purchase of a car,0
21450,secondary education,civil_partnership,14347.610,1,property,1
21451,secondary education,married,39054.888,3,buying my own car,1


In [92]:
# Comprobar los valores únicos
df_class['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [93]:
df_class['family_status'].unique()

array(['married', 'civil_partnership', 'widow/widower', 'divorced',
       'unmarried'], dtype=object)

In [94]:
df_class['total_income'].unique()

array([40620.102, 17932.802, 23341.752, ..., 14347.61 , 39054.888,
       13127.587])

In [95]:
df_class['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [96]:
df_class['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

Los datos podemos clasificar a las personas por su nivel de educación su estado civil y su tipo de empleo, se crea la nueva columna `income_id` para clasificar los tipos de ingreso, y despúes haremos filtros sobre cada columna de clasificación

In [97]:
# Escribamos una función para clasificar los datos en función de temas comunes
def income_category(tipo):
    if tipo == 'employee':
        return 0
    if tipo == 'retiree':
        return 1
    if tipo == 'business':
        return 2
    if tipo == 'civil servant':
        return 3
    if tipo == 'unemployed':
        return 4
    if tipo == 'entrepreneur':
        return 5
    if tipo == 'student':
        return 6
    if tipo == 'paternity / maternity leave':
        return 7

In [98]:
income_category('employee')

0

In [99]:
# Crea una columna con las categorías y cuenta los valores en ellas
df['income_id'] = df['income_type'].apply(income_category)
df[['income_id']].value_counts()

income_id
0.0          11083
2.0           5078
1.0           3829
4.0              2
5.0              1
6.0              1
dtype: int64

Los valores que se tienen en las columnas `education_id`, `family_status_id`, `total_income` y `children` nos servirán para clasificar los datos, otra columna que debemos tomar en cuenta es la llamada `debt`, para este ejercicio vamos a clasificar los datos por la columna `children` ya que en la hipotesis se menciona el número de hijos como posible causa de problemas a pagar el prestamo

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Variables como income_tpye son las que hubieran podido ser mapeadas con diccionarios en una se las secciones anteriores.~~</div>

In [100]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
df['total_income']

0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21448    35966.698
21449    24959.969
21450    14347.610
21451    39054.888
21452    13127.587
Name: total_income, Length: 21452, dtype: float64

In [101]:
# Obtener estadísticas resumidas para la columna
df['total_income'].describe()


count     21452.000000
mean      26470.289998
std       15722.660182
min        3306.762000
25%       17201.831750
50%       22993.274000
75%       31728.592000
max      362496.645000
Name: total_income, dtype: float64

In [102]:
df['total_income'].value_counts(normalize=True)

21848.8175    0.036733
18374.8570    0.014917
25451.3100    0.013752
26502.5190    0.010861
32285.6640    0.008671
                ...   
27097.0850    0.000047
45484.1090    0.000047
27715.4580    0.000047
23834.5340    0.000047
41428.9160    0.000047
Name: total_income, Length: 19354, dtype: float64

Se van a utilizar los siguientes rangos para la columna `total_income`:
Para el cálculo de los rangos se toman las siguientes instrucciones
   - Se busca el valor menor
   - Se busca el valor mayor
   - La diferencia se redondea al valor entero más próximo para dividirlo entre el número de intervalos, (se harán 6 intervalos

In [103]:
a = df['total_income'].max() - df['total_income'].min()
a

359189.88300000003

In [104]:
a/6

59864.980500000005

Se usará el valor de *60417* para calcular los intervalos

In [105]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def ingreso(income):
    if income <= 60417:
        return 0
    if income <= 120834:
        return 1
    if income <= 181251:
        return 2
    if income <= 241668:
        return 3
    if income <= 302085:
        return 4
    if income <= 362502:
        return 5

In [106]:
ingreso(185000)

3

In [107]:
# Crear una columna con categorías
df['total_income_category'] = df['total_income'].apply(ingreso)

In [108]:
# Contar los valores de cada categoría para ver la distribución
df['total_income_category'].value_counts(normalize=True)

0    0.969560
1    0.028249
2    0.001538
3    0.000326
4    0.000233
5    0.000093
Name: total_income_category, dtype: float64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo categorizando ``total_income``, aun así es importante que revises la posible categorización de la columna ``purpose``, hay muchas categorías en esta que están escritas de diferente manera, pero al final significan lo mismo. No olvides generar mejores conclusiones intermedias y borrar los comentarios entre corchetes.~~</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>

Esto se realiza en la siguiente sección
    
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo! </div>

## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [109]:
# Comprueba los datos sobre los hijos y los pagos puntuales
df_children = df[df['debt']==0]
df_children['children'].value_counts()

0    13026
1     4410
2     1926
3      303
4       37
5        9
Name: children, dtype: int64

In [110]:
# Calcular la tasa de incumplimiento en función del número de hijos
df_children = df[df['debt']==1]
df_children['children'].value_counts()

0    1063
1     445
2     202
3      27
4       4
Name: children, dtype: int64

**Conclusión**

Para comprobar los valores sobre los hijos y los pagos puntuales, se filtro la tabla con el valor de la columna `debt`, en esta columna un valor de 0 significa que no hay incumplimiento, y un valor de 1 existe un retraso en el pago del crédito. 
En el ejercicio se encontró que los hijos no es el indicador de más peso para el incumplimiento de los pagos ya que se muestra que la mayoría de morosos no tiene hijos.

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [111]:
# Comprueba los datos del estado familiar y los pagos a tiempo
# Calcular la tasa de incumplimiento en función del número de hijos
df_family = df[df['debt']==0]
df_family['family_status_id'].value_counts()

0    11407
1     3762
4     2536
3     1110
2      896
Name: family_status_id, dtype: int64

In [112]:
# Calcular la tasa de incumplimiento basada en el estado familiar
df_family = df[df['debt']==1]
df_family['family_status_id'].value_counts()/df.shape[0]

0    0.043399
1    0.018087
4    0.012773
3    0.003962
2    0.002937
Name: family_status_id, dtype: float64

**Conclusión**

Al analizar el estatus familiar se encontró que la mayor parte de los morosos se encuentran casados, esto representa el 4.3% de las entradas en el reporte, con esto podemos empezar

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [113]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
df_income = df[df['debt']==1]
df_income['total_income_category'].value_counts()

0    1704
1      33
2       3
5       1
Name: total_income_category, dtype: int64

In [114]:
# Calcular la tasa de incumplimiento basada en el nivel de ingresos
df_income['total_income_category'].value_counts()/df.shape[0]

0    0.079433
1    0.001538
2    0.000140
5    0.000047
Name: total_income_category, dtype: float64

**Conclusión**

La mayor parte de los deudores son las personas que ganan menos de 60417 ya qe representan la mayor parte de la distribución de datos.

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [115]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
df_prop = df[df['debt']==1]
df_prop['purpose'].value_counts()

having a wedding                            64
wedding ceremony                            64
to have a wedding                           58
real estate transactions                    55
building a property                         54
buying property for renting out             52
transactions with commercial real estate    52
to get a supplementary education            51
second-hand car purchase                    51
transactions with my real estate            50
purchase of a car                           50
housing transactions                        48
building a real estate                      48
purchase of the house                       48
to own a car                                48
buy commercial real estate                  47
getting higher education                    46
buying my own car                           46
housing                                     46
purchase of the house for my family         45
to buy a car                                44
profile educa

Se van a cambiar los própositos de los créditos ya que hay varios escritos diferentes que son para lo mismo, los grupos que se crearán son:
   - wedding
   - real_state
   - car_purchase
   - education

In [116]:
wedding_values_wrong = ['having a wedding','wedding ceremony','to have a wedding']

real_state_wrong = ['real estate transactions','building a property','transactions with commercial real estate',
                    'buying property for renting out','transactions with my real estate','purchase of the house',
                    'housing transactions','building a real estate','buy commercial real estate','housing',
                    'purchase of the house for my family','buy real estate','property','construction of own property',
                   'buy residential real estate','housing renovation','purchase of my own house']

car_purchase_wrong = ['buying a second-hand car','car purchase','car','cars','to buy a car','buying my own car',
                'second-hand car purchase','purchase of a car','to own a car','buying my own car']

education_wrong = ['to get a supplementary education','getting higher education','profile education','going to university',
            'university education','to become educated','supplementary education','getting an education','education']

In [117]:
def replace_wrong_values(wrong_values, correct_value):
    for wrong_value in wrong_values:
        df['purpose'] = df['purpose'].replace(wrong_value,correct_value)

In [118]:
replace_wrong_values(wedding_values_wrong,'wedding')
replace_wrong_values(real_state_wrong,'real_state')
replace_wrong_values(car_purchase_wrong,'car_purchase')
replace_wrong_values(education_wrong,'education')

In [119]:
df_prop = df[df['debt']==1]
df_prop['purpose'].value_counts(normalize=True)

real_state      0.449167
car_purchase    0.231476
education       0.212522
wedding         0.106835
Name: purpose, dtype: float64

**Conclusión**

En cuanto a la columna `purpose` la gente que tiene retrasos en mayor parte es quién solicita para comprar o remodelar propiedades. 
Se harán análisis más profundos para encontrar los patrones de las personas deudaras contras las columnas analisadas anteriormente

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Para esta sección de comprobación de hipótesis sería interesante que generarás tablas pívot donde se puede contrastar de mejor manera la información, por otro lado, ten en cuenta correcciones anteriores para mejorar esta sección (por ejemplo: cambios en las categorías de propuse).~~
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo, realmente interesante la forma en que realizaste las agrupaciones.</div>

In [120]:
df_pivot = df.pivot_table(index=['family_status','children'],columns='purpose',values='debt',aggfunc='sum')
df_pivot

Unnamed: 0_level_0,purpose,car_purchase,education,real_state,wedding
family_status,children,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
civil_partnership,0,28.0,35.0,51.0,115.0
civil_partnership,1,17.0,18.0,32.0,51.0
civil_partnership,2,4.0,6.0,8.0,15.0
civil_partnership,3,2.0,1.0,0.0,5.0
civil_partnership,4,0.0,,0.0,0.0
civil_partnership,5,0.0,,,0.0
divorced,0,13.0,13.0,29.0,
divorced,1,6.0,2.0,13.0,
divorced,2,2.0,2.0,4.0,
divorced,3,0.0,,1.0,


# Conclusión general 

En este ejercicio se encontraron muchos errores en los datos, los caules fueron abordados poco a poco.
   - Primero se buscaron posibles patrones que nos guiarán para completar los datos ausentes debido a que no tenemos el contacto de quién proporciona la base de datos. Se encontró que había relación entre las columnas `total_income` y `days_employed`, se supuso que la falta de estos datos fueron errores de entrada de los datos.
   -  En la columna `education` se arreglaron problemas con las entradas ya que se encontraron datos con el mismo grado de escolaridad pero con diferente forma de escritura.
   - Se eliminaron los datos duplicados, con el supuesto que estos datos se encontraban dos veces en la base de datos, este supuesto se toma como correcto ya que sin un número de id de persona es dificil saber si realmente estaban duplicados.
   - En la columna `children` se corrigieron los errores de entrada con números negativos y números imposibles.
   - En `total_income` se agruparon los datos por `education_id`, es decir con el nivel de estudios y se calculo la media de estos grupos para poder reemplazar los valores ausentes la columna `total_income`.
   - En `days_employed` se corrigieron errores con valores negativos, y los valores imposibles que mostraban que alguien trabajo por cerca de 1000 años, despúes se realizo lo mismo que en `total_income` pero ahora agrupando por `income_type`.
   - Cuando completamos los datos se procedió a relizar el análisis de la hipotesis, la cual era que la cantidad de hijos influye en el incumplimiento de los pagos del prestamos, para ello se filtraron los datos para tener solo las entradas con dedudas en el prestamo, con lo que pudimos establecer la distribución y encontrar el patrón significativo que se debe tomar en cuenta. Con estos análisis en las columnas `children`, `family_status_id` y `purpose` se creo la tabla dinámica con estos valores, encontrando que las personas casadas, sin hijos que compraron o remodelaron casa son los que más deben a sus prestamos, seguidos de los casados sin hijos que pidieron el prestamo para comprar carro, después para estudios y continuando con el crédito para casarse.
   
   
En conclusión las personas que están recien casadas, sin hijos son las que incumplen con los pagos del crédito solicitado mayormente. Por lo que la cantidad de hijos no influye en el incumplimiento de pagos.


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

# Comentario General 

~~He dejado diferentes comentarios a lo largo de las secciones para que puedas revisar, por otro lado, es muy importante que borres los comentarios entre corchetes y mejores las conclusiones, teniendo en cuenta los diferentes aspectos que te comente a lo largo del proyecto, aun así, muy buen trabajo, quedo atento para la próxima revisión.~~ </div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>

# Comentario General #2

~~He dejado nuevos comentarios etiquetados con el #2, por favor revísalos y fíjate en los comentarios de la primera revisión que pasaste por alto, también recuerda que si tienes alguna duda puedes escribirme como te indique en la introducción del proyecto; sin embargo, es muy importante que trates de tener en cuenta los comentarios que realizo para que podamos continuar con la evaluación del proyecto.~~ </div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>

# Comentario General #3

Muy buen trabajo Héctor, gracias por el tiempo dedicado a revisar y corregir los diferentes aspectos de mis comentarios.</div>
