# Revisión (primera iteración)

<b>¡Hola Jonathan!</b>

Mi nombre es Alejandro Abia Trujillo, me da gusto saludarle. Mi trabajo es revisar su código cuidadosamente y señalar tanto sus puntos fuertes como aquellos aspectos susceptibles de mejora. Esta es una práctica común que usted tendrá con sus colegas en su carrera como científico de datos y que le permitirá crecer como profesional. 

A continuación, encontrará mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borre ni mueva de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

En celdas verdes encontrará comentarios en relación con sus aciertos y fortalezas. 
    
</div>

<div class="alert alert-block alert-warning">
<b>Antención</b> <a class="tocSkip"></a>

Utilizaré el color amarillo para llamar su atención con el objeto de expresarle algo importante o compartirle alguna idea de valor. 
   
</div>

<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
    
En rojo emitiré aquellos puntos que usted deberá atender en la o las siguientes iteraciones para aprobar la revisión. 

</div>

<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>

Es factible que, a lo largo del proceso de revisión, quiera dejarme comentarios. Si es el caso, por favor realícelos dentro de celdas azules.
    
</div>

Recuerde que, si usted desea dejarme un comentario en alguna parte de este Notebook, sólo tiene que dar doble clic sobre la celda de arriba, copiar el código, pegarlo en una nueva celda y sustituir mi contenido por el suyo. Asegúrese sólamente que la celda donde usted vaya a incluir su comentario esté en formato "Markdown".

Respecto del proceso de revisión, esta es la <b>primera iteración</b> para este ejercicio. Su proyecto será aceptado una vez que los comentarios en rojo hayan sido atendidos. 

<div class="alert alert-block alert-info">
<b>Comentario revisor de código</b><a class="tocSkip"></a>

Jonathan usted presentó un proyecto casi perfecto. Mis comentarios en rojo son menores pero se derivan de puntos que como revisores de código nos piden señalar.
    
Por favor atiéndalos para que yo pueda aprobar su proyecto. 
    
</div>

<div class="alert alert-block alert-info">
<b>Comentario final revisor de código</b><a class="tocSkip"></a>

Excelente trabajo Jonathan. Ha sido un gusto revisar su proyecto. 

Saludos.

</div>

# Tabla de contenido  




## Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


### Introducción
[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
    
~~Sugiero eliminar los comentarios pre cargados entre corchetes conforme a las instrucciones del proyecto.~~

~~Por favor añada una introducción personalizada, así como una tabla de contenidos con anchortags.~~

</div>


In [1]:
# Cargar todas las librerías
import numpy as np
import pandas as pd

In [2]:
# Carga los datos
df = pd.read_csv ('/datasets/credit_scoring_eng.csv')

##  Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo



In [3]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
df.shape

(21525, 12)

In [4]:
# vamos a mostrar las primeras filas N
df.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


### Observaciones de posibles problemas en los datos

* Lo primero que se observa es que no tengo como identificar que cliente tiene estos datos, en otras palabras no hay un id de cliente o un nombre y si quiero hacer una busqueda de duplicados no se sabría que fila borrar

* los días trabajados todos están con número negativos y con decimales, por lo cual no sabría decir que información nos está entregando

* el campo **`dob_years`** tiene edades de cero años

* el campo de **`education`**  tiene valores mal escritos mezclando mayúsculas y minúsculas haciendo 15 categorías distintas cuando debería haber solo 5

* las columnas `education` -> education_id describen la misma información  al igual que **family_status -> family status_id**

* la columna `purpose` al igual que education tiene categorias redundantes, decriben lo mismo pero con distintas palabras



### Obtener información general sobre los datos


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [6]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Bien, info, head y describe son tres métodos imprescindibles cuando usted explora sus datos por primera vez. 
    
</div>

### Investigación de datos Ausentes
* hay dos columnas con la misma cantidad de valores ausentes la cuales son `days_employed` y `total_income`

In [7]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos

df[df['days_employed'].isna()]
# hay la misma cantidad de valores ausentes en dos columnas "days_employed", "total_income" 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [8]:
df[df['days_employed'].isna()].count()

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64

In [9]:
df[df['total_income'].isna()].count()

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64

### Explicación de valores vacíos

***************************
* R/. Al filtrar cada columna los valores que se encuentran tanto en la fila 'days_employed' y 'total income' parecen coincidir en valores vacíos en las mismas filas



<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Buen trabajo, los valores ausentes parecieran ser simétricos.
    
</div>

* En la seccion anterior se filtro las columnas con valores vacíos por separados ahora juntaremos dichas condiciones para verificar si coinciden en la misma cantidad de registros y confirmar dicha coincidencia

In [10]:
df_filtered= df[df['days_employed'].isna()].count() & df[df['total_income'].isna()].count()

### Conclusión intermedia

* R/. podría decirse que las personas que no trabajan no tienen un fuente de ingreso que registrar

----------------------------

In [11]:
total_rows= df.shape[0]

total_emty_days =df['days_employed'].isna().sum()
total_emty_days
percent_days= total_emty_days/total_rows

total_emty_income =df['total_income'].isna().sum()
print('* total de registros llenos ',total_emty_income)
percent_income= total_emty_income/total_rows
print('* total de filas en la tabla : ',total_rows)
print('* porcentaje de dias faltantes : ',percent_days)
print('* porcentaje de ingreso faltantes : ',percent_income)


* total de registros llenos  2174
* total de filas en la tabla :  21525
* porcentaje de dias faltantes :  0.10099883855981417
* porcentaje de ingreso faltantes :  0.10099883855981417


* **Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes**

In [12]:
df[df['days_employed'].isna()].groupby('income_type')['income_type'].count()

income_type
business          508
civil servant     147
employee         1105
entrepreneur        1
retiree           413
Name: income_type, dtype: int64

### Comprobación de la distribución de datos vacíos en el dataframe

In [13]:
# Comprobación de la distribución
print('* distribución de los campos de la tabla DF completa')
print(df['income_type'].value_counts(normalize=True))
    
print() 
print('* con un total de ',df.shape[0],' registros')
print('distribución de los campos de la tabla DF eliminando los vacios')
print(df.dropna()['income_type'].value_counts(normalize=True))
print('* con un total de ',total_emty_income,' registros') #total_emty_income el calculo se lo realizó anteriormente
print() 
print('* Restamos los porcentajes para ver cuantos registros realmente hay en cada columna') 
print(-df.dropna()['income_type'].value_counts(normalize=True)+df['income_type'].value_counts(normalize=True))



* distribución de los campos de la tabla DF completa
employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unemployed                     0.000093
entrepreneur                   0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

* con un total de  21525  registros
distribución de los campos de la tabla DF eliminando los vacios
employee                       0.517493
business                       0.236525
retiree                        0.177924
civil servant                  0.067800
unemployed                     0.000103
paternity / maternity leave    0.000052
entrepreneur                   0.000052
student                        0.000052
Name: income_type, dtype: float64
* con un total de  2174  registros

* Restamos los porcentajes para ver cuantos registros realmente hay en cada columna
business          

-----------------------------------------

* No hay un patrón definido hasta ahora de la razon de que haya datos ausentes
* lo que si se llega a identificar es que las personas q no tienen dias laborado no tienen un ingreso asi que para llegar mas a fondo se realiza la investigación con la columna `income_type` para quitarnos la duda y vemos que si hay clientes con empleo y hasta empresarios y aun así no tienen ingresos por lo cual puede ser que haya habido algún tipo de error de ingreso de los datos y da a entender que estos valores son aleatorios
--------------------------------------
* **Comprobando la distribución en el conjunto de datos entero**

In [14]:
print('*** distribución de valores para la columna "children" ***')
print(df['children'].value_counts(normalize=True))
print()
print('*** distribución de valores para la columna "education_id" ***')
print(df['education_id'].value_counts(normalize=True))
print()
print('*** distribución de valores para la columna "family_status" ***')
print(df['family_status'].value_counts(normalize=True))
print()
print('*** distribución de valores para la columna "gender" ***')
print(df['gender'].value_counts(normalize=True))
print()
print('*** distribución de valores para la columna "income_type" ***')
print(df['income_type'].value_counts(normalize=True))
print()
print('*** distribución de valores para la columna "debt" ***')
print(df['debt'].value_counts(normalize=True))
print('****************************************************************')
print('****************************************************************')
print('*** distribución de valores para la columna "children" quitando los vacios***')
print(df.dropna()['children'].value_counts(normalize=True))
print('*** distribución de valores para la columna "education_id" quitando los vacios ***')
print(df.dropna()['education_id'].value_counts(normalize=True))
print('*** distribución de valores para la columna "family_status" quitando los vacios ***')
print(df.dropna()['family_status'].value_counts(normalize=True))
print('*** distribución de valores para la columna "gender" quitando los vacios ***')
print(df.dropna()['gender'].value_counts(normalize=True))
print('*** distribución de valores para la columna "income_type" quitando los vacios ***')
print(df.dropna()['income_type'].value_counts(normalize=True))
print('*** distribución de valores para la columna "debt" quitando los vacios ***')
print(df.dropna()['debt'].value_counts(normalize=True))

*** distribución de valores para la columna "children" ***
 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 20    0.003531
-1     0.002184
 4     0.001905
 5     0.000418
Name: children, dtype: float64

*** distribución de valores para la columna "education_id" ***
1    0.707689
0    0.244367
2    0.034564
3    0.013101
4    0.000279
Name: education_id, dtype: float64

*** distribución de valores para la columna "family_status" ***
married              0.575145
civil partnership    0.194053
unmarried            0.130685
divorced             0.055517
widow / widower      0.044599
Name: family_status, dtype: float64

*** distribución de valores para la columna "gender" ***
F      0.661370
M      0.338583
XNA    0.000046
Name: gender, dtype: float64

*** distribución de valores para la columna "income_type" ***
employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unem

### **Conclusión intermedia sobre valores vacíos**

-------------------------------------------------
* Al igual que las demas columnas, no se identifica un patrón en los valores vacíos, por lo cual se reafirma que estos registros son aleatorios

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Perfecto, no hay un patrón de datos que explique el por qué de los datos ausentes.
    
</div>

### **Conclusiones**

-------------------------

* Ya vimos que los valores ausentes son definitivamente aleatorios por lo cual lo siguiente que se hará 
es que con ayuda de las columnas adyacentes que esten relacionada con las columnas de registro faltantes tratar de completar valores o eliminar registros

* en caso de `days_employed`  veremos si nos podemos ayudar de las columnas `dob_years` como también de la columna `income_type` como lo hemos hecho anteriormente

y en el caso de `total_income` nos ayudaremos de `education` como también de `income_type`



## Transformación de datos


### Columna `education` y sus posibles Errores

In [15]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [16]:
df['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [17]:
# Arregla los registros si es necesario
df['education'] = df['education'].str.lower()


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Bien por transformar el contenido de 'education' a minúsculas. 
    
</div>

#### Explicación de posible error en Columna `education`

In [18]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido

df['education'].value_counts()


secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

### [Comprueba los datos de la columna `children`]

In [19]:
# Veamos la distribución de los valores en la columna `children`
df['children'].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

#### Explicación de posible error en Columna `children`

---------------------------------------
Es muy posible que haya habido un error en el ingreso de los datos, y en el caso de menos 1 pudo haber querido ingresar que tiene un hijo (47 registros con el mismo error, que nos da un 0.21%)
y en el caso de los 20 hijos que es algo casi imposible, (76 registros o 0.35% de registros que tienen este error) es muy probable que haya querido ingresar que se tiene 2 hijos

In [20]:
print(df['children'].value_counts(normalize=True)*100)

 0     65.732869
 1     22.383275
 2      9.547038
 3      1.533101
 20     0.353078
-1      0.218351
 4      0.190476
 5      0.041812
Name: children, dtype: float64


In [21]:
# [arregla los datos según tu decisión]

df.loc[df['children']==-1, 'children']=1
df.loc[df['children']==20, 'children']=2


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Perfecto, la expectativa era que usted asumiera que se trataba de typos. 
    
</div>

In [22]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
df['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Columna `days_employed` posibles errores.]


In [23]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [24]:
df.loc[df['days_employed']<0, 'days_employed']

0       -8437.673028
1       -4024.803754
2       -5623.422610
3       -4124.747207
5        -926.185831
            ...     
21519   -2351.431934
21520   -4529.316663
21522   -2113.346888
21523   -3112.481705
21524   -1984.507589
Name: days_employed, Length: 15906, dtype: float64

In [25]:
print (' valores negativos : ', df[df['days_employed']<0]['days_employed'].count())

 valores negativos :  15906


In [26]:
print ('valores mayores a 50 años "en días" : ', df[df['days_employed']>18250]['days_employed'].count(),' registros')
print ('años trabajados máximo: ', 401755.400475/365, 'años')


valores mayores a 50 años "en días" :  3445  registros
años trabajados máximo:  1100.699727328767 años


#### Explicación de los posibles errores de la columna `days_eployed`
---------------------------
***Vemos que hay una gran cantidad de valores negativos en los días trabajados, pero tambien vemos que hay valores exageradamente grandes, tomamos el número maximo y si eso lo dividimos para 365 para sacar los años, nos va a dar que una persona trabajo 1100 años, lo cual es imposible ***

*lo que vamos a hacer es convertir los valores negativos en positivos sacandoles el valor absoluto a las cantidades asi si hay valores positivos, estos no les va a afectar*

*en el caso de los números demasiado grandes, se toma la decisión de dividirlos para 24 (horas) para que nos dé un valor aproximado a lo real


In [27]:
# Aborda los valores problemáticos, si existen.
df['days_employed'] = abs(df['days_employed'])
# saco el valor absoluto para convertir todos los valores negativos a positivos


In [28]:
# Comprueba el resultado - asegúrate de que esté arreglado

df.loc[df['days_employed']<0, 'days_employed']


Series([], Name: days_employed, dtype: float64)

Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.]

In [29]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
df.loc[df['days_employed']>18250, 'days_employed'].count()
# el valor de 18250 equivaldría a que una persona ha trabajado durante 50 años

3446

[Decide qué harás con los valores problemáticos y explica por qué.]

In [30]:
# Resuelve los problemas en la columna `dob_years`, si existen

df.loc[df['days_employed']>18250, 'days_employed'] = df.loc[df['days_employed']>18250, 'days_employed'] /24

#si es mayor  a 18500  se lo divide para 24 osea el numero de horas

In [31]:
# Comprueba el resultado - asegúrate de que esté arreglado
df.loc[df['days_employed']>18250, 'days_employed']

Series([], Name: days_employed, dtype: float64)

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Bien, usted transformó datos negativos a positivos y asumió que los datos excesivamente altos corresponden a otra escala. 
    
</div>

### Columna `family_status`. observación de posibles Errores

In [32]:
# Veamos los valores de la columna

df['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

#### Explicación de los posibles errores en `family_status`
-----------------------------

En este campo no se ve problema alguno en cuestión de valores
Lo único que sería una problema sería los nombres de las columnas ya que está con espacio (civil partnership) y con símbolos (widow / widower), lo mejor sería reemplazar esos signos por un subguión para que queden tipo Snakecase

In [33]:
# Aborda los valores problemáticos en `family_status`, si existen
df['family_status'].replace({
    'civil partnership' : 'civil_partnership',
    'widow / widower' : 'widow_widower',
    
}
    ,inplace=True)


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Perfecto, usted transformó a snake_case. 
    
</div>

In [34]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['family_status'].value_counts()

married              12380
civil_partnership     4177
unmarried             2813
divorced              1195
widow_widower          960
Name: family_status, dtype: int64

### columna `gender`. Observación de Posibles errores

In [35]:
# Veamos los valores en la columna
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

----------------------
* Solo veo un detalle que es el valor XNA, lo reemplazaremos por el valor `no_binario`

<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
    
~~Estoy de acuerdo con usted. Para fines prácticos, eliminarlo o no, no hace la diferencia. Por favor no lo elimine porque uno de los objetivos de aprendizaje en este proyecto es que los estudiantes adopten el hábito de preservar, en la medida de lo posible, los datos. Puede ponerle "no binario". ~~
</div>

In [36]:
# Aborda los valores problemáticos, si existen
df[df['gender']=='XNA']['gender']


10701    XNA
Name: gender, dtype: object

*Observamos que el registro se encuentra en la fila:*  10701

In [37]:
df.loc[df['gender']=='XNA', 'gender'] = 'no_binario'

In [38]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['gender'].value_counts()


F             14236
M              7288
no_binario        1
Name: gender, dtype: int64

### **Columna `income_type`. Observación de posibles errores**

In [39]:
# Veamos los valores en la columna
df['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

#### Explicación de posibles errores en `income_type` y solución
* se observa 4 categorías con datos muy pequeños la cuales podemos agruparlas en un nuevo tipo de ingreso la cual llamaremos "otros"

<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
    
~~Aquí merece la pena crear una nueva categoría other, que incluya a todas aquellas con frecuencia menor o igual a 2.~~
</div>

In [40]:
df['income_type'].value_counts(normalize=True)

employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
unemployed                     0.000093
entrepreneur                   0.000093
student                        0.000046
paternity / maternity leave    0.000046
Name: income_type, dtype: float64

---------------
Valore problemáticos no se encuentran, pero los nombres de las columnas habría que convertirlas al formato snakecase y los de valores mínimos los reemplazaremos para crea la nueva categoría

In [41]:

df['income_type'].replace({
    'civil servant' : 'civil_servant',
    'paternity / maternity leave' : 'other',
    'unemployed': 'other',
    'entrepreneur': 'other',
    'student': 'other',
    
}
    ,inplace=True)

In [42]:
# Comprueba el resultado - asegúrate de que esté arreglado
df['income_type'].value_counts()


employee         11119
business          5085
retiree           3856
civil_servant     1459
other                6
Name: income_type, dtype: int64

### Verificación de registros duplicados

In [43]:
# Comprobar los duplicados
df.duplicated().sum()


71

------------------------------

* **Encontramos un total de 71 registros duplicados**

In [44]:
df.drop_duplicates(inplace=True)
df.reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,secondary education,1,civil_partnership,1,F,business,0,35966.698,housing transactions
21450,0,14330.725172,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21451,1,2113.346888,38,secondary education,1,civil_partnership,1,M,employee,1,14347.610,property
21452,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Bien por utilizar reset_index.
    
</div>

In [45]:
# Última comprobación para ver si tenemos duplicados
df.duplicated().sum()

0

In [46]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
df.shape

(21454, 12)

In [47]:
print ('porcentaje de registro luego de la eliminación de duplicados: ', 21453/21525*100,'%')

porcentaje de registro luego de la eliminación de duplicados:  99.66550522648083 %


### valores de edad cero (0)


* Vamos a ver la columna **'dob_years'** y


In [48]:
df['dob_years'].value_counts()

35    616
40    607
41    605
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    537
37    536
48    536
50    513
43    512
32    509
49    508
28    503
45    496
27    493
52    484
56    483
47    477
54    476
46    472
53    459
57    456
58    454
51    446
59    443
55    443
26    408
60    374
25    357
61    354
62    348
63    269
24    264
64    260
23    252
65    193
22    183
66    182
67    167
21    111
0     101
68     99
69     85
70     65
71     56
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

vemos que hay **101** clientes con edades de **cero "0"**, lo cual vamos a cambiarlo

In [49]:
print('* valores con cero : ', df.loc[df['dob_years']==0,'dob_years'].count())
print('* porcentaje de datos con cero : ', df.loc[df['dob_years']==0,'dob_years'].count()/df.shape[0]*100, '%')
print('* mediana de edades : ',df['dob_years'].median())
mediana_edad=df['dob_years'].median()
print('* promedio de edades : ',df['dob_years'].mean())
mediana_edad

* valores con cero :  101
* porcentaje de datos con cero :  0.4707746807122215 %
* mediana de edades :  42.0
* promedio de edades :  43.271231471986574


42.0

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Excelente, aquí la solución es la imputación con la mediana de dob_years como usted lo hizo. 
    
</div>

* Para cambiar los valores utilizaremos la mediana ya que al usar el promedio nos va a dar un valor con decimales y las edades son números enteros


In [50]:
df.loc[df['dob_years']==0,'dob_years']=mediana_edad


* Ahora verificamos de que los valores con cero hayan sido reemplazados por la media que es 42

In [51]:
df['dob_years'].value_counts()

42.0    697
35.0    616
40.0    607
41.0    605
34.0    601
38.0    597
33.0    581
39.0    572
31.0    559
36.0    554
44.0    545
29.0    544
30.0    537
48.0    536
37.0    536
50.0    513
43.0    512
32.0    509
49.0    508
28.0    503
45.0    496
27.0    493
52.0    484
56.0    483
47.0    477
54.0    476
46.0    472
53.0    459
57.0    456
58.0    454
51.0    446
55.0    443
59.0    443
26.0    408
60.0    374
25.0    357
61.0    354
62.0    348
63.0    269
24.0    264
64.0    260
23.0    252
65.0    193
22.0    183
66.0    182
67.0    167
21.0    111
68.0     99
69.0     85
70.0     65
71.0     56
20.0     51
72.0     33
19.0     14
73.0      8
74.0      6
75.0      1
Name: dob_years, dtype: int64

## Trabajar con valores ausentes

### Busqueda de diccionarios

In [52]:
# Encuentra los diccionarios
# Diccionario Eduación

In [53]:
edu_dicc = df.set_index('education_id')['education'].to_dict()
edu_dicc

{0: "bachelor's degree",
 1: 'secondary education',
 2: 'some college',
 3: 'primary education',
 4: 'graduate degree'}

In [54]:
fam_stat_dicc = df.set_index('family_status_id')['family_status'].to_dict()
fam_stat_dicc

{0: 'married',
 1: 'civil_partnership',
 2: 'widow_widower',
 3: 'divorced',
 4: 'unmarried'}

### Restaurar valores ausentes en `total_income`

En primer lugar agruparemos las edades de los clientes por grupos de edad para poder reducir opciones y poder asignar un valor dependiendo del rango


In [55]:
# Vamos a escribir una función que calcule la categoría de edad
df['age_group']=pd.cut(df['dob_years'], bins=[0,20,30,40,50,60,100])
    

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Muy bien por utilizar pd.cut().
    
</div>

In [56]:
# Prueba si la función funciona bien
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,"(40, 50]"
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,"(30, 40]"
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,"(30, 40]"
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,"(30, 40]"
4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,"(50, 60]"
5,0,926.185831,27.0,bachelor's degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,"(20, 30]"
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,"(40, 50]"
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,"(40, 50]"
8,2,6929.865299,35.0,bachelor's degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,"(30, 40]"
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,"(40, 50]"


luego de dividir por grupo de edades procedemos a calcular su media y mediana para decidir que valor es el que mas se acerca a la necesidad

In [57]:
# Comprobar cómo los valores en la nueva columna
df.groupby('age_group')['days_employed'].mean()


age_group
(0, 20]        673.648361
(20, 30]      1319.599497
(30, 40]      2184.741981
(40, 50]      3311.186923
(50, 60]      8238.268024
(60, 100]    12869.899783
Name: days_employed, dtype: float64

In [58]:
df.groupby('age_group')['days_employed'].median()

age_group
(0, 20]        695.968951
(20, 30]      1064.560075
(30, 40]      1630.193189
(40, 50]      2199.733119
(50, 60]      6481.039027
(60, 100]    14853.990202
Name: days_employed, dtype: float64

#### Creación de Tabla copia sin valores ausentes para análisis


In [59]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien

df2=df.dropna()
df2.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,"(40, 50]"
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,"(30, 40]"
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,"(30, 40]"
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,"(30, 40]"
4,0,14177.753002,53.0,secondary education,1,civil_partnership,1,F,retiree,0,25378.572,to have a wedding,"(50, 60]"
5,0,926.185831,27.0,bachelor's degree,0,civil_partnership,1,M,business,0,40922.17,purchase of the house,"(20, 30]"
6,0,2879.202052,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,"(40, 50]"
7,0,152.779569,50.0,secondary education,1,married,0,M,employee,0,21731.829,education,"(40, 50]"
8,2,6929.865299,35.0,bachelor's degree,0,civil_partnership,1,F,employee,0,15337.093,having a wedding,"(30, 40]"
9,0,2188.756445,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,"(40, 50]"


In [60]:
df2.shape

(19351, 13)

#### Agrupaciones para determinar valores a llenar
* VAMOS A AGRUPAR los valores de `total_income` por grupos de edad y a la vez en tipo de ingreso, sacando su media y mediana para luego restar dichos valores

In [61]:
# Examina los valores medios de los ingresos en función de los factores que identificaste

df2.groupby(['age_group','income_type'])['total_income'].mean()

age_group  income_type  
(0, 20]    business         20223.495136
           civil_servant    21099.632667
           employee         19040.474088
           other                     NaN
           retiree                   NaN
(20, 30]   business         29551.076560
           civil_servant    25218.280307
           employee         24299.975239
           other            47789.181500
           retiree          14888.651857
(30, 40]   business         33068.546597
           civil_servant    28242.827136
           employee         26347.145920
           other             9102.890000
           retiree          22164.904028
(40, 50]   business         33923.408378
           civil_servant    27970.816134
           employee         26035.510316
           other            32435.602000
           retiree          26120.739763
(50, 60]   business         32431.747401
           civil_servant    26404.586045
           employee         26207.542728
           other                

In [62]:

df2.groupby(['age_group','income_type'])['total_income'].median()

age_group  income_type  
(0, 20]    business         19648.2745
           civil_servant    12125.9860
           employee         16356.9390
           other                   NaN
           retiree                 NaN
(20, 30]   business         25781.6310
           civil_servant    23300.0970
           employee         21916.2890
           other            47789.1815
           retiree          12807.0710
(30, 40]   business         28969.5790
           civil_servant    25015.2790
           employee         23262.4510
           other             9102.8900
           retiree          18475.1010
(40, 50]   business         28395.9820
           civil_servant    23741.5670
           employee         22952.0400
           other            32435.6020
           retiree          22382.0710
(50, 60]   business         27348.5870
           civil_servant    23392.7575
           employee         22696.3680
           other                   NaN
           retiree          19258.8770


In [63]:
df2.groupby(['age_group','income_type'])['total_income'].mean()-df2.groupby(['age_group','income_type'])['total_income'].median()

age_group  income_type  
(0, 20]    business          575.220636
           civil_servant    8973.646667
           employee         2683.535088
           other                    NaN
           retiree                  NaN
(20, 30]   business         3769.445560
           civil_servant    1918.183307
           employee         2383.686239
           other               0.000000
           retiree          2081.580857
(30, 40]   business         4098.967597
           civil_servant    3227.548136
           employee         3084.694920
           other               0.000000
           retiree          3689.803028
(40, 50]   business         5527.426378
           civil_servant    4229.249134
           employee         3083.470316
           other               0.000000
           retiree          3738.668763
(50, 60]   business         5083.160401
           civil_servant    3011.828545
           employee         3511.174728
           other                    NaN
           reti

* **por lo que vemos, nos resulta mejor tener un valor media (mediana) para llenar los registros vacíos ya que si se usa el promedio, estos darán un valor mucho mayor de lo que se espera en el rango de edad**


* una vez decidido la función a usar, crearemos una función que pueda hacer el reemplazo de valores

* a su vez agruparemos  los ingresos no solo según su edad sino tambíen por su tipo de ingreso


In [64]:
income_median_pivot= df2.pivot_table(
    index=['age_group','income_type'],
    values='total_income',
    aggfunc='median'
)
income_median_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
age_group,income_type,Unnamed: 2_level_1
"(0, 20]",business,19648.2745
"(0, 20]",civil_servant,12125.986
"(0, 20]",employee,16356.939
"(20, 30]",business,25781.631
"(20, 30]",civil_servant,23300.097
"(20, 30]",employee,21916.289
"(20, 30]",other,47789.1815
"(20, 30]",retiree,12807.071
"(30, 40]",business,28969.579
"(30, 40]",civil_servant,25015.279


In [65]:
df[df['age_group'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group


* Crearemos una función que reemplace los valores por la mediana la cual calculamos anteriormente

In [66]:
#  Escribe una función que usaremos para completar los valores ausentes
def llenar_total_income (row):
    age_group = row['age_group']
    income_type = row['income_type']
    total_income = row['total_income']
    
    if pd.isna(total_income):
        try:
            
            return income_median_pivot['total_income'][age_group][income_type]
        except:
            #print(age_group,' ',income_type,' ',total_income)
            return income_median_pivot['total_income'][age_group].median()
    return total_income
        

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Excelente por hacer uso de tablas pivote y el método apply, así como 'income_type' para condicionar la mediana a imputar.
</div>

* Vamos a comprobar si funciona por lo que tomaremos una muestra pequeña y aplicaremos la nueva función en una prueba

In [67]:
# Comprueba si funciona
prueba= df.loc[df['total_income'].isna()].head(10)
prueba['total_income']=prueba.apply (llenar_total_income, axis=1)
prueba

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
12,0,,65.0,secondary education,1,civil_partnership,1,M,retiree,0,18412.925,to have a wedding,"(60, 100]"
26,0,,41.0,secondary education,1,married,0,M,civil_servant,0,23741.567,education,"(40, 50]"
29,0,,63.0,secondary education,1,unmarried,4,F,retiree,0,18412.925,building a real estate,"(60, 100]"
41,0,,50.0,secondary education,1,married,0,F,civil_servant,0,23741.567,second-hand car purchase,"(40, 50]"
55,0,,54.0,secondary education,1,civil_partnership,1,F,retiree,1,19258.877,to have a wedding,"(50, 60]"
65,0,,21.0,secondary education,1,unmarried,4,M,business,0,25781.631,transactions with commercial real estate,"(20, 30]"
67,0,,52.0,bachelor's degree,0,married,0,F,retiree,0,19258.877,purchase of the house for my family,"(50, 60]"
72,1,,32.0,bachelor's degree,0,married,0,M,civil_servant,0,25015.279,transactions with commercial real estate,"(30, 40]"
82,2,,50.0,bachelor's degree,0,married,0,F,employee,0,22952.04,housing,"(40, 50]"
83,0,,52.0,secondary education,1,married,0,M,employee,0,22696.368,housing,"(50, 60]"


In [68]:
# Aplícalo a cada fila

df.loc[df['total_income'].isna(),'total_income'] = df.apply(llenar_total_income, axis=1) 

In [69]:
# Comprueba si tenemos algún error
df[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group


###  Restaurar valores en `days_employed`

#### Analisis de la columna para determinar como resolver valores vacíos


In [70]:
df[df['days_employed'].isna()].head()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
12,0,,65.0,secondary education,1,civil_partnership,1,M,retiree,0,18412.925,to have a wedding,"(60, 100]"
26,0,,41.0,secondary education,1,married,0,M,civil_servant,0,23741.567,education,"(40, 50]"
29,0,,63.0,secondary education,1,unmarried,4,F,retiree,0,18412.925,building a real estate,"(60, 100]"
41,0,,50.0,secondary education,1,married,0,F,civil_servant,0,23741.567,second-hand car purchase,"(40, 50]"
55,0,,54.0,secondary education,1,civil_partnership,1,F,retiree,1,19258.877,to have a wedding,"(50, 60]"


#### Agrupación y Análisis de valores no vacío para determinar la mejor manera de rellenar los valores vacíos

* **Buscaremos al igual que el inciso anterior la media y la mediana y agruparemos también por tipo de ingreso y por los días trabajados**

In [71]:


days_employed_median_pivot= df2.pivot_table(
    index=['gender','age_group','income_type'],
    values='days_employed',
    aggfunc='median')
days_employed_median_pivot


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,days_employed
gender,age_group,income_type,Unnamed: 3_level_1
F,"(0, 20]",business,466.645577
F,"(0, 20]",civil_servant,509.969922
F,"(0, 20]",employee,798.219165
F,"(20, 30]",business,992.78552
F,"(20, 30]",civil_servant,1477.522352
F,"(20, 30]",employee,1114.868798
F,"(20, 30]",other,520.848083
F,"(20, 30]",retiree,14597.531676
F,"(30, 40]",business,1544.319746
F,"(30, 40]",civil_servant,2516.427214


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Perfecto también aquí, la expectativa es que los estudiantes incluyan al menos age_group para condicionar la estimación de la mediana. 
</div>

In [72]:

days_employed_mean_pivot= df2.pivot_table(
    index=['gender','age_group','income_type'],
    values='days_employed',
    aggfunc='mean')
days_employed_mean_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,days_employed
gender,age_group,income_type,Unnamed: 3_level_1
F,"(0, 20]",business,452.476523
F,"(0, 20]",civil_servant,509.969922
F,"(0, 20]",employee,742.610885
F,"(20, 30]",business,1240.27421
F,"(20, 30]",civil_servant,1669.439282
F,"(20, 30]",employee,1306.053113
F,"(20, 30]",other,520.848083
F,"(20, 30]",retiree,14864.799959
F,"(30, 40]",business,1878.66011
F,"(30, 40]",civil_servant,2805.813669


#### justificación de media por mediana
* **Debido a que no se encuentran valores atípicos que puedan alterar el cálculo de un promedio, se decide utilizar la media**

In [73]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado

def llenar_dia_trab (row):
    gender = row['gender']
    age_group = row['age_group']
    income_type = row['income_type']
    days_employed = row['days_employed']
    
    if pd.isna(days_employed):
        try:
            
            return days_employed_mean_pivot['days_employed'][gender][age_group][income_type]
        except:
           # print(gender,' ',age_group,' ',income_type)
            return days_employed_mean_pivot['days_employed'][gender][age_group].mean()
    return days_employed


        

<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
    
~~¿Por favor justifiqué por que la media sobre la mediana?~~

</div>

In [74]:
# Comprueba que la función funciona

prueba3= df.loc[df['days_employed'].isna()].head(10)
prueba3['days_employed']=prueba3.apply(llenar_dia_trab,axis=1)
prueba3


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
12,0,15139.876129,65.0,secondary education,1,civil_partnership,1,M,retiree,0,18412.925,to have a wedding,"(60, 100]"
26,0,3742.974287,41.0,secondary education,1,married,0,M,civil_servant,0,23741.567,education,"(40, 50]"
29,0,15246.089086,63.0,secondary education,1,unmarried,4,F,retiree,0,18412.925,building a real estate,"(60, 100]"
41,0,4147.367502,50.0,secondary education,1,married,0,F,civil_servant,0,23741.567,second-hand car purchase,"(40, 50]"
55,0,15210.125353,54.0,secondary education,1,civil_partnership,1,F,retiree,1,19258.877,to have a wedding,"(50, 60]"
65,0,1194.342342,21.0,secondary education,1,unmarried,4,M,business,0,25781.631,transactions with commercial real estate,"(20, 30]"
67,0,15210.125353,52.0,bachelor's degree,0,married,0,F,retiree,0,19258.877,purchase of the house for my family,"(50, 60]"
72,1,3305.068227,32.0,bachelor's degree,0,married,0,M,civil_servant,0,25015.279,transactions with commercial real estate,"(30, 40]"
82,2,2999.734715,50.0,bachelor's degree,0,married,0,F,employee,0,22952.04,housing,"(40, 50]"
83,0,2782.40056,52.0,secondary education,1,married,0,M,employee,0,22696.368,housing,"(50, 60]"


In [75]:
# Aplicar la función al income_type
prueba3.loc[prueba3['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group


In [76]:
# Comprueba si la función funcionó
df.loc[df['days_employed'].isna(),'days_employed']=df.apply(llenar_dia_trab,axis=1)


In [77]:
# Reemplazar valores ausentes
df.loc[df['days_employed'].isna()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group


[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [78]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   children          21454 non-null  int64   
 1   days_employed     21454 non-null  float64 
 2   dob_years         21454 non-null  float64 
 3   education         21454 non-null  object  
 4   education_id      21454 non-null  int64   
 5   family_status     21454 non-null  object  
 6   family_status_id  21454 non-null  int64   
 7   gender            21454 non-null  object  
 8   income_type       21454 non-null  object  
 9   debt              21454 non-null  int64   
 10  total_income      21454 non-null  float64 
 11  purpose           21454 non-null  object  
 12  age_group         21454 non-null  category
dtypes: category(1), float64(3), int64(4), object(5)
memory usage: 2.7+ MB


## Clasificación de datos




### Recategorizar la columna `Purpose`

* Uno de los problemas que se ha visto es en la columna `purpose` en donde se encontró que habian diferentes objetivos, pero si uno revisaba bien habían propósitos redundantes, todo se repetía pero con diferentes palabras, por lo que ahora corregiremos ese error, reduciremos las opciones y finalmente la agruparemos

In [79]:
# Muestra los valores de los datos seleccionados para la clasificación
df['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

In [80]:
df['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

[Vamos a comprobar los valores únicos]

In [81]:
# Comprobar los valores únicos
unicos_purpose = df['purpose'].drop_duplicates().reset_index(drop=True)
unicos_purpose

0                        purchase of the house
1                                 car purchase
2                      supplementary education
3                            to have a wedding
4                         housing transactions
5                                    education
6                             having a wedding
7          purchase of the house for my family
8                              buy real estate
9                   buy commercial real estate
10                 buy residential real estate
11                construction of own property
12                                    property
13                         building a property
14                    buying a second-hand car
15                           buying my own car
16    transactions with commercial real estate
17                      building a real estate
18                                     housing
19            transactions with my real estate
20                                        cars
21           

#### Errores y posible solución

en la columna *purpose* hay 37 tipos de valores "únicos" que en realidad son se nota que hay duplicidad implícita lo cual si se clasificara mejor reduciríamos la categoría 




In [82]:
# Escribamos una función para clasificar los datos en función de temas comunes
def purpose_category (purpose):
    if 'hous' in purpose or 'state' in purpose or 'property' in purpose:
        return "mortage loan"
    if 'car' in purpose:
        return "vehicle loan"
    if 'education' in purpose or 'university' in purpose:
        return "studies loan"
    return 'consumer loan'




<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Muy bien por hacer uso de "in". Excelente trabajo. 
    
</div>

In [83]:
# Crea una columna con las categorías y cuenta los valores en ellas
df['purpose_category']= df['purpose'].apply(purpose_category)
df['purpose_category'].unique()


array(['mortage loan', 'vehicle loan', 'studies loan', 'consumer loan'],
      dtype=object)

### Clasificación de datos por dias trabajados y total de ingresos
**Datos númericos solo hay en dos columnas, las cuales son : `days_employed` y `total_income`**

In [84]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
df.loc[:,['days_employed', 'total_income']]

Unnamed: 0,days_employed,total_income
0,8437.673028,40620.102
1,4024.803754,17932.802
2,5623.422610,23341.752
3,4124.747207,42820.568
4,14177.753002,25378.572
...,...,...
21520,4529.316663,35966.698
21521,14330.725172,24959.969
21522,2113.346888,14347.610
21523,3112.481705,39054.888


In [85]:
# Obtener estadísticas resumidas para la columna
num_df= df.loc[:,['days_employed', 'total_income']].describe(percentiles=[0.25,0.5,0.75,0.9])
num_df

Unnamed: 0,days_employed,total_income
count,21454.0,21454.0
mean,4649.659319,26456.986597
std,5323.743354,15708.45506
min,24.141633,3306.762
25%,1021.387482,17202.55325
50%,2265.688673,23130.862
75%,5320.665263,31330.23725
90%,15139.876129,43167.6578
max,17615.563266,362496.645


In [86]:
print ('* Probamos si funciona nuestra tabla referencia de categorías, Ej. el 50% de total income es: ', num_df['total_income']['50%'] )

* Probamos si funciona nuestra tabla referencia de categorías, Ej. el 50% de total income es:  23130.862


In [87]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def income_cat (income):
    if income < 0 or pd.isna(income):
        return 'NA'
    elif income < num_df['total_income']['25%']:
        return 'low_income'
    elif income < num_df['total_income']['50%']:
        return 'mid_income'
    elif income < num_df['total_income']['75%']:
        return 'mid_high_income'
    elif income < num_df['total_income']['90%']:
        return 'high_income'
    elif income > num_df['total_income']['90%']:
        return 'very_high_income'
    return
    
    
    


In [88]:
# Crear una columna con categorías
df['income_category']=df['total_income'].apply(income_cat)

In [89]:
# Contar los valores de cada categoría para ver la distribución
df['income_category'].value_counts(normalize=True)*100


low_income          25.002331
mid_high_income     24.997669
mid_income          24.997669
high_income         14.999534
very_high_income    10.002797
Name: income_category, dtype: float64

* con esto hemos resuelto el problema de la columna `purpose` y mejoramos la clasificación de la misma
* como también se creó una categoría a los ingresos de los clientes

## Comprobación de las hipótesis


### **¿Existe una correlación entre tener hijos y pagar a tiempo?**

* Veamos lo que nos muestra la columna `children`

In [90]:
df['children'].value_counts()

0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

* Ahora agruparemos la **cantidad de hijos** por las **deudas** que mantienen los clientes

In [91]:
children_debt_pivot = df.pivot_table(
    index= 'children',
    values= 'debt',
    aggfunc= 'mean')
#print (children_debt_pivot)
#df[df['children']==5]
children_debt_pivot

Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075438
1,0.091658
2,0.094925
3,0.081818
4,0.097561
5,0.0


<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>

Perfecto, las tablas pivote con la media aritmética de debt son la solución óptima. 
    
</div>

#### **Conclusión**

* Con lo mostrado en la tabla nos indica que a mayor cantidad de hijos, mayor es la probabilidad de endeudamiento, con la excepción de los 9 casos de personas que tienen 5 hijos, la cual muestran que no poseen deudas


### **¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [92]:
# Comprueba los datos del estado familiar y los pagos a tiempo

df['family_status'].value_counts(normalize=True)


married              0.575138
civil_partnership    0.193484
unmarried            0.130978
divorced             0.055701
widow_widower        0.044700
Name: family_status, dtype: float64

In [93]:
# Calcular la tasa de incumplimiento basada en el estado familiar

family_stat_debt_pivot = df.pivot_table(
    index= 'family_status',
    values= 'debt',
    aggfunc= 'mean')
family_stat_debt_pivot.sort_values(by='debt', ascending=True)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
widow_widower,0.065693
divorced,0.07113
married,0.075452
civil_partnership,0.093471
unmarried,0.097509


#### **Conclusión**



* La tabla muestra que las personas que son `solteras` y las que tiene un `relación no formal` mantienen un `mayor índice de deudas`, mientras las personas casadas, viudas y divorciadas su indice de tiene menor índice de endeudamiento

### **¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [94]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
df['income_category'].value_counts()

low_income          5364
mid_high_income     5363
mid_income          5363
high_income         3218
very_high_income    2146
Name: income_category, dtype: int64

In [95]:
income_cat_debt_pivot = df.pivot_table(
    index= 'income_category',
    values= 'debt',
    aggfunc= 'mean')
income_cat_debt_pivot.sort_values(by='debt', ascending=True)

Unnamed: 0_level_0,debt
income_category,Unnamed: 1_level_1
very_high_income,0.070363
high_income,0.072094
low_income,0.079605
mid_high_income,0.086146
mid_income,0.087451


#### **Conclusión**
* La tabla de agrupación nos muestra que los clientes con ingresos medios y medio-alto poseen una mayor tasa de endeudamiento, mientras los clientes que ganan mucho mas, su tasa de endeudamiento es menor, y los que poseen un bajo ingreso también tiene un nivel de endeudamiento menor, se puede suponer que es por la falta de ingresos

### **¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [96]:
df['purpose_category'].value_counts()       

mortage loan     10811
vehicle loan      4306
studies loan      3605
consumer loan     2732
Name: purpose_category, dtype: int64

In [97]:
purpose_debt_pivot = df.pivot_table(
    index= 'purpose_category',
    values= 'debt',
    aggfunc= 'mean')
purpose_debt_pivot.sort_values(by='debt', ascending=True)

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
mortage loan,0.072334
consumer loan,0.082357
studies loan,0.091817
vehicle loan,0.09359


#### **Conclusión**


* Los clientes que tienen como objetivo la adquisición de propiedades tiene un mejor tasa de cumplimiento de pagos, 

* Los clientes que tienen como objetivo la adquisición de vehículos, tienen una tasa un poco mas riesgosa

* Los clientes que tienen como objetivo realización de estudios tambien se visualiza una dificultad de pago ya que la mayoría no tienen una fuente de ingreso fuerte 

## Conclusión general 

* Se encontraron valores nulos tanto en *days_employed* como en *total_income* se comprobó que este error no tenía un patrón lo cual fue de manera aleatoria y pudo haber sido una mal carga de información
* Se encontraron valores de tipificación en la columna *education* en donde las categoría estaban escrita tanto en mayúculas como minúsculas, lo que llevaba a tener valores duplicados implícitos, para solucionar se utilizó un *str.to_lower* para cambiar todo a minúsculas
* en la columna de *days_employed* hubo valores negativos y también exageradamentes grandes, la cual se corrigieron
* Hubo dos columnas *family_status* e *income_type* la cual se normalizó sus nombres al formato *snakecase*
* al corregir los datos se crearon categorias en donde se organizaban los tipos de prestamos y el nivel adquisitivo 
-------------------------
Lo que se puede concluir es lo siguiente:

* hay mayor porcentaje de cumplimiento de pago de deuda a clientes que no tienen hijo
* los clientes que tienen mayor poder adquisitivo, tienen un mejor crédito
* Los clientes con con bajos ingresos se les hace mas facil cumplir su deudas vs los clientes que tienen ingresos medios
* los clientes con el propósito de adquisición de propiedades tienen mejor tasa de solvencia

