# <a id='toc2_'></a>[Análisis del riesgo de incumplimiento de los prestatarios](#toc0_)

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.


## <a id='toc2_1_'></a>[Descripción del proyecto](#toc0_)
El proyecto consiste en preparar un informe para la división de préstamos de un banco. Se debe averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.
El informe se tendrá en cuenta al crear una puntuación de crédito para un cliente potencial. Se utiliza una puntuación de crédito para evaluar la capacidad de un prestatario potencial para pagar su préstamo.  
    
Sin observar nada mas nos damos cuenta que entre estos datos nos encontraremos con una gran variedad de datos cuantitativos y categóricos, los cuales no tengo la mejor duda que requerirán de una gran intervención o *grooming* para poder darnos la seguridad a la hora de trabajar posteriormente y sacar conclusiones.
  
La modalidad que vamos a seguir a la hora de trabajar es simple pero no intuitiva. Por ello vamos a detenernos un momento a explicar bien como será:
  
**1. Apertura de datos y análisis general**
   
 En ésta etapa importaremos las librerías que vamos a usar y dar un primer vistazo a que nos espera dentro del dataset.
  
**2. Exploración de datos**
   
En la etapa de exploracion de datos nos centraremos en los patrones que se puedan presentar a lo largo de las columnas sin modificar las que presenten datos faltantes y si observamos una anomalía aplicaremos el mismo patrón de observar y anotar pero en ese capítulo si haremos cambios efectivos. La diferencia entre formas de actuar se debe a que idealmente no tengamos que reemplazar valores sino corregirlos en base a algo.
  
**3. Trabajo con duplicados**
  
Acá nos centraremos en tratar los duplicados llamando a el df original para los duplicados explícitos y observando con detenimiento para lidiar con los implícitos. Decidimos hacer ésto antes de reemplazar los valores nulos ya que al hacer eso mismo puede que creemos duplicados artificiales que en realidad son dos diferentes personas pero al estar sujetos al mismo error terminaron en una situacion en donde nosotros al rellenar esos valores quedaron iguales. Mi razonamiento gira de que aún si despues de los duplicados quedan 2 filas iguales causadas por rellenar sus valores faltantes, esas dos personas siguen siendo individuos diferentes y su simple existencia aporta tamaño y dimensión a las categorias que pertenecen, por más que parezcan repetidos. Esa explicación trata a 2 personas pero el pensamiento es la extrapolación a casos más extremos donde multiples personas sufran el mismo efecto.
  
**4. Corrección de valores ausentes**
  
Ahí si vamos a rellenar los valores ausentes que nos encontremos a lo largo de nuestro dataset. Se podría decir que ésta etapa se encuentra medio tarde, pero no solo está el argumento dicho previamente sino que también al tener ésta etapa cerca del final ya vamos a haber trabajado en el dataframe y vamos a tener una mejor idea del impacto de los nulos en nuestros datos y vamos a poder lidiar mejor con ellos.

**5. Clasificación de datos**
  
Ésta etapa es la que mejor proporción de tiempo/uso de todas ya que acá, sorpresa sorpresa, vamos a clasificar los datos que tenemos en subcategorías para simplificar el análisis y la obtención de conclusiones. Que no quede a la confusión ya que si efectuamos mal una clasificación puede causar un efecto en dominó que nos haga llegar a conclusiones completamente erradas.
  
**6. Comprobación de hipótesis**
  
La culminación de nuestro trabajo converge en ésta etapa, acá vamos a someter nuestro esfuerzo y dedicación ante las preguntas que tanto buscamos responder. Para ello vamos a utilizar las categorías que creamos y que ya existían como piedra angular para ver en qué nivel se asemejan a algún patrón que nos permita dar una respuesta parcial o definitiva.
  
**7. Conclusión General**
  
Mi profesora de biología me dijo una vez mientras hacía un proyecto: 
  "La conclusión debe ser la parte más rica de todo tu trabajo, acá es donde debes soltar todo el conocimiento a lo largo del mismo"
  
Y efectivamente eso haremos, si bien acá no podemos decir mucho sobre ella pues nos encontramos en la otra punta, ya sabemos con que mentalidad vamos a llegar.
  
Sin más preambulo, vamos a trabajar!
 


## <a id='toc2_2_'></a>[Abrimos el archivo de datos y miramos la información general.](#toc0_)

Primero cargamos pandas y numpy. Pandas es clave para el analisis de los datos, y siempre me gusta tener numpy por si tengo que realizar alguna operación lógica o aritmética con datos particulares. 

In [1]:
# Cargar todas las librerías
import pandas as pd
import numpy as np

In [2]:
# Cargamos los datos
data_set_0 = pd.read_csv('../datasets/credit_scoring_eng.csv')

Primero cargo los datos a una variable separada que no modificaré. Asi podré trabajar con mas tranquilidad en la base de datos sin preocuparme tanto.

In [3]:
credit_table = pd.read_csv('../datasets/credit_scoring_eng.csv')

In [81]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Para empezar podemos ver que las filas ``days_employed`` y ``total_income`` tienen una cantidad considerable de valores nulos. Tambien llama la atencion que la fila ``days_employed`` tiene de tipo ``float64`` aunque habría que ver la tabla para sacar mas conclusiones sobre eso.
Aparte de eso, el resto de las filas no presentan nada llamativo con ``.info``

In [82]:
# Vamos a mostrar las primeras 15 filas
credit_table.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


 Vamos a analizar fila por fila que podemos ver:
<br>
<br>•``children``
<br>No parece tener ningún problema, podríamos ver si hay algun número negativo por ahí, o algún número anormalmente alto.
<br>•``days_employed``
<br>Al simple vista todas las filas de ``days_employed`` presentan numeros de coma flotante. Eso podría ser debido a que se toman horas trabajadas y se les realiza algun calculo para pasarlo a dias (como dividir el valor en 8 o 24). Y que estén en negativo puede ser simplemente por un error de carga, habría que ver si hay un patron en los números negativos respecto a otras filas.
<br>•``dob_years``
<br> De vuelta nada llamativo por acá respecto a los datos, pero voy a cambiar el nombre por ``age`` para que sea más entendible.
<br>•``education``
<br>Bueno, duplicados implicitos a primera vista y... 'some collegue'?. Ya con la cuenta de .unique() podremos ver más
<br>•``education_id``
<br>Al parecer clasifíca en una escala numérica el nivel academico de la persona, y el 'some collegue' aparece en 2. Tendremos que comparar... por si no era evidente.
<br>•``family_status``
<br>Parecido a ``education``, y al parecer ``family_status_id`` es lo mismo que ``education_id``
<br>•``gender``
<br>Todo en orden por acá.
<br>•``income_type``
<br>De vuelta nada llamativo por acá, igual hay que ojear todas las filas.
<br>•``debt``
<br>Un sistema True/False de si la persona entró en deuda.
<br>•``total_income``
<br>Honestamente esperaba un negativo acá, pero igual vamos a ver la fila por los nulos.
<br>•``purpose``
<br>Nada raro, pero supongo que ésta fila es una mausquerramienta que nos servirá más tarde.



## <a id='toc2_3_'></a>[Exploración de datos](#toc0_)

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

In [83]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Para empezar podemos ver que las filas ``days_employed`` y ``total_income`` tienen una cantidad considerable de valores nulos. Tambien llama la atencion que la fila ``days_employed`` tiene de tipo ``float64`` aunque habría que ver la tabla para sacar mas conclusiones sobre eso.
Aparte de eso, el resto de las filas no presentan nada llamativo con ``.info``

In [84]:
# Vamos a mostrar las primeras 15 filas
credit_table.head(15)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


 Vamos a analizar fila por fila que podemos ver:
<br>
<br>•``children``
<br>No parece tener ningún problema, podríamos ver si hay algun número negativo por ahí, o algún número anormalmente alto.
<br>•``days_employed``
<br>Al simple vista todas las filas de ``days_employed`` presentan numeros de coma flotante. Eso podría ser debido a que se toman horas trabajadas y se les realiza algun calculo para pasarlo a dias (como dividir el valor en 8 o 24). Y que estén en negativo puede ser simplemente por un error de carga, habría que ver si hay un patron en los números negativos respecto a otras filas.
<br>•``dob_years``
<br> De vuelta nada llamativo por acá respecto a los datos, pero voy a cambiar el nombre por ``age`` para que sea más entendible.
<br>•``education``
<br>Bueno, duplicados implicitos a primera vista y... 'some collegue'?. Ya con la cuenta de .unique() podremos ver más
<br>•``education_id``
<br>Al parecer clasifíca en una escala numérica el nivel academico de la persona, y el 'some collegue' aparece en 2. Tendremos que comparar... por si no era evidente.
<br>•``family_status``
<br>Parecido a ``education``, y al parecer ``family_status_id`` es lo mismo que ``education_id``
<br>•``gender``
<br>Todo en orden por acá.
<br>•``income_type``
<br>De vuelta nada llamativo por acá, igual hay que ojear todas las filas.
<br>•``debt``
<br>Un sistema True/False de si la persona entró en deuda.
<br>•``total_income``
<br>Honestamente esperaba un negativo acá, pero igual vamos a ver la fila por los nulos.
<br>•``purpose``
<br>Nada raro, pero supongo que ésta fila es una mausquerramienta que nos servirá más tarde.

Antes de seguir y empezar a analizar la tabla detenidamente, vamos a realizar una acción fuera de lo planeado para facilitarme los trabajos en el futuro. Eso es transformar los valores de las filas `education` de tal manera que queden todas en minúsculas y cambiar el nombre de la columna `dob_years` a `age`.
  
El motivo por el cual decido modificar los valores de la columna en esta instancia es que la columna `education` juega un rol clave a la hora de analizar multiples aspectos de las personas y nos puede permitir ver potenciales patrones, cosa que sería más dificil en la situación actual que tenemos en la columna por la variedad de duplicados implícitos que parecen haber presentes. De todas formas como dije es algo fuera de lo planeado y el resto de los duplicados implícitos se trataran posteriormente según el orden previamente estipulado.

In [85]:
# Primero ponemos en minuscula todas las filas de 'education'
credit_table['education'] = credit_table['education'].apply(lambda x:x.lower())
# Despues cambiamos el nombre de la columna dob_years
credit_table = credit_table.rename(columns={'dob_years': 'age'})

### <a id='toc2_3_1_'></a>[Analisis de los datos faltantes](#toc0_)

In [86]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit_table_na = credit_table[credit_table['days_employed'].isna() == True]
credit_table_na

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,secondary education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,bachelor's degree,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Bueno bueno, ésta tabla si es util. Podemos ver claramente una simetría entre ``days_employed`` y ``total_income``. Pero como podemos estar seguros de que ésta simetría se mantiene para todas las filas nulas de el df?
  
Podríamos crear una funcion que verifique la simetría fila por fila, pero me parece más fácil usar lógica.  
Gracias al vistazo general que hicimos antes sabemos que hay la misma cantidad de filas nulas en las columnas ``days_employed`` y ``total_income`` (2174). Y tambien tenemos seguridad de que la tabla que tengo aquí arriba esta conformada por 2174 filas en donde todos los valores de ``days_employed`` son NaN.    
Con esas dos certezas es muy simple saber si los valores NaN de ``total_income`` y los valores NaN de ``days_employed`` presentan simetría; si en la fila ``total_income`` (de la tabla filtrada que tenemos arriba) hay un total de 2174 valores NaN entonces claramente los valores NaN de ``days_employed`` y los de ``total_income`` son simétricos.

In [87]:
credit_table_na['total_income'].sum()

0.0

Bueno, viendo que los 2174 NaN de ``total_income`` están en la tabla filtrada respecto a los NaN de ``days_employed`` podemos ver una clara simetría en los errores. Capaz que un error en el ingreso de los datos? Sin saber el proceso de carga y manejo previo de los datos no me queda otra que simplemente lidiar con los valores nulos, incluso mejor ya que me limita el numero total de filas afectadas por nulos al mínimo.

**Conclusión intermedia**  
Viendo que hay una relación entre las columnas ``total_income`` y ``days_employed`` nos quitamos lo fácil pero potencialmente molesto del medio. Primero habría que ver si esas filas representan una cantidad significativa respecto a el df total, lo cual no es difícil.  
  
Posteriormente habría que analizar en más detalle el df para ver si encontramos algún vinculo de las columnas 'sanas' con las columnas con valores NaN.  
  
Y finalmente habría que analizar la distribución de los valores en el df completo para (si es necesario) reemplazar los valores NaN con un valor correcto que no influya en las conclusiones respecto a ``total_income`` o ``days_employed`` pero nos siga proporcionando de la información provista en las otras columnas.  

In [88]:
#Sacamos que porcentaje del df representan los valores faltantes
(2174/21525)*100

10.099883855981417

Bueno, al sacar la proporción de valores ausentes respecto al df total nos encontramos que un 10,1%. Un número no despreciable en absoluto así que descartar las filas queda fuera de la cuestión.

In [89]:
# Vamos a definir una funcion que nos permita comparar la cantidad de cada valor único en sus tablas
def amount_comp_n(new_df,old_df,column):
    
    #Primero realizamos value_counts en frecuencias relativas sobre las tablas
    new_serie = new_df[column].value_counts(normalize=True)
    old_serie = old_df[column].value_counts(normalize=True)
    
    #De ahi renombramos las tablas para mejor visualizacion
    #old_serie.name = new_serie.name + '_0'
    
    #Ya renombrados, agregamos 2 columnas que muestren los numeros netos tambien
    new_serie_amount = new_df[column].value_counts()
    new_serie_amount.name = f'{new_serie.name}_amount'
    old_serie_amount= old_df[column].value_counts()
    old_serie_amount.name = f'{old_serie.name}_0_amount'
    
    #Finalmente renombramos las columnas de frecuencia
    new_serie.name = f'{column}_freq'
    old_serie.name = f'{column}_0_freq'
    
    #Creamos los dos df que posteriormente combinaremos
    frec_comp = pd.concat([new_serie_amount,old_serie_amount],axis=1)
    am_comp = pd.concat([new_serie,old_serie],axis=1)
    
    #Finalmente, creamos nuestra deseada tabla    
    comp = pd.concat([frec_comp,am_comp],axis=1)

    
    #Acá agrego una columna que compare la diferencia en proporcion a la tabla original
    comp['difference'] = comp.apply(lambda x:(abs((x[old_serie.name] - x[new_serie.name])/x[old_serie.name])), axis=1) 
    comp.rename(columns={'difference':'freq_difference'},inplace=True)
    
    return comp

Esta funcion nos permitirá ver lado a lado con que frecuencia se dan los mismos valores en la tabla original y en la tabla filtrada. Comparando columna por columna podremos buscar alguna diferencia significativa, si no se encuentra nada significativo es por que la columna en cuestion no se ve afectada directamente por las columnas ``days_employed`` y ``total_income``.

In [90]:
# Iremos en orden de izquierda a derecha comparando con nuestra funcion a el df con los nulos

# Aparte, a la tabla obtenida vamos a organizarla en base a la diferencia
amount_comp_n(credit_table_na,credit_table,'children').sort_values('freq_difference', ascending = False)

Unnamed: 0,children_amount,children_0_amount,children_freq,children_0_freq,freq_difference
4,7,41,0.00322,0.001905,0.690432
-1,3,47,0.00138,0.002184,0.368015
20,9,76,0.00414,0.003531,0.172499
5,1,9,0.00046,0.000418,0.100123
3,36,330,0.016559,0.015331,0.08012
1,475,4818,0.218491,0.223833,0.023864
2,204,2055,0.093836,0.09547,0.017117
0,1439,14149,0.661914,0.657329,0.006975


Podemos notar que los valores que ocupan los primeros puestos en la tabla tambien son los que poseen entre las menores frecuencias relativas dentro de cada una de sus respectivas tablas. Debido a eso podemos afirmar que no hay ningun patron significativo en `children`.
  
El caso de `age` es una situacion particular, ya que en papel es igual a a children siendo una variable discreta ordenada. Pero al ver bien, nos damos cuenta que un value_counts no nos serviría demasiado por su neta cantidad de valores individuales.
  
Es verdad, podriamos categorizar por edades según diferentes rangos pero eso es algo para más adelante.

In [91]:
print(credit_table['age'].describe())
print('')
print(credit_table_na['age'].describe())

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: age, dtype: float64

count    2174.000000
mean       43.632015
std        12.531481
min         0.000000
25%        34.000000
50%        43.000000
75%        54.000000
max        73.000000
Name: age, dtype: float64


Efectivamente, podemos ver como presentan un parecido excelente tan todos los valores del describe. Y teniendo en cuenta que `age` no juega un papel fundamental en la verificación de nuestras hipótesis no veo necesidad de hilar más fino.


In [92]:
amount_comp_n(credit_table_na,credit_table,'education').sort_values('freq_difference', ascending = False)

Unnamed: 0,education_amount,education_0_amount,education_freq,education_0_freq,freq_difference
primary education,21.0,282,0.00966,0.013101,0.262684
some college,69.0,744,0.031739,0.034564,0.081752
bachelor's degree,544.0,5260,0.25023,0.244367,0.023993
secondary education,1540.0,15233,0.708372,0.707689,0.000965
graduate degree,,6,,0.000279,


Acá se repite el mismo patron que con `children` siendo que las diferencias mas grandes se presentan en los grupos con menor frecuencia.

In [93]:
amount_comp_n(credit_table_na,credit_table,'family_status').sort_values('freq_difference', ascending = False)

Unnamed: 0,family_status_amount,family_status_0_amount,family_status_freq,family_status_0_freq,freq_difference
divorced,112,1195,0.051518,0.055517,0.07203
civil partnership,442,4177,0.203312,0.194053,0.047711
widow / widower,95,960,0.043698,0.044599,0.020203
unmarried,288,2813,0.132475,0.130685,0.013693
married,1237,12380,0.568997,0.575145,0.010689


Para el caso de `family_status` vemos diferencias incluso menores que en las columnas anteriores.

In [94]:
amount_comp_n(credit_table_na,credit_table,'gender').sort_values('freq_difference', ascending = False)

Unnamed: 0,gender_amount,gender_0_amount,gender_freq,gender_0_freq,freq_difference
M,690.0,7288,0.317387,0.338583,0.062601
F,1484.0,14236,0.682613,0.66137,0.032118
XNA,,1,,4.6e-05,


Tampoco se vé ningún sesgo respecto al género, solo notamos que ese XNA no aparece en el grupo NaN; aunque hubiese preferido para que los errores se concentren mas en las mismas filas.

In [95]:
amount_comp_n(credit_table_na,credit_table,'income_type').sort_values('freq_difference', ascending = False)

Unnamed: 0,income_type_amount,income_type_0_amount,income_type_freq,income_type_0_freq,freq_difference
entrepreneur,1.0,2,0.00046,9.3e-05,3.950552
retiree,413.0,3856,0.189972,0.179141,0.060466
employee,1105.0,11119,0.50828,0.516562,0.016034
business,508.0,5085,0.233671,0.236237,0.010863
civil servant,147.0,1459,0.067617,0.067782,0.002425
unemployed,,2,,9.3e-05,
student,,1,,4.6e-05,
paternity / maternity leave,,1,,4.6e-05,


Bien, acá vemos un detalle llamativo en primer lugar pero que termina siendo un claro ejemplo de por que no siempre hay que mirar la diferncia de frecuencias. Si bien 'entrepreneur' tiene 4 veces mas de freciencia relativa, hay solo 1 fila de diferencia.

In [96]:
amount_comp_n(credit_table_na,credit_table,'debt').sort_values('freq_difference', ascending = False)

Unnamed: 0,debt_amount,debt_0_amount,debt_freq,debt_0_freq,freq_difference
1,170,1741,0.078197,0.080883,0.033206
0,2004,19784,0.921803,0.919117,0.002922


Bueno, la columna más importante no parece tener una distribución muy alejada de la original. Eso es un alivio

In [97]:
amount_comp_n(credit_table_na,credit_table,'purpose').sort_values('freq_difference', ascending = False)

Unnamed: 0,purpose_amount,purpose_0_amount,purpose_freq,purpose_0_freq,freq_difference
to buy a car,30,472,0.013799,0.021928,0.370693
to become educated,55,412,0.025299,0.019141,0.321749
building a real estate,46,626,0.021159,0.029082,0.272443
purchase of my own house,46,620,0.021159,0.028804,0.265402
purchase of the house,52,647,0.023919,0.030058,0.204239
cars,57,478,0.026219,0.022207,0.180676
car,41,495,0.018859,0.022997,0.179909
having a wedding,92,777,0.042318,0.036098,0.172331
construction of own property,75,635,0.034499,0.029501,0.169422
getting higher education,36,426,0.016559,0.019791,0.163287


No esperaba poder sacar muchas conclusiones de ésta columna, y efectivamente no se puede sacar nada significativo por la gran cantidad de valores individuales.
Siendo que la diferencia más grande que encontramos es de un 37% podemos decir con tranquilidad que no hay un sesgo en la columna 'purpose'.

### <a id='toc2_3_2_'></a>[Analisis de valores anomalos en `days_employed`](#toc0_)

Ya sacando del medio algún patrón entre los NaN y el resto de la tabla podemos empezar a abordar como reemplazar los valores NaN de tal manera que no afecten los resultados que podriamos sacar de sus respectivas columnas.  
Primero hay que buscar los 'faros' estadísticos para saber como se distribuyen los valores. Pero al ver la tabla... notamos que hay unos ciertos valores que nos pueden molestar mucho para los calculos, específicamente algunas filas que tienen valores negativos. Antes de lidiar con los negativos veamos como está nuestro df actualmente.

In [98]:
# Veamos como se distribuyen los numeros positivos
print('Positivos:\n',credit_table[credit_table['days_employed'] > 0]['days_employed'].describe(),'\n')
# Ahora los negativos
print('Negativos:\n',credit_table[credit_table['days_employed'] <= 0]['days_employed'].describe(),'\n')
#Y una general tambien para ver como quedan juntos
print(credit_table['days_employed'].describe())

Positivos:
 count      3445.000000
mean     365004.309916
std       21075.016396
min      328728.720605
25%      346639.413916
50%      365213.306266
75%      383246.444219
max      401755.400475
Name: days_employed, dtype: float64 

Negativos:
 count    15906.000000
mean     -2353.015932
std       2304.243851
min     -18388.949901
25%      -3157.480084
50%      -1630.019381
75%       -756.371964
max        -24.141633
Name: days_employed, dtype: float64 

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64


Bueno bueno bueno, hablemos de valores anómalos que pueden romper la calidad de tus datos. Acá se ven muchas cosas interesantes:    
A primera vista vemos que hay muchos valores negativos, pero si vemos mas detenidamente... los raros son los valores positivos!
Con valores absurdamente altos, para ponernos en perspectiva: **80 años** son *29.200* dias. Y acá vemos que parten en unos modestos *328.728* días (900 años).  
Por su parte... los negativos no se ven tan mal, si vemos el valor absoluto notamos 6 años de promedio, un "maximo" cercano a un mes, un "mínimo" de 50 años, con toda una distribucion de valores entre ellos y una desviación estandar bastante alta. El promedio se encuentra bastante tirado hacia un mayor valor absoluto estando un 41% por encima de la mediana.  
Mientras tanto, si vemos los positivos notamos que tienen una distribucion muchisimo mas baja, pero con esos numeros absurdamente grande.  
Supongo que tendremos que ver mas de cerca los conjuntos individualmente para saber que hacer con ellos.

In [99]:
# Guardamos diferentes tablas para los + y los -
positives_ts = credit_table[credit_table['days_employed'] > 0]
negatives_ts = credit_table[credit_table['days_employed'] < 0]

In [100]:
positives_ts.head(10)

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
30,1,335581.668515,62,secondary education,1,married,0,F,retiree,0,27432.971,transactions with commercial real estate
35,0,394021.072184,68,secondary education,1,civil partnership,1,M,retiree,0,12448.908,having a wedding
50,0,353731.432338,63,secondary education,1,married,0,F,retiree,0,14774.837,cars
56,0,370145.087237,64,secondary education,1,widow / widower,2,F,retiree,0,23862.567,education
71,0,338113.529892,62,secondary education,1,married,0,F,retiree,0,7028.751,cars
78,0,359722.945074,61,bachelor's degree,0,married,0,M,retiree,0,28020.423,purchase of a car


Bueno, las filas que mas llaman la atención son las de `income_type` y me gustaría ver como se ve el DataFrame si lo ordeno por `days_employed` o `total_income` ya que son nuestras dos columnas cuantitativas continuas.

In [101]:
positives_ts.sort_values('days_employed')

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
20444,0,328728.720605,72,secondary education,1,widow / widower,2,F,retiree,0,15443.094,purchase of the house for my family
9328,2,328734.923996,41,bachelor's degree,0,married,0,M,retiree,0,20319.600,transactions with my real estate
17782,0,328771.341387,56,secondary education,1,married,0,F,retiree,0,10983.688,transactions with commercial real estate
14783,0,328795.726728,62,bachelor's degree,0,married,0,F,retiree,0,12790.431,buying my own car
7229,1,328827.345667,32,secondary education,1,civil partnership,1,F,retiree,0,19546.075,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
7794,0,401663.850046,61,secondary education,1,civil partnership,1,F,retiree,0,7725.831,wedding ceremony
2156,0,401674.466633,60,secondary education,1,married,0,M,retiree,0,52063.316,cars
7664,1,401675.093434,61,secondary education,1,married,0,F,retiree,0,20194.323,housing transactions
10006,0,401715.811749,69,bachelor's degree,0,unmarried,4,F,retiree,0,9182.441,getting an education


In [102]:
positives_ts.sort_values('total_income')

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
14585,0,359219.059341,57,secondary education,1,married,0,F,retiree,1,3306.762,property
13006,0,369708.589113,37,secondary education,1,civil partnership,1,M,retiree,0,3392.845,going to university
1598,0,359726.104207,68,secondary education,1,civil partnership,1,M,retiree,0,3471.216,having a wedding
14276,0,346602.453782,61,secondary education,1,married,0,F,retiree,0,3503.298,property
10881,0,347356.519176,71,secondary education,1,married,0,M,retiree,0,3595.641,transactions with my real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
1409,0,334060.678873,65,secondary education,1,married,0,F,retiree,0,103052.454,education
1131,0,378612.272926,49,secondary education,1,civil partnership,1,M,retiree,0,109008.094,having a wedding
10725,0,373012.754501,64,bachelor's degree,0,civil partnership,1,F,retiree,0,111064.143,purchase of the house for my family
6084,0,351717.389895,65,bachelor's degree,0,married,0,M,retiree,0,113428.352,transactions with commercial real estate


El único patron evidente que podemos observar es la alta presencia de 'retiree' en `income_type`. De ahí no podemos discernir nada sobre las otras columnas con lo que tenemos.

In [103]:
print(positives_ts['income_type'].value_counts())

retiree       3443
unemployed       2
Name: income_type, dtype: int64


In [104]:
# Veamos quienes son esos 2 unemployed
positives_ts[positives_ts['income_type'] == 'unemployed']

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,secondary education,1,married,0,M,unemployed,1,9593.119,buying property for renting out
14798,0,395302.838654,45,bachelor's degree,0,civil partnership,1,F,unemployed,0,32435.602,housing renovation


In [105]:
# Verificamos en la tabla general
credit_table[credit_table['income_type'] == 'unemployed']

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3133,1,337524.466835,31,secondary education,1,married,0,M,unemployed,1,9593.119,buying property for renting out
14798,0,395302.838654,45,bachelor's degree,0,civil partnership,1,F,unemployed,0,32435.602,housing renovation


Bueno, no coinciden en nada mas que en `income_type` así que mucho no podemos sacar de estos 2.
  
Con esos 2 vistos ya, podemos llamar nuestra querida funcion y ver realmente como se compara con toda la tabla.

In [106]:
amount_comp_n(positives_ts,credit_table,'children').sort_values('freq_difference', ascending = False)

Unnamed: 0,children_amount,children_0_amount,children_freq,children_0_freq,freq_difference
2,17.0,2055,0.004935,0.09547,0.948312
3,6.0,330,0.001742,0.015331,0.886397
4,1.0,41,0.00029,0.001905,0.847605
1,253.0,4818,0.07344,0.223833,0.671899
20,7.0,76,0.002032,0.003531,0.424509
0,3154.0,14149,0.91553,0.657329,0.392804
-1,7.0,47,0.002032,0.002184,0.069419
5,,9,,0.000418,


In [107]:
# En éste caso viene mejor para comparar ver que tanto coincide el orden de frecuencias
amount_comp_n(positives_ts,credit_table,'children').sort_values('children_freq', ascending = False)

Unnamed: 0,children_amount,children_0_amount,children_freq,children_0_freq,freq_difference
0,3154.0,14149,0.91553,0.657329,0.392804
1,253.0,4818,0.07344,0.223833,0.671899
2,17.0,2055,0.004935,0.09547,0.948312
-1,7.0,47,0.002032,0.002184,0.069419
20,7.0,76,0.002032,0.003531,0.424509
3,6.0,330,0.001742,0.015331,0.886397
4,1.0,41,0.00029,0.001905,0.847605
5,,9,,0.000418,


Si mirabamos la comparacion ordenada en las diferencias nos asustabamos un poco debido a que un 94% de diferencia de frecuencia ciertamente es algo llamativo. Pero al mirar la tabla ordenada por como se acomoda cada valor según su frecuencia... Sigue siendo algo llamativo que un valor que tiene 2055 en la tabla original tenga unos simples 17 en la filtrada.
  
Pero ésta funcion nos permite ver como exceptuando ese valor, el resto de los que presentan una diferencia grande simplemente se deben a que hay pocos de ellos por lo que una diferencia de 1 impacta mucho en el conteo.

Ahora vamos a pasar a observar a `total_income` y `age` ya que las dos serán sometidas a .describe()
  
Con la ayuda de la función concat no solo podremos ver el describe de las columnas lado a lado, sino también ayuda a que Jupyter lo interprete de una forma en la que se visualiza mucho mejor.

In [108]:
pd.concat([positives_ts['total_income'].describe(),credit_table['total_income'].describe()],axis=1).set_axis(['positives','general'],axis=1)

Unnamed: 0,positives,general
count,3445.0,19351.0
mean,21939.856893,26787.568355
std,12838.753752,16475.450632
min,3306.762,3306.762
25%,13260.214,16488.5045
50%,18962.318,23202.87
75%,27159.402,32549.611
max,117616.523,362496.645


Excelente, comparar lado a lado `total_income` nos da una buena idea de que los dias imputados en `days_employed` claramente son errores de carga (por si no era ya evidente) ya que si algo podemos destacar de los `total_income` en los valores positivos es que son **menores**. Exceptuando el mínimo que casualmente es compartido, todos los otros indicadores muestran que no solo los valores se presentan en menores niveles que en la tabla original sino que también se encuentran un poco más agrupados.

In [109]:
pd.concat([positives_ts['age'].describe(),credit_table['age'].describe()],axis=1).set_axis(['positives','general'],axis=1)

Unnamed: 0,positives,general
count,3445.0,21525.0
mean,59.124819,43.29338
std,7.580584,12.574584
min,0.0,0.0
25%,56.0,33.0
50%,60.0,42.0
75%,64.0,53.0
max,74.0,75.0


Casi que me pica físicamente ver esos 0 ahí y pensar en como deben impactar sobre los otros valores de la tabla así que hagamos algo con ellos.

In [110]:
pd.concat([positives_ts[positives_ts['age'] != 0]['age'].describe(),
           credit_table[credit_table['age'] != 0]['age'].describe()],axis=1).set_axis(['positives','general'],axis=1)

Unnamed: 0,positives,general
count,3428.0,21424.0
mean,59.418028,43.497479
std,6.350063,12.246934
min,22.0,19.0
25%,56.0,33.0
50%,60.0,43.0
75%,64.0,53.0
max,74.0,75.0


No perdimos muchos valores en ninguna de las dos tablas de suerte y subimos levemente el promedio a la vez que bajamos levemente la desviación estándar. Pero el verdadero motivo por el cual decidí ignorar esas filas de valor 0 sale a la luz, esos valores mínimos...  
  
Podemos ver como exceptuando el máximo (por 1 año) todos los valores referenciales (min, 25%, 50% y 75%) se encuentran por encima de la tabla original indicando la pista de que claramente englobamos un grupo el cual tiende a tener más edad.
  
Obviamente, eso ya vimos previamente que era el grupo de "retiree". Siendo que la mitad de nuestros valores se encuentran *debajo* de los 60 años podemos hipotetizar que pueden ser personas que recibieron jubilaciones adelantadas por discapacidad o incluso capaz que todo el grupo de `positives_ts` corresponda a ese grupo, pero verificar eso es practicamente imposible e innecesario.

In [111]:
# Sin más preambulo, comparemos nuestra tabla de datos positivos con los "retiree" de la tabla completa
retirees = credit_table[credit_table['income_type'] == 'retiree']
retirees

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
25,0,363548.489348,67,secondary education,1,married,0,M,retiree,0,8818.041,buy real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,386497.714078,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,362161.054124,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


In [112]:
retirees['days_employed'].describe()

count      3443.000000
mean     365003.491245
std       21069.606065
min      328728.720605
25%      346649.346146
50%      365213.306266
75%      383231.396871
max      401755.400475
Name: days_employed, dtype: float64

In [113]:
retirees['days_employed'].isna().sum()

413

Okay, supongo que eso simplifica bastante el análisis. Claramente hubo un problema en la carga de datos de los "retiree" y esos 2 unemployed. Tristemente nosotros no podemos hacer mucho al respecto más que tener presente éstos valores problemas y actuar acorde.

In [114]:
# Veamos un par de cosas en 'total_income'
pd.concat([positives_ts['total_income'].describe(),
           negatives_ts['total_income'].describe(),
           positives_ts['days_employed'].describe()],axis=1).set_axis(['positives','negatives','general'],axis=1)

Unnamed: 0,positives,negatives,general
count,3445.0,15906.0,3445.0
mean,21939.856893,27837.509634,365004.309916
std,12838.753752,16980.846677,21075.016396
min,3306.762,3418.824,328728.720605
25%,13260.214,17323.415,346639.413916
50%,18962.318,24181.535,365213.306266
75%,27159.402,33839.1065,383246.444219
max,117616.523,362496.645,401755.400475


Queria ver lado a lado los .describe de `total_income` y `days_employed` mientras comparo a la vez con los `total_income` de los negativos. Y con la desviación estándar podemos ver que la `days_employed` esta mucho mas concentrada cerca del valor medio que la segunda. Por otro lado vemos que los saltos entre percentiles no son parecidos entre las dos, así que la idea de que encontrar mucho acá se vuelve difícil. Finalmente si comparamos `total_income` de ambas tablas notamos que no presentan tantas diferencias como podríamos imaginar, capaz que vale la pena guardar esos datos (más tomando en cuenta que son claves para nuestras preguntas).

In [115]:
len(positives_ts[positives_ts['age'] == 0])

17

Y al parecer tambien tenemos esos 0 en edad que vimos antes.

In [116]:
positives_ts['debt'].sum()

182

Bueno, otro intento fallido de buscar un patron completo... Supongo que al menos nos vamos haciendo una idea de que por más que los valores como `total_income` y `days_employed` no nos sirvan, para preguntas que no los incluyan las filas siguen teniendo una utilidad! Aunque bueno... en muchas el `income_type` tampoco nos sirve.

Ahora vamos a proceder a ver los numeros negativos que tienen una forma mucho más linda.

In [117]:
negatives_ts

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [118]:
# Veamos un describe de las filas cuantitativas
(negatives_ts['days_employed']*-1).describe()

count    15906.000000
mean      2353.015932
std       2304.243851
min         24.141633
25%        756.371964
50%       1630.019381
75%       3157.480084
max      18388.949901
Name: days_employed, dtype: float64

Ya habiamos visto previamente pero nunca viene mal refrescar la memoria.

Y sin más que ver en los valores en sí, saltemos hacia el resto de las columnas a ver si notamos algo que nos llame la atención.

In [119]:
amount_comp_n(negatives_ts,credit_table,'children')

Unnamed: 0,children_amount,children_0_amount,children_freq,children_0_freq,freq_difference
0,9556,14149,0.60078,0.657329,0.086029
1,4090,4818,0.257136,0.223833,0.148785
2,1834,2055,0.115302,0.09547,0.20773
3,288,330,0.018106,0.015331,0.181029
20,60,76,0.003772,0.003531,0.068365
-1,37,47,0.002326,0.002184,0.065335
4,33,41,0.002075,0.001905,0.089212
5,8,9,0.000503,0.000418,0.2029


La distribución de `children` se ve excepcionalmente parecida a la encontrada en el Dataframe original.

In [120]:
# Comparamos lado a lado con el df original filtrando los 0 de antemano para un mejor analisis
pd.concat([negatives_ts[negatives_ts['age'] != 0]['age'].describe(),
           credit_table[credit_table['age'] != 0]['age'].describe()], axis=1).set_axis(['negatives','general'],axis=1)

Unnamed: 0,negatives,general
count,15832.0,21424.0
mean,40.004358,43.497479
std,10.33387,12.246934
min,19.0,19.0
25%,32.0,33.0
50%,39.0,43.0
75%,48.0,53.0
max,75.0,75.0


In [121]:
# Por supuesto tenemos que ver cuantos age 0 tenemos
len(negatives_ts[negatives_ts['age'] == 0])

74

En ésta comparación vemos algo... bastante obvio en retrospectiva. Notamos previamente que los positivos tenian edades inclinadas a los mayores por lo que ver que en los negativos se presentan edades un poco menores a la general cuadra.

In [122]:
pd.concat([negatives_ts[negatives_ts['total_income'] != 0]['total_income'].describe(),
           credit_table[credit_table['total_income'] != 0]['total_income'].describe()], axis=1).set_axis(['negatives','general'],axis=1)

Unnamed: 0,negatives,general
count,15906.0,19351.0
mean,27837.509634,26787.568355
std,16980.846677,16475.450632
min,3418.824,3306.762
25%,17323.415,16488.5045
50%,24181.535,23202.87
75%,33839.1065,32549.611
max,362496.645,362496.645


Similar a lo que vimos en la edad, el grupo de negativos se presenta en el lado opuesto de los positivos parandose por encima de los valores de `total_income` en la tabla original.

In [123]:
amount_comp_n(negatives_ts,credit_table,'education')

Unnamed: 0,education_amount,education_0_amount,education_freq,education_0_freq,freq_difference
secondary education,10899,15233,0.685213,0.707689,0.031759
bachelor's degree,4195,5260,0.263737,0.244367,0.079266
some college,640,744,0.040236,0.034564,0.164097
primary education,168,282,0.010562,0.013101,0.193801
graduate degree,4,6,0.000251,0.000279,0.097825


In [124]:
amount_comp_n(negatives_ts,credit_table,'family_status')

Unnamed: 0,family_status_amount,family_status_0_amount,family_status_freq,family_status_0_freq,freq_difference
married,9270,12380,0.582799,0.575145,0.013308
civil partnership,3158,4177,0.198541,0.194053,0.023128
unmarried,2212,2813,0.139067,0.130685,0.064137
divorced,885,1195,0.055639,0.055517,0.002207
widow / widower,381,960,0.023953,0.044599,0.462924


In [125]:
amount_comp_n(negatives_ts,credit_table,'gender')

Unnamed: 0,gender_amount,gender_0_amount,gender_freq,gender_0_freq,freq_difference
F,9945,14236,0.625236,0.66137,0.054636
M,5960,7288,0.374701,0.338583,0.106675
XNA,1,1,6.3e-05,4.6e-05,0.353263


In [126]:
amount_comp_n(negatives_ts,credit_table,'income_type')

Unnamed: 0,income_type_amount,income_type_0_amount,income_type_freq,income_type_0_freq,freq_difference
employee,10014.0,11119,0.629574,0.516562,0.218776
business,4577.0,5085,0.287753,0.236237,0.21807
civil servant,1312.0,1459,0.082485,0.067782,0.216916
student,1.0,1,6.3e-05,4.6e-05,0.353263
entrepreneur,1.0,2,6.3e-05,9.3e-05,0.323369
paternity / maternity leave,1.0,1,6.3e-05,4.6e-05,0.353263
retiree,,3856,,0.179141,
unemployed,,2,,9.3e-05,


No destacaba nada hasta ahora debido a la falta de algo que destacar. Eso acaba de "cambiar" pues notamos algo que ya sabiamos; todos los 'retiree' se encuentran ya sea en `positives_ts` o en los nulos. Aparte de eso, vemos un comportamiento bastante normal.

In [127]:
amount_comp_n(negatives_ts,credit_table,'debt')

Unnamed: 0,debt_amount,debt_0_amount,debt_freq,debt_0_freq,freq_difference
0,14517,19784,0.912674,0.919117,0.00701
1,1389,1741,0.087326,0.080883,0.079657


De suerte no se ve ningun sesgo en la columna de `debt`.

In [128]:
# Ordenamos por la diferencia por la neta cantidad de filas que tiene
amount_comp_n(negatives_ts,credit_table,'purpose').sort_values('freq_difference',ascending= False)

Unnamed: 0,purpose_amount,purpose_0_amount,purpose_freq,purpose_0_freq,freq_difference
purchase of my own house,492,620,0.030932,0.028804,0.07388
to get a supplementary education,316,447,0.019867,0.020767,0.043331
cars,340,478,0.021376,0.022207,0.037428
getting an education,318,443,0.019992,0.020581,0.028583
buy residential real estate,461,607,0.028983,0.0282,0.027766
supplementary education,332,462,0.020873,0.021463,0.027525
having a wedding,559,777,0.035144,0.036098,0.026417
getting higher education,323,426,0.020307,0.019791,0.026066
property,480,634,0.030177,0.029454,0.024552
construction of own property,458,635,0.028794,0.029501,0.023946


Con esa ultima comparacion podemos concluir que no hay ningun patron aparte del signo en `days_employed` que nos pueda llamar la atencion.
  
Ahora vamos a pasar nuestra atención a la columna `age`.

In [129]:
# Primero veamos cuantos ejemplares tenemos
credit_table[credit_table['age'] == 0]

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,-2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,-1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,-1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,-108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


101 filas de todos los colores y sabores por lo que parece. Podemos ver todos y cada uno de los detalles que nos encontramos hasta ahora. Positivos y negativos de `days_employed`, valores nulos también, varios tipos de `income_type`, `education` y `purpose`. En resumen, estamos viendo muy poco como para sacar una conclusión clara.
  
Nos adentremos un poco más en esa tabla para saber de que se trata.

In [130]:
# Primero le designemos una variable propia
age_0 = credit_table[credit_table['age'] == 0]

In [131]:
# Ahora llamemos nuestra funcion para comparar más detenidamente la situación
amount_comp_n(age_0,credit_table,'children').sort_values('freq_difference',ascending= False)

Unnamed: 0,children_amount,children_0_amount,children_freq,children_0_freq,freq_difference
20,1.0,76,0.009901,0.003531,1.804195
2,13.0,2055,0.128713,0.09547,0.348197
1,16.0,4818,0.158416,0.223833,0.292258
3,2.0,330,0.019802,0.015331,0.291629
0,69.0,14149,0.683168,0.657329,0.03931
-1,,47,,0.002184,
4,,41,,0.001905,
5,,9,,0.000418,


In [132]:
# No notamos nada muy llamativo más que la diferencia de tamaños dandonos cifras altas que solo engañan
amount_comp_n(age_0,credit_table,'education').sort_values('freq_difference',ascending= False)

Unnamed: 0,education_amount,education_0_amount,education_freq,education_0_freq,freq_difference
some college,2.0,744,0.019802,0.034564,0.4271
bachelor's degree,35.0,5260,0.346535,0.244367,0.418091
secondary education,64.0,15233,0.633663,0.707689,0.104602
primary education,,282,,0.013101,
graduate degree,,6,,0.000279,


In [133]:
# Tampoco vemos nada muy llamativo acá, incluso se ve más normal que la columna 'children'
amount_comp_n(age_0,credit_table,'family_status').sort_values('freq_difference',ascending= False)

Unnamed: 0,family_status_amount,family_status_0_amount,family_status_freq,family_status_0_freq,freq_difference
divorced,10,1195,0.09901,0.055517,0.783421
unmarried,16,2813,0.158416,0.130685,0.212194
married,49,12380,0.485149,0.575145,0.156476
widow / widower,5,960,0.049505,0.044599,0.109994
civil partnership,21,4177,0.207921,0.194053,0.071462


In [134]:
# De vuelta, un callejón sin salida respecto a 'family_status'
amount_comp_n(age_0,credit_table,'gender').sort_values('freq_difference',ascending= False)

Unnamed: 0,gender_amount,gender_0_amount,gender_freq,gender_0_freq,freq_difference
M,29.0,7288,0.287129,0.338583,0.15197
F,72.0,14236,0.712871,0.66137,0.07787
XNA,,1,,4.6e-05,


In [135]:
# Ciertamente presenta mas mujeres que hombres la tabla age_0... pero tambien así el df original
amount_comp_n(age_0,credit_table,'income_type').sort_values('freq_difference',ascending= False)

Unnamed: 0,income_type_amount,income_type_0_amount,income_type_freq,income_type_0_freq,freq_difference
business,20.0,5085,0.19802,0.236237,0.161775
civil servant,6.0,1459,0.059406,0.067782,0.123569
retiree,20.0,3856,0.19802,0.179141,0.105388
employee,55.0,11119,0.544554,0.516562,0.05419
unemployed,,2,,9.3e-05,
entrepreneur,,2,,9.3e-05,
student,,1,,4.6e-05,
paternity / maternity leave,,1,,4.6e-05,


In [136]:
# El caso de 'income_type' debe ser el que más se asimila a la situacion original
amount_comp_n(age_0,credit_table,'debt').sort_values('freq_difference',ascending= False)

Unnamed: 0,debt_amount,debt_0_amount,debt_freq,debt_0_freq,freq_difference
1,8,1741,0.079208,0.080883,0.020706
0,93,19784,0.920792,0.919117,0.001822


In [137]:
# Para nuestra suerte una vez más, la columna 'debt' no se ve involucrada
amount_comp_n(age_0,credit_table,'purpose').sort_values('freq_difference',ascending= False)

Unnamed: 0,purpose_amount,purpose_0_amount,purpose_freq,purpose_0_freq,freq_difference
to buy a car,5.0,472,0.049505,0.021928,1.257615
housing,6.0,647,0.059406,0.030058,0.976372
purchase of the house,6.0,647,0.059406,0.030058,0.976372
housing transactions,6.0,653,0.059406,0.030337,0.958213
car,4.0,495,0.039604,0.022997,0.722172
purchase of the house for my family,1.0,641,0.009901,0.029779,0.667521
purchase of my own house,1.0,620,0.009901,0.028804,0.65626
purchase of a car,1.0,455,0.009901,0.021138,0.531607
getting an education,1.0,443,0.009901,0.020581,0.518919
profile education,1.0,436,0.009901,0.020256,0.511195


Con solo 3 categorias de `purpose` faltantes es un poco frustrante ver la aleatoriedad con la que se presentan los valores age_0 a lo largo del df. Tristemente nuestra función no nos sirve para comparar más que variables categóricas, pero de suerte tenemos las herramientas correctas para analizar las variables numéricas.

In [138]:
# Primero analizaremos la columna de 'total_income' que como vimos presenta menos problemas
pd.concat([age_0[age_0['total_income'] != 0]['total_income'].describe(),
           credit_table[credit_table['total_income'] != 0]['total_income'].describe()], axis=1).set_axis(['age_0','general'],axis=1)

Unnamed: 0,age_0,general
count,91.0,19351.0
mean,25334.07289,26787.568355
std,11901.096532,16475.450632
min,5595.912,3306.762
25%,15933.259,16488.5045
50%,24387.07,23202.87
75%,34007.9075,32549.611
max,61819.782,362496.645


Bueno, de primera notamos que tenemos 10 valores nulos en el df, aproximadamente... un 10%... al igual que en el dataframe general. La similitud que presentan éstos valores respecto al df general es cada vez más sorprendente. Podemos ver como los Q1, Q2, Q3 y la media son prácticamente iguales presentando diferencias en los valores extremos únicamente. También vemos una menor desviación estándar pero se debe dar por lo antes mencionado de los valores extremos.
  
  Solo nos queda observar cómo se comporta `days_employed` y si no vemos nada llamativo... supongo que podríamos reemplazar `age` con la media o mediana según veamos más representativo.

In [139]:
# Igual a ésta tabla tendremos que hacerla 3 veces debido al problema de signos de la columna
pd.concat([age_0[age_0['days_employed'] != 0]['days_employed'].describe(),
           credit_table[credit_table['days_employed'] != 0]['days_employed'].describe()], axis=1).set_axis(['age_0','general'],axis=1)

Unnamed: 0,age_0,general
count,91.0,19351.0
mean,65937.471974,63046.497661
std,143332.816768,140827.311974
min,-10689.250498,-18388.949901
25%,-2258.921067,-2747.423625
50%,-1146.689586,-1203.369529
75%,-245.276828,-291.095954
max,400992.375704,401755.400475


In [140]:
pd.concat([age_0[age_0['days_employed'] < 0]['days_employed'].describe(),
           credit_table[credit_table['days_employed'] < 0]['days_employed'].describe()], axis=1).set_axis(['age_0','general'],axis=1)

Unnamed: 0,age_0,general
count,74.0,15906.0
mean,-2200.375775,-2353.015932
std,2183.782763,2304.243851
min,-10689.250498,-18388.949901
25%,-2585.876728,-3157.480084
50%,-1560.900431,-1630.019381
75%,-906.932744,-756.371964
max,-108.967042,-24.141633


In [141]:
pd.concat([age_0[age_0['days_employed'] > 0]['days_employed'].describe(),
           credit_table[credit_table['days_employed'] > 0]['days_employed'].describe()], axis=1).set_axis(['age_0','general'],axis=1)

Unnamed: 0,age_0,general
count,17.0,3445.0
mean,362537.515114,365004.309916
std,24439.825974,21075.016396
min,331558.550969,328728.720605
25%,338734.86854,346639.413916
50%,366067.78103,365213.306266
75%,371665.278622,383246.444219
max,400992.375704,401755.400475


Creo que si yo buscase sacar un conjunto representativo de la tabla completa no podría lograr una similaridad a la tabla original al nivel que la que tiene nuestra tabla *age_0*. Tristemente no pudimos encontrar un patrón significativo en ninguna columna por lo que no podemos asignar una edad coherente. 
  
  Me parece mejor idea dejar los valores como 0 y posteriormente tratarlos como una entidad aparte para mínimamente buscar representar éste conjunto de la mejor manera.
  
  Ahora sin más preambulo, vamos directo al siguiente capítulo!

### <a id='toc2_3_3_'></a>[Reemplazo de valores anómalos en la tabla](#toc0_)

Bueno, exceptuando `purpose` todas las columnas parecen tener una distribución idéntica a el df original, inclusive `purpose` solo tiene pequeñas diferencias que se consideran aceptables. Sin mas problemas, vamos a proceder con el fruto de todo éste trabajo!
  
Y eso es decidir que hacer, tras todas las consideranciones lo que voy a hacer es eliminar de la tabla los valores positivos de `days_employed` y los respectivos valores de `total_income`.
  
El resto de los valores en las tabla no me parecian presentar un patron y aunque hayan columnas que estén mal, no vamos a descartar valores que si nos pueden ser útiles para nuestras preguntas!

Un pensamiento que se vino a mi mente fue que posiblemente los valores positivos estaban en una escala no representada en días sino en horas. Y si bien al hacer unos cálculos auxiliares si termino con número más coherentes, voy a decidir no tomar ese camino ya que tampoco tengo toda la confianza respecto a eso y prefiero reemplazar los valores con NaN para luego imputarlos con valores sobre los cuales yo tenga certeza que representan el dataframe.

In [142]:
# Primero vamos a abordar el problema de los valores positivos cambiandolos a NaN
credit_table['days_employed'].where((credit_table.loc[:,'days_employed'] < 0),np.nan,inplace=True)

In [143]:
# Verificamos que todo haya salido bien
credit_table

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [144]:
# Ya con los positivos anulados, vamos a normalizar el resto de los valores que se encuentran en negativo
credit_table['days_employed'] = credit_table['days_employed']*-1

In [145]:
# Verificamos
credit_table['days_employed'].describe()

count    15906.000000
mean      2353.015932
std       2304.243851
min         24.141633
25%        756.371964
50%       1630.019381
75%       3157.480084
max      18388.949901
Name: days_employed, dtype: float64

In [146]:
# Veamos la distribución de los valores en la columna `children`
credit_table['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Bueno, como siempre los numeros negativos molestando y también tenemos 76 familias con 20 hijos! Algo no huele bien acá siendo que el promedio de hijos global actual es de 2.3 hijos y el premoderno era de 4 a 7 hijos por familia.  
Por mas tentador que sea reemplazar los -1 con 1 y los 20 con 2 primero tendría que ver si es plausible hacer eso.

In [147]:
print(
'Proporcion de los 20:',76/len(credit_table),
'\n Proporcion de los -1:',47/len(credit_table))

Proporcion de los 20: 0.0035307781649245064 
 Proporcion de los -1: 0.002183507549361208


Bueno, encontramos algo que ya era evidente pero verlo en números ayuda a dar certeza de que éstos valores significan apenas un 0.5% de los datos juntos.  
Por una parte, como dije, esta la tentación de reemplazar los -1 con 1 pero después de pensarlo bien, no tiene toda la lógica ya que si algún problema transformase los numeros cargados aleatoriamente en numeros negativos tambien deberíamos ver al menos un caso de otro numero negativo. Pero bueno, tampoco hay que perder mucho tiempo pensando en el 0.5% por lo que vamos a reemplazar como pensabamos originalmente ya que la pregunta que tendremos que responder después le es irrelevante si son 1 o 2 hijos, solo importa si no son 0. 

In [148]:
credit_table['children'] = credit_table['children'].replace(-1,1)
credit_table['children'] = credit_table['children'].replace(20,2)

In [149]:
credit_table['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Bueno, vemos que los valores se reemplazaron correctamente y no tenemos mas esos números problema.

Y ahora, antes de reemplazar los NaN en las columnas `days_employed` y `total_income` revisemos los valores únicos de todas las columnas para estar seguros que no hay quedado nada fuera de lugar.

In [150]:
for column in credit_table:
    print(column,':',credit_table[column].unique(),'\n')

children : [1 0 3 2 4 5] 

days_employed : [8437.67302776 4024.80375385 5623.42261023 ... 2113.3468877  3112.4817052
 1984.50758853] 

age : [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75] 

education : ["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree'] 

education_id : [0 1 2 3 4] 

family_status : ['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried'] 

family_status_id : [0 1 2 3 4] 

gender : ['F' 'M' 'XNA'] 

income_type : ['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave'] 

debt : [0 1] 

total_income : [40620.102 17932.802 23341.752 ... 14347.61  39054.888 13127.587] 

purpose : ['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'p

Notamos 2 cosas faltantes en los valores únicos que podemos trabajar en ésta etapa. Primero vemos los carácteres especiales en las columnas `income_type` y `family_status`; esas son *paternity / maternity leave* y *widow / widower*; y tambien observamos el `gender` *XNA*.

In [151]:
# Primero cambiamos el valor especial en 'income_type'
credit_table.loc[credit_table.income_type == 'paternity / maternity leave',['income_type']] = 'newborn leave'

In [152]:
# Ahora el valor especial en 'family_status'
credit_table.loc[credit_table.family_status == 'widow / widower',['family_status']] = 'spouseless'

In [153]:
# Solo queda el detalle de 'gender' XNA

credit_table[credit_table['gender'] == 'XNA']

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,some college,2,civil partnership,1,XNA,business,0,32624.825,buy real estate


Al parecer es una sola fila con esta caracteristica y similar a `age`, `gender` no influencia en las preguntas que tenemos que responder asi que podemos darnos el lujo de simplemente dejar ese valor como está.

## <a id='toc2_4_'></a>[Trabajo con duplicados](#toc0_)

Antes de abordar los duplicados implicitos en `purpose` podriamos lidiar con los duplicados explicitos en el DF y para comprobar si no agregamos falsos duplicados hasta ahora vamos a comparar con el DF original.

### <a id='toc2_4_1_'></a>[Trabajo con duplicados explícitos](#toc0_)

In [154]:
# Veamos lado a lado cuantos duplicados tienen
data_set_0 = pd.read_csv('datasets/credit_scoring_eng.csv')
print('Duplicados en data set trabajado:',credit_table.duplicated().sum())
print('Duplicados en data set original:',data_set_0.duplicated().sum())
print('Diferencia:',- data_set_0.duplicated().sum() + credit_table.duplicated().sum() )

Duplicados en data set trabajado: 71
Duplicados en data set original: 54
Diferencia: 17


Bueno, tenemos mas duplicados en el df trabajado, seguramente nacido de homogeneizar todo y lidiar con los duplicados implícitos. Igual, podemos lidiar con eso.
    


In [155]:
# Nos aseguramos de llamar al df original
data_set_0 = pd.read_csv('/datasets/credit_scoring_eng.csv')

# Creamos un filtro con los duplicados del df original
filter = list(data_set_0[data_set_0.duplicated() != 0].index)


FileNotFoundError: [Errno 2] No such file or directory: '/datasets/credit_scoring_eng.csv'

In [None]:
# Eliminamos los duplicados del df original en la tabla que estamos trabajando
credit_table.drop(filter,inplace=True) # Debido a éste cambio inplace ejecutar 2 veces la celda causa un error


In [None]:
#Finalmente creamos una tabla con los falsos duplicados creados por trabajar en el df
filter = credit_table[credit_table.duplicated() != 0].index
dupes_created = data_set_0.iloc[list(filter)]


In [None]:
# Ahora vamos a ver bien los duplicados creados por trabajar la tabla, antes de modificarlos!
dupes_created.info()
dupes_created

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17 entries, 3290 to 20662
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          17 non-null     int64  
 1   days_employed     0 non-null      float64
 2   dob_years         17 non-null     int64  
 3   education         17 non-null     object 
 4   education_id      17 non-null     int64  
 5   family_status     17 non-null     object 
 6   family_status_id  17 non-null     int64  
 7   gender            17 non-null     object 
 8   income_type       17 non-null     object 
 9   debt              17 non-null     int64  
 10  total_income      0 non-null      float64
 11  purpose           17 non-null     object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.7+ KB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
3290,0,,58,Secondary Education,1,civil partnership,1,F,retiree,0,,to have a wedding
6312,0,,30,secondary education,1,married,0,M,employee,0,,building a real estate
7921,0,,64,bachelor's degree,0,civil partnership,1,F,retiree,0,,having a wedding
7938,0,,71,SECONDARY EDUCATION,1,civil partnership,1,F,retiree,0,,having a wedding
9604,0,,71,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
9855,0,,62,secondary education,1,married,0,F,retiree,0,,to get a supplementary education
14097,0,,48,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
14728,0,,46,secondary education,1,civil partnership,1,F,employee,0,,buying property for renting out
15991,0,,51,secondary education,1,civil partnership,1,F,business,0,,having a wedding
16204,0,,56,secondary education,1,married,0,F,retiree,0,,to buy a car


Claramente podemos ver que los duplicados se causan parcialmente por no tener valores en `total_income` y `days_employed` los cuales al ser cualitativos continuos sirven generalmente para diferenciar claramente dos individuos. El resto de los casos deben haber nacido de el .lower() aplicado a `education`.

  La posibilidad de un falso duplicado se encuentra altisimamente baja por una columna principalmente: `purpose`  
¿Por qué?
  
  La posibilidad de que dos personas de la misma edad, con el mismo nivel academico, con la misma situación familiar, con el mismo estado de deuda, del mismo genero y con la misma cantidad de hijos, estén ambas pidiendo un crédito por el mismo motivo explicado de la misma forma es simplemente tan baja que deja las 21000 filas de nuestro df pequeñas en comparación. Así que no, la posibilidad de que tengamos unos falsos duplicados es completamente despreciable (y eso que no contamos el hecho de que en ambos casos sus ingresos/horas trabajadas hayan pasado por el mismo error que causo un NaN en nuestra tabla).

### <a id='toc2_4_2_'></a>[Trabajo con duplicados implícitos](#toc0_)
Ya con la via libre de duplicados explícitos, vamos a por los duplicados implicitos sin miedo ni pena.

In [None]:
# Con los duplicados explicitos de lado, veamos los duplicados implicitos en 'purpose'
credit_table['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [None]:
house = ['purchase of the house','purchase of the house for my family','construction of own property','property','building a property','purchase of my own house','housing']
education = ['supplementary education','to become educated','getting an education','to get a supplementary education','getting higher education','profile education','university education','going to university']
car = ['buying a second-hand car','buying my own car','cars','second-hand car purchase','car','to own a car','purchase of a car','to buy a car','car purchase']
real_state = ['housing transactions','buy real estate','buy commercial real estate','buy residential real estate','transactions with commercial real estate','building a real estate','transactions with my real estate','real estate transactions','buying property for renting out']
wedding = ['to have a wedding','wedding ceremony','having a wedding']

Bueno, al parecer los motivos para pedir un credito se separan en 5 categorias principales, ya con los duplicados implicitos reconocidos solo falta reemplazarlos en el df y ver como queda.

In [None]:
# Ahora vamos a dejar 'purpose' mucho mas limpio
# Es medio tedioso, pero no hay manera facil de automatizarlo
credit_table['purpose'] = credit_table['purpose'].replace(house,'house')
credit_table['purpose'] = credit_table['purpose'].replace(education,'education')
credit_table['purpose'] = credit_table['purpose'].replace(car,'car')
credit_table['purpose'] = credit_table['purpose'].replace(real_state,'real state')
credit_table['purpose'] = credit_table['purpose'].replace(wedding,'wedding')
credit_table['purpose'].unique()

array(['house', 'car', 'education', 'wedding', 'real state',
       'housing renovation'], dtype=object)

La unica categoria que dejé sin cambiar es 'housing renovation' ya que no es exactamente ninguna de las otras y tampoco es que moleste tanto.

Ya con las columnas con problemas evidentes arregladas, indaguemos en las que parecen estar bien.  
Primero veamos `education`

In [None]:
credit_table['education'].value_counts()

secondary education    15188
bachelor's degree       5251
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Bueno, tras realizar una breve investigación sobre los tecnicismos y diferencias entre los diferentes grados de titulos académicos; pude encontrar que un titulo de educación secundaria no es lo mismo que un titulo de bachiller, y que los college solo pueden otorgar titulos de pregrado (o undergraduate) por lo que no parece haber ningún duplicado implícito acá.  

Ahora verificamos si hay alguien con un titulo universitario y una edad anormalmente baja.

In [None]:
credit_table[(credit_table['age'] != 0) & (credit_table['education'] == 'graduate degree')]['age'].min()

36

Bueno, al parecer el más joven de los graduados con una carrera de posgrado tiene 36, lo que es hasta moderadamente alto; pero no somos quien para juzgar.

Ahora vamos a ojear a la columna `income_type` para ver si hay algo raro. Sabemos de antemano que no hay ningun duplicado implícito o alguna cadena de texto rara. Pero abordemos para ver la distribución.

In [None]:
# Veamos los valores en la columna
credit_table['income_type'].value_counts()

employee                       11091
business                        5080
retiree                         3837
civil servant                   1457
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Bueno, no se ve nada muy raro por acá. Capaz que el emprendedor o ese estudiante pidiendo un crédito pero de ahí en más nada extremadamente raro. Tambien podemos ver como ya sabiamos la cantidad de valores que tenian ese detalle de retiree.

In [None]:
credit_table[credit_table['income_type'] == 'student']

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
9410,0,578.751554,22,bachelor's degree,0,unmarried,4,M,student,0,15712.26,house


In [None]:
credit_table[credit_table['income_type'] == 'entrepreneur']

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5936,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,,real state
18697,0,520.848083,27,bachelor's degree,0,civil partnership,1,F,entrepreneur,0,79866.103,wedding


No se ve ningun valor anómalo en esas filas exceptuando que `5936` presenta los valores NaN en `days_employed` y `total_income`

In [None]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   age               21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21471 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


Comenzamos con un dataframe con 21525 filas sin trabajar. De primera notamos las 54 filas eliminadas por ser duplicados explícitos en el df original y si vemos fila por fila notamos que solo las columnas `days_employed` y `total_income` presentan nulos.
  
3445... Que tiene ese numero? Bueno, podemos encontrar 3445 si restamos 42180 a 45625 aunque tambien podemos encontrar que esos numeros son completamente irrelevantes para este proyecto. 
  
Lo que si es relevante e involucra a 3445 es que si restamos la cantidad filas no nulas de `days_employed` a `total_income` obtenemos ese valor. Esas 3445 filas que se presentaban en `days_employed` como valores anomalos cuya simetría no se reflejaba en `total_income` y debimos que eliminar.
  
Ya con los duplicados trabajados, podemos proceder a la siguiente etapa del trabajo.

# <a id='toc3_'></a>[Trabajar con valores ausentes](#toc0_)

Para potencialmente ahorrarnos el trabajo futuro vamos a hacer unos diccionarios que nos permitan transformar los strings de `education` y `family_status` a sus respectivas `id`

In [None]:
# Encuentra los diccionarios
education_to_id = {
    'primary education': 3,
    'secondary education': 1,
    "bachelor's degree": 0,
    'some college': 2,
    'graduate degree': 4
}

family_to_id = {
    'unmarried': 4,
    'civil partnership': 1,
    'married': 0,
    'divorced': 3,
    'widow / widower': 2
}

## <a id='toc3_1_'></a>[Corrección de valores ausentes](#toc0_)

### <a id='toc3_1_1_'></a>[Restaurar valores ausentes en `total_income`](#toc0_)

[Indica brevemente qué columnas tienen valores ausentes que debes abordar. Explica cómo las arreglarás.]

Abordar el trabajo de valores ausentes es un trabajo dificil, pero de suerte ya en el proceso hechamos un buen vistazo. Éste es un trabajo fácil de aplicar pero require de unos pasos y análisis antes de tomar una decisión.
   
[Empieza por abordar los valores ausentes del ingreso total. Crea una categoría de edad para los clientes. Crea una nueva columna con la categoría de edad. Esta estrategia puede ayudar a calcular valores para el ingreso total.]
Para empezar vamos a categorizar la edad de las filas y así darnos una idea de los ingresos de las personas según su edad.

In [None]:
# Antes que nada verificamos cuántos valores de edad 0 y total_income faltante hay en el df
len(credit_table[(credit_table['age'] == 0) & (credit_table['total_income'].isna() == True)])

10

Siendo que 10 filas no representan nada en el df, simplemente vamos a crear una categoría de 0 en vez de buscar reemplazarlas con algun otro valor y capaz que posteriormente las reemplazaremos con un valor que no afecte los resultados como la media o la mediana según corresponda, de ser necesario.

In [None]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(age):
    if 18 <= age <= 29:
        return 'young adult'
    elif 30 <= age <= 49:
        return 'middle adult'
    elif 50 <= age <= 64:
        return 'aged adult'
    elif age >= 65:
        return 'elderly'
    else:    
        return 'not classified'

In [None]:
# Probamos la funcion
print(  age_group(19),
        age_group(31),
        age_group(63),
        age_group(65),
        age_group(0))

young adult middle adult aged adult elderly not classified


In [None]:
# Crear una nueva columna basada en la función
credit_table['age_catg'] = credit_table['age'].apply(age_group)

In [None]:
# Comprobar cómo los valores en la nueva columna
credit_table

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_catg
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,house,middle adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car,middle adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,house,middle adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education,middle adult
4,0,,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding,aged adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,real state,middle adult
21521,0,,67,secondary education,1,married,0,F,retiree,0,24959.969,car,elderly
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,house,middle adult
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,car,middle adult


Reducir el nivel de ingresos de una persona simplemente a su edad es excluir demasiados detalles muy importantes del análisis, es por eso que también buscaré si en nuestra tabla hay patrones relacionados a la `educación` y al `income_type`.

Para poder analizar bien y poder sacar resultados apropiados sería mejor trabajar con una tabla sin valores nulos.

In [None]:
# Puedo tomar como referencia a 'total_income' pues de tomar 'days_employed' excluiría filas que si tienen valores en 'total_income'
clean_table = credit_table[credit_table['total_income'].isna() == False]
clean_table.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   age               19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
 12  age_catg          19351 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Mediante el buen uso de pd.concat() y la funcion .describe() podemos una vez mas comparar lado a lado diferentes cosas de manera rapida, compacta y completa.

In [None]:
# Obviamente, tenemos el problema de que las columnas se llaman todas iguales... pero teniendo el codigo arriba no es tanto
pd.concat(
    [
        clean_table[clean_table['education'] == 'primary education']['total_income'].describe(),   # 1 Estos numeros
        clean_table[clean_table['education'] == 'secondary education']['total_income'].describe(), # 2 estan para
        clean_table[clean_table['education'] == 'graduate degree']['total_income'].describe(),     # 3 saber que columna
        clean_table[clean_table['education'] == 'some college']['total_income'].describe(),        # 4 corresponde a
        clean_table[clean_table['education'] == "bachelor's degree"]['total_income'].describe(),   # 5 que categoria
    ],axis = 1).set_axis(['primary education','secondary education','graduate degree','some college',"bachelor's degree"],axis=1)

Unnamed: 0,primary education,secondary education,graduate degree,some college,bachelor's degree
count,261.0,13693.0,6.0,675.0,4716.0
mean,21144.882211,24594.503037,27960.024667,29045.443644,33142.802434
std,10873.977874,13694.980041,12205.330046,15633.69236,21699.243127
min,4049.374,3306.762,15800.399,5514.581,5148.514
25%,13117.133,15622.582,18005.02925,18240.593,20254.193
50%,18741.976,21836.583,25161.5835,25618.464,28054.531
75%,27119.024,30224.462,38593.8535,36628.288,40005.4655
max,78410.774,276204.162,42945.794,153349.533,362496.645


Gracias a la tabla podemos observar con un buen nivel de detalle que en promedio, a mayor nivel académico nos encontramos con un mayor nivel de ingresos lo cual no es para nada extraño.
  
Aunque lo que si podemos notar es que en el caso de *bachelor's degree* es que presenta una desviación estándar muy alta que se refleja claramente viendo el mínimo y el máximo. El mismo patron puede ser observado un poco mas leve en *some college*. Aún así si observamos las medianas unicamente la conclusión dicha en la primera oración se mantiene.

In [None]:
# Ahora sometamos 'income_type' al mismo análsis
# El unico detalle es que tenemos que aislar las siguientes categorías por tener solo 1 valor en todo el df
print(
' Valor de student:',clean_table[clean_table['income_type'] == 'student']['total_income'].median(),'\n',
'Valor de paternity / maternity leave:',clean_table[clean_table['income_type'] == 'paternity / maternity leave']['total_income'].median(),'\n',
'Valor de entrepreneur:',clean_table[clean_table['income_type'] == 'entrepreneur']['total_income'].median(),)
pd.concat(
    [
        clean_table[clean_table['income_type'] == 'employee']['total_income'].describe(),      # 1
        clean_table[clean_table['income_type'] == 'business']['total_income'].describe(),      # 2
        clean_table[clean_table['income_type'] == 'retiree']['total_income'].describe(),       # 3
        clean_table[clean_table['income_type'] == 'civil servant']['total_income'].describe(), # 4
        clean_table[clean_table['income_type'] == 'unemployed']['total_income'].describe(),    # 5
    ],axis = 1).set_axis(['employee','business','retiree','civil servant','unemployed'],axis=1)


 Valor de student: 15712.26 
 Valor de paternity / maternity leave: 8612.661 
 Valor de entrepreneur: 79866.103


Unnamed: 0,employee,business,retiree,civil servant,unemployed
count,10014.0,4577.0,3443.0,1312.0,2.0
mean,25820.841683,32386.793835,21940.394503,27343.729582,21014.3605
std,14611.602368,20876.975327,12839.512522,15500.602149,16152.074628
min,3418.824,4592.45,3306.762,4672.012,9593.119
25%,16447.3015,20142.039,13261.031,16847.1465,15303.73975
50%,22815.1035,27577.272,18962.318,24071.6695,21014.3605
75%,31492.493,39025.254,27152.069,33467.688,26724.98125
max,276204.162,362496.645,117616.523,145672.235,32435.602


Similar al caso de `education` encontramos que la media y la mediana difieren por no más de un 14% aparte de una cierta coherencia en lo que esperaba que sean los resultados. Pero, con una sola columna (business) presentando una alta desviación estándar aunque se puede explicar fácilmente ya que no es tan alocado pensar que hay empresarios que ganan mucho menos/más que el resto.
  
Vemos como los *business* se encuentran teniendo el mayor nivel de ingresos de todos (paso por alto el caso de **el** entrepreneur ya que bueno... es 1). Ciertamente llama la atención como *unemployed* se encuentra en el 4to puesto pero similar a *entrepreneur* estamos tratando con 2 muestras nada más.
  
Tambien es divertido como .describe() extrapola los datos que tiene en el caso de *unemployed* "fabricando" cuartiles.
  
Sin más que sacar vamos a pasar a observar como se ordenan si vemos por edades!

In [None]:
# Finalmente, vamos a analizar por edades
pd.concat(
    [
        clean_table[clean_table['age_catg'] == 'young adult']['total_income'].describe(),   # 1
        clean_table[clean_table['age_catg'] == 'middle adult']['total_income'].describe(),  # 2
        clean_table[clean_table['age_catg'] == 'aged adult']['total_income'].describe(),    # 3
        clean_table[clean_table['age_catg'] == 'elderly']['total_income'].describe(),       # 4
        clean_table[clean_table['age_catg'] == 'not classified']['total_income'].describe() # 5
    ], axis = 1).set_axis(['young adult','middle adult','aged adult','elderly','not classified'],axis=1)

Unnamed: 0,young adult,middle adult,aged adult,elderly,not classified
count,2884.0,9943.0,5615.0,818.0,91.0
mean,25533.960641,28428.624153,25313.124503,21542.65045,25334.07289
std,13487.650253,17689.976822,15772.284374,13145.449699,11901.096532
min,4494.861,3392.845,3306.762,3471.216,5595.912
25%,16351.3445,17624.2995,15389.627,13006.6505,15933.259
50%,22742.6535,24722.237,21830.25,18471.391,24387.07
75%,30851.3545,34615.1995,30986.7025,26504.0545,34007.9075
max,131588.163,362496.645,274402.943,113428.352,61819.782


El caso de `age_catg` es mucho más curioso que el de las otras columnas en donde se veia un patron marcado con diferencias más grande entre las medianas de los grupos. En ésta tabla vemos como si bien 'middle adult' posee una mediana y una media por encima del resto... la diferencia en las medianas es mucho menor mientras que simultaneamente presenta una desviación estándar mayor que el resto de las categorías.
  
Una cosa más que me sorprende es la homogeneidad que presenta *not classified*, honestamente esperaba más un promedio más bien normal con una desviación estándar grotesca cuando observamos lo contrario teniendo la menor desviación estándar de todas las categorías.
  
Unos valores que si podemos notar alejados del resto son los de *elderly* que poseen casi todos sus valores por debajo de los otros a excepcion de min que tampoco presenta un valor muy alto.

**Conclusion intermedia**
  
Tras observar las columnas `age_catg`, `education` y `income_type`, pudimos notar que en los 3 casos se presentaban patrones levemente diferenciados segun los diferentes tipos dentro de las respectivas categorías.
  
Ninguna columna se destacó por encima de las otras a la hora de vincularse con `total_income` pero ciertamente la columna de `education` fue la que mejor presentó un patrón y fácil de ver sobre como influía sobre `total_income`.
  
Que sea fácil de ver no quiere decir que sea el único pues `age_catg` e `income_type` tambien presentan patrones que se ven claramente siendo que el orden de las medianas y las medias no varía entre los tipos compartiendo las posiciones más allá de que tan distribuidos se encuentren.

[Determina qué características definen mejor los ingresos y decide si utilizarás una mediana o una media. Explica por qué tomaste esta decisión.]
De lo observado previamente podemos sacar que las 3 columnas analizadas presentan una influencia en `total_income`. Por lo tanto, vamos a hacer una funcion un tanto compleja para ayudarnos a fabricar valores correspondientes para cada número faltante tomando las 3 columnas por igual.
  
De todas formas, usaremos las medianas y no las medias debido a que las medias estan claramente sesgadas para valores más altos de una manera tan grande que sobrepone los valores atípicamente bajos en el mismo conjunto.

In [None]:
# Primero haremos unos diccionarios que nos serviran despues
edu_medians = {
        'primary education'  :clean_table[clean_table['education'] == 'primary education']['total_income'].median(),
        'secondary education':clean_table[clean_table['education'] == 'secondary education']['total_income'].median(),
        'graduate degree'    :clean_table[clean_table['education'] == 'graduate degree']['total_income'].median(),
        'some college'       :clean_table[clean_table['education'] == 'some college']['total_income'].median(),
        "bachelor's degree"  :clean_table[clean_table['education'] == "bachelor's degree"]['total_income'].median(), 
}

income_type_medians = {
        'employee'      :clean_table[clean_table['income_type'] == 'employee']['total_income'].median(),
        'business'      :clean_table[clean_table['income_type'] == 'business']['total_income'].median(),
        'retiree'       :clean_table[clean_table['income_type'] == 'retiree']['total_income'].median(),
        'civil servant' :clean_table[clean_table['income_type'] == 'civil servant']['total_income'].median(),
        'unemployed'    :clean_table[clean_table['income_type'] == 'unemployed']['total_income'].median(),

        'entrepreneur'  :clean_table['total_income'].median(),              # Para estos 3 casos como tenemos 1 solo valor
        'student'       :clean_table['total_income'].median(),              # vamos a tomar la mediana
        'paternity / maternity leave':clean_table['total_income'].median(), # de la tabla completa
}

age_medians = {
        'young adult'    :clean_table[clean_table['age_catg'] == 'young adult']['total_income'].median(),   
        'middle adult'   :clean_table[clean_table['age_catg'] == 'middle adult']['total_income'].median(),  
        'aged adult'     :clean_table[clean_table['age_catg'] == 'aged adult']['total_income'].median(),    
        'elderly'        :clean_table[clean_table['age_catg'] == 'elderly']['total_income'].median(),       
        'not classified' :clean_table[clean_table['age_catg'] == 'not classified']['total_income'].median()
}

# Ahora escribiremos una función que usaremos para completar los valores ausentes
def get_income(row):
    if np.isnan(row['total_income']):
        total_income_value = ((edu_medians[row['education']]       # Para obtener el valor sacamos un promedio 
                          +income_type_medians[row['income_type']] # de la mediana de cada categoria 
                          +age_medians[row['age_catg']])/3)        # a la que pertenece la fila
        return total_income_value
    else:
        return row['total_income']

In [None]:
# Nos fijamos con que fila probaremos la funcion
credit_table[credit_table['total_income'].isna() == True]

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_catg
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,wedding,elderly
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education,middle adult
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,real state,aged adult
41,0,,50,secondary education,1,married,0,F,civil servant,0,,car,aged adult
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,wedding,aged adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,secondary education,1,married,0,M,business,0,,car,middle adult
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding,aged adult
21497,0,,48,bachelor's degree,0,married,0,F,business,0,,house,middle adult
21502,1,,42,secondary education,1,married,0,F,employee,0,,real state,middle adult


In [None]:
# Comprueba si funciona
get_income(credit_table.loc[12,:])

19756.764

Entonces, la fila 12 tiene *secondary education* (mediana de 21836.58), *retiree* (mediana de 18962.31) y *elderly* (mediana de 18471.39). Al hacer los calculos manualmente vemos que efectivamente nos encontramos calculando de forma acorde al plan para un mismo resultado al de la función.

In [None]:
# Antes de nada, vamos a comparar que tanto modifica la media y mediana nuestro "relleno"
print(credit_table['total_income'].median())
print(credit_table.apply(get_income,axis=1).median())
print('')
print(credit_table['total_income'].mean())
print(credit_table.apply(get_income,axis=1).mean())

23202.87
23124.641166666668

26787.568354658677
26450.69077213451


In [None]:
# Viendo que la funcion no afecta significativamente los valores de la tabla, podemos reemplazar efectivamente
credit_table['total_income'] = credit_table.apply(get_income,axis=1)

In [None]:
# Comprobamos si hay algun nan que se pasó por alto y vemos en más detalle el df
print(credit_table['total_income'].isna().sum())
credit_table['total_income'].describe()

0


count     21471.000000
mean      26450.690772
std       15682.974814
min        3306.762000
25%       17224.844000
50%       23124.641167
75%       31320.304000
max      362496.645000
Name: total_income, dtype: float64

Ahora como formalidad vamos a hacer un escaneo general sobre el df con nuestra querido metodo info()

In [None]:
# Comprobar el número de entradas en las columnas
credit_table.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     15906 non-null  float64
 2   age               21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
 12  age_catg          21471 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.8+ MB


### <a id='toc3_1_2_'></a>[ Restaurar valores en `days_employed`](#toc0_)

A diferencia de `total_income`, no hay muchas columnas que se puedan relacionar facilmente sin hacer supuestos muy débiles exceptuando `age`.
  
En el caso de `age` vamos a partir del supuesto de que las personas empiezan a trabajar a partir de los 17 años. Sabiendo que un año tiene 52,1429 semanas en promedio y que 5/7 días son laborales normalmente llegamos a que en un año sin vacaciones tendremos 260,71 dias laborales sin contar por feriados ni vacaciones.
Por supuesto, no podemos dejar de lado los feriados ni las vacaciones así que partiremos de que en Argentina hay 19 feriados nacionales pero ese valor está dentro de los valores más altos así que diremos que hay 14 feriados.
Tambien vamos tomar en cuenta que para que un feriado efectivamente reemplace a un día laboral, tiene que caer en un día laboral. Así que hacemos lo mismo de vuelta y lo multiplicamos por 5/7 para obtener un hermoso 10. Y por ultimo debemos restar unos... 20 días de vacaciones lo que si bien es por encima de los que puede tomar alguien con poco tiempo en una empresa pero por debajo de alguien con buen tiempo y la diferencia es de unos meros 5 dias.
  
En conclusión, terminamos con que en un año una persona trabaja alrededor de 230 días y debería tener alrededor de (`age`-17)x230 días trabajados. Pero no conviene analizar año por año, sino mejor utilizar la columna de `age_catg` para hacer le proceso menos laborioso.

In [None]:
# Distribución de las medianas de `days_employed` en función de la categoria de edad
for catg in ('young adult','middle adult','aged adult','elderly','not classified'):
    print(catg,':',
          credit_table[(credit_table['age_catg'] == catg) & (credit_table['days_employed'].isna() == False)]['days_employed'].median())


young adult : 996.7615438477428
middle adult : 1770.9743520681052
aged adult : 2305.343288102804
elderly : 2876.221697406744
not classified : 1560.9004309732854


In [None]:
# Distribución de las medias de `days_employed` en función de la categoria de edad
for catg in ('young adult','middle adult','aged adult','elderly','not classified'):
    print(catg,':',
          credit_table[(credit_table['age_catg'] == catg) & (credit_table['days_employed'].isna() == False)]['days_employed'].mean())


young adult : 1209.9282667131636
middle adult : 2366.347585651723
aged adult : 3327.6589880085116
elderly : 4010.4783566644305
not classified : 2200.375774574603


Al ver los números de la tabla y comparar con nuestros supuestos de los valores esperados para cada categoría nos enfrentamos a que tanto en la mediana como en la media observamos unos valores entre 2 a 2,5 veces menos de lo esperado.
  
De todas formas si se observa un patron en el que mientras mayor sea el individuo mayor es su cantidad de horas totales. Tambien observamos que los *not classified* se presentan con valores entre *young adult* y *middle adult*. Ésto nos dice que posiblemente los que poseen edad 0 se presenten entre los 18 a 49 años, por supuesto no podemos concluir que eso es completamente cierto.
  
Otra cosa que es importante destacar es que se ve como en todas las categorías la mediana se presenta por debajo de la media (y no por poco) lo que nos da un indicio de que seguramente hay valores atípicos con lo que al menos en lo que la categoria de edad respecta, conviene más la mediana como reemplazo.

In [None]:
# Vamos a observar como se comportan las horas según los hijos
# Distribución de las medianas de `days_employed` en función de la cantidad de hijos
for children in range(0,6):
    print(children,':',
          credit_table[(credit_table['children'] == children) & (credit_table['days_employed'].isna() == False)]['days_employed'].median())


0 : 1665.5624270106564
1 : 1547.3822226779334
2 : 1645.9670023426931
3 : 1690.8396283595414
4 : 1877.3491588111349
5 : 1231.5714864842407


In [None]:
# Distribucion de las medias de 'days_employed' en funcion de la cantidad de hijos
for children in range(0,6):
    print(children,':',
          credit_table[(credit_table['children'] == children) & (credit_table['days_employed'].isna() == False)]['days_employed'].mean())


0 : 2485.1391411969707
1 : 2164.879352164304
2 : 2130.167284453594
3 : 2176.013406952528
4 : 2179.915392327252
5 : 1432.348601195278


Al parecer no se presenta ningún patron claro sobre la influencia de la cantidad de hijos y los dias trabajados de una persona. Honestamente esperaba ver que la gente con mayor numero de hijos presente una leve baja en la cantidad de dias por las licencias.

Sin más preambulo ni posibilidad de analizar alguna colummna que pueda estar relacionada a la cantidad de trabajo por persona vamos a saltar directamente al reemplazo.
  
En éste caso voy a utilizar las edades categorizadas como guía para completar `days_employed`, particularmente las medianas debido a que la diferencia que poseen con el promedio demuestra la presencia de valores atípicos en nuestro datos.

In [None]:
# Primero hagamos un diccionario que nos sirva en la funcion
total_age_dict = {}
for catg in credit_table['age_catg'].unique():
    total_age_dict[catg] = credit_table[(credit_table['age_catg'] == catg) & 
                                  (credit_table['days_employed'].isna() == False)]['days_employed'].median()

In [None]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def get_days(row):
    if np.isnan(row['days_employed']):
        days_employed_value = total_age_dict[row['age_catg']]
        return days_employed_value
    else:
        return row['days_employed']

In [None]:
# Comprueba que la función funciona
get_days(credit_table.loc[4,:])

2305.343288102804

In [None]:
print((credit_table.loc[4,'age_catg']),'\n \n',credit_table[(credit_table['age_catg'] == 'aged adult') & 
                                  (credit_table['days_employed'].isna() == False)]['days_employed'].median())

aged adult 
 
 2305.343288102804


In [None]:
# Viendo que funcionó, veamos el impacto sobre los datos
print(credit_table['days_employed'].median())
print(credit_table.apply(get_days,axis=1).median())
print('')
print(credit_table['days_employed'].mean())
print(credit_table.apply(get_days,axis=1).mean())

1630.0193809778218
2001.117072757052

2353.0159319988766
2311.199945880382


Sube la mediana y baja la media. Eso tiene sentido ya que la mayoria de las medianas en la categoria de edades superan a la mediana general. Por una parte me gusta que la media y la mediana se acerquen entre sí ya que acomoda los datos, pero antes de hacer el cambio efectivo quisiera ver un poco de la distribución de edad en la tabla.

In [None]:
credit_table['age_catg'].value_counts()

middle adult      11021
aged adult         6270
young adult        3181
elderly             898
not classified      101
Name: age_catg, dtype: int64

In [None]:
credit_table[credit_table['days_employed'].isna() == True]['age_catg'].value_counts()

aged adult        3217
middle adult      1236
elderly            781
young adult        304
not classified      27
Name: age_catg, dtype: int64

Viendo los dos value_counts lado a lado nos damos cuenta claramente que llevó a la subida de la mediana dado que la mayoria de los valores que reemplazamos posee una "mediana por categoria" que se situa por encima de la mediana general (incluso agregando más valores que *young adult* quienes tienen la mediana más baja).
  
Viendo esas dos tablas me quedo tranquilo ya que conseguí la explicación que buscaba.

In [None]:
# Ahora si vamos a aplicar de manera efectiva la funcion

credit_table['days_employed'] = credit_table.apply(get_days,axis=1)

In [None]:
# Verificamos con un querido isna() y sum() 
print(credit_table['days_employed'].isna().sum())

0


In [None]:
# Finalmente un último info() y un describe()
credit_table.info()
credit_table[['days_employed','total_income']].describe()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     21471 non-null  float64
 2   age               21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
 12  age_catg          21471 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.8+ MB


Unnamed: 0,days_employed,total_income
count,21471.0,21471.0
mean,2311.199946,26450.690772
std,1997.047662,15682.974814
min,24.141633,3306.762
25%,996.761544,17224.844
50%,2001.117073,23124.641167
75%,2869.109182,31320.304
max,18388.949901,362496.645


## <a id='toc3_2_'></a>[Clasificación de datos](#toc0_)

[Para poder responder a las preguntas y probar las diferentes hipótesis, querrás trabajar con datos clasificados. Mira las preguntas formuladas que debes responder. Piensa qué parte de los datos tiene que ser clasificada para responder a estas preguntas. A continuación, encontrarás una plantilla a través de la cual puedes trabajar para clasificar los datos. El primer procesamiento paso a paso cubre los datos de texto; el segundo aborda los datos numéricos que necesitan ser clasificados. Puedes usar ambas o ninguna de las instrucciones sugeridas, eso solo depende de ti.]
A la hora de clasificar los datos tenemos que buscar un balance entre reducir la cantidad de categorías encontradas en los datos sin simplificar tanto la cuestion.
  
En nuestro contexto vamos a buscar simplificar las columnas pertinentes a la hora de contestar las preguntas ya planteadas. Primero las veamos de vuelta:
* ¿Hay alguna conexión entre tener hijos y pagar un préstamo a tiempo?
* ¿Existe una conexión entre el estado civil y el pago a tiempo de un préstamo?
* ¿Existe una conexión entre el nivel de ingresos y el pago a tiempo de un préstamo?
* ¿Cómo afectan los diferentes propósitos del préstamo al reembolso a tiempo del préstamo?

Podemos ver claramente que las columnas pertinentes para nuestras preguntas son `children`, `family_status`, `total_income`, `purpose` y `debt`. Para nuestra suerte `children` y `family_status` ya vienen "clasificadas" o mejor dicho buscar clasificarlas más solo simplificaría demasiado la cuestión y no podríamos responder las preguntas de forma efectiva.
  
Mientras tanto si bien `purpose` vino con una complejidad bastante alta, previamente ya trabajamos con ella y el trabajo de clasificarla ya está hecho.
  
Por lo tanto, la única fila que nos queda por acomodar es `total_income` así que vamos a ello!

In [None]:
# Primero veamos bien como se distribuye 'total_income'
credit_table['total_income'].describe()

count     21471.000000
mean      26450.690772
std       15682.974814
min        3306.762000
25%       17224.844000
50%       23124.641167
75%       31320.304000
max      362496.645000
Name: total_income, dtype: float64

Bueno, claramente podemos ver que entre el 75% y el 100% hay un salto bastante grande, lo cual no es sorpresa ya que estamos tratando una columna relacionada directamente a los ingresos de una persona. Lo que quiero encontrar ahora es ese gran salto para marcar ese límite y poder clasificar de ahí.

In [None]:
# Primero probemos un poco de brute force, capaz que eso nos soluciona el problema bastante rapido
credit_table['total_income'].quantile([0.8,0.85,0.9,0.95,0.99,1])

0.80     34327.3710
0.85     37996.8675
0.90     43165.5000
0.95     53034.1590
0.99     80870.2867
1.00    362496.6450
Name: total_income, dtype: float64

Al parecer el salto que nosotros buscamos se encuentra incluso más arriba que el 99%. Hagamos una ojeada más directa de los valores altos.


In [None]:
# Observamos bien como se comporta el 1% por encima del resto
credit_table[credit_table['total_income'] >= 80807.2867]['total_income'].describe()

count       216.000000
mean     112615.656630
std       44578.842784
min       80849.713000
25%       86869.902000
50%       96885.019000
75%      113571.722250
max      362496.645000
Name: total_income, dtype: float64

Para clasificar las filas vamos a utilizar los mismos valores obtenidos en el describe y una ultima categoria por encima de 91000 para una categoría especial para los ingresos más altos.
  
El motivo por el que elijo 91000 es por que en el describe de arriba notamos como conforme subimos la distancia entre los cuartiles se empiezan a distanciar aún más así que elegí el percentil 37.5 y me parece un buen punto medio como para diferenciar entre una categoría y otra.
  
Y el motivo por el cual elijo los límites de las otras categorías de tal manera es tan simple en que me va a separar grupos similares en cantidad por lo que no va a haber un grupo (dentro de los "normales") que tenga más precisión que otro.

In [None]:
#Creamos una funcion para clasificar los ingresos
def classify_income(row):
    if row['total_income'] <= 17224.844:
        return 'low income'
    elif row['total_income'] <= 23124.641167:
        return 'middle-low income'
    elif row['total_income'] <= 31320.304:
        return 'middle-high income'
    elif row['total_income'] < 91000:
        return 'high income'
    else:
        return 'super-high income'

In [None]:
# Probamos la funcion
credit_table.apply(classify_income,axis=1).value_counts()

middle-low income     5490
low income            5368
middle-high income    5245
high income           5235
super-high income      133
dtype: int64

In [None]:
# Viendo que los resultados son lo esperado vamos a aplicar la funcion y crear una nueva columna
credit_table['income_catg'] = credit_table.apply(classify_income,axis=1)

In [None]:
# Veamos la tabla ahora, seguro será un poco de más ancha para Jupyter ahora
credit_table

Unnamed: 0,children,days_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_catg,income_catg
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,house,middle adult,high income
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car,middle adult,middle-low income
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,house,middle adult,middle-high income
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,education,middle adult,high income
4,0,2305.343288,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,wedding,aged adult,middle-high income
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,real state,middle adult,high income
21521,0,2876.221697,67,secondary education,1,married,0,F,retiree,0,24959.969,car,elderly,middle-high income
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,house,middle adult,low income
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,car,middle adult,high income


Ya con nuestra tabla arreglada y lista, vamos a poner a prueba las hipótesis!

## <a id='toc3_3_'></a>[Comprobación de las hipótesis](#toc0_)


In [None]:
# Antes de comprobar las hipotesis, obtengamos un valor control
100*(credit_table['debt'].sum()/len(credit_table))

8.108611615667645

Entonces tenemos que en general sin filtrar por ningún tipo de categoría, el 8.1% de las personas fallan en pagar su credito.

**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
# Primero sacamos la suma total y de los deudores
children_count = credit_table.groupby('children')['debt'].count()
children_sum = credit_table.groupby('children')['debt'].sum()

# Despues calculamos la tasa de inclumplimiento
children_percentage = 100*children_sum/children_count

# Finalmente cargamos todo en una tabla
children_debt = pd.concat([children_count,children_sum,children_percentage]
                          ,axis=1).set_axis(['total','deudores','proporcion'],axis=1)

In [None]:
# Veamos la tabla
children_debt

Unnamed: 0_level_0,total,deudores,proporcion
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14107,1063,7.535266
1,4856,445,9.163921
2,2128,202,9.492481
3,330,27,8.181818
4,41,4,9.756098
5,9,0,0.0


**Conclusión**

Al ver la tabla que hicimos podemos notar que el no tener hijos genera una proporcion del 7,5% de pago mientras que a partir de 1 hijo ya hay un salto de 2%. 
  
Ciertamente es llamativo el caso de los 3 hijos y el caso de 5 hijos, pero si subimos el numero de personas que fallaron el pago en 3 ya llegamos al 9% (y con 5 llegamos al 9,5%) aparte de que 8.18% sigue siendo más que 7,5%.
  
Otra cosa que llama la atención es que no tenemos ninguna persona que tenga 5 hijos haya fallado en pagar su crédito, eso podría ser un buen argumento, si tan solo no tuviesemos 9 personas totales. Con una cantidad de muestras tan chica, simplemente no podemos asumir lo mejor mucho menos cuando todas las evidencias previas apuntan a lo contrario.
  
Finalmente podemos tener certeza de que efectivamente tener hijos ubica la tasa de impago por encima de la tasa general del 8.1%
  
Por lo tanto: 
  
**¿Existe una correlación entre tener hijos y pagar a tiempo?**
  
*Si, de lo que pudimos observar se ve no solo que tener hijos en sí aumenta la probabilidad de que una persona no logre pagar su credito a tiempo; sino tambien que conforme aumenta la cantidad de hijos dicha probabilidad aumenta también aunque no tan bruscamente como la diferencia de tenerlos o no.*

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Primero sacamos la suma total y de los deudores
family_count = credit_table.groupby('family_status')['debt'].count()
family_sum = credit_table.groupby('family_status')['debt'].sum()

# Despues calculamos la tasa de inclumplimiento
family_percentage = 100*family_sum/family_count

# Finalmente cargamos todo en una tabla
family_debt = pd.concat([family_count,family_sum,family_percentage]
                          ,axis=1).set_axis(['total','deudores','proporcion'],axis=1)

In [None]:
# Veamos la tabla
family_debt.sort_values('proporcion',ascending=False)

Unnamed: 0_level_0,total,deudores,proporcion
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
unmarried,2810,274,9.75089
civil partnership,4163,388,9.320202
married,12344,931,7.542126
divorced,1195,85,7.112971
widow / widower,959,63,6.569343


**Conclusión**
  
Lo primero que notamos es que todas las categorias poseen un buen numero total de personas, eso nos da algo de tranquilidad ya que tenemos un cierto grado de certeza en lo que vemos.
  
Ahora, a los numeros: podemos observar como en proporcion *unmarried* y *civil partnership* son los más propensos a fallar el pago de un prestamo en ese orden; despues con un salto de ~1% observamos como *married* y *divorced* se ubican con 7.5% y 7.1% respectivamente, y finalmente *widow/widower* se ubica al final con un sorprendente 6.57% de impagos.
  
Claramente vemos tanto una correlación positiva (fallan sus pagos más) con los casos de *unmarried* y *civil partnership* ubicandose por encima del 8.1% de control y varias relaciones negativas siendo *widow/widower* la más negativa ya que todas tienen una tasa de impago por debajo de la control.
  
Por lo tanto:
  
**¿Existe una correlación entre la situación familiar y el pago a tiempo?**
  
*Si, vemos como si una persona no se encuentra casada o solo tuvo un casamiento civil es más propensa a fallar sus pagos en los creditos. Mientras tanto por el contrario una perona casada con ceremonia o divorciada es un poco menos propensa a fallar el pago de sus creditos, y por ultimo una persona viuda es la menos propensa a fallar el pago de su credito.* 
  
*Cabe destacar que en el caso de alguien divorciado o viudo estamos sacando conclusiones con la menor cantidad de datos por lo que ante la presencia de una mayor cantidad de datos esas conclusiones pueden cambiar.*

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Primero sacamos la suma total y de los deudores
income_count = credit_table.groupby('income_catg')['debt'].count()
income_sum = credit_table.groupby('income_catg')['debt'].sum()

# Despues calculamos la tasa de inclumplimiento
income_percentage = 100*income_sum/income_count

# Finalmente cargamos todo en una tabla
income_debt = pd.concat([income_count,income_sum,income_percentage]
                          ,axis=1).set_axis(['total','deudores','proporcion'],axis=1)


In [None]:
# Veamos la tabla
income_debt.sort_values('proporcion',ascending=False)

Unnamed: 0_level_0,total,deudores,proporcion
income_catg,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
middle-low income,5490,490,8.925319
middle-high income,5245,441,8.408008
low income,5368,427,7.954545
high income,5235,375,7.163324
super-high income,133,8,6.015038


**Conclusión**

En el caso de income vemos que la clase media en conjunto se ubica por encima del 8.1% control que obtuvimos previamente siendo la rama de mayor ingresos un poco menos propensa a fallar el pago de su credito. Tambien notamos que las puntas de los datos (low, high y super-high income) tienen una tasa mayor de pago de sus creditos a tiempo siendo super-high los que más probabilidades tienen de pagarlo (en papel). Aunque, una persona de ingresos bajos posee una tasa de impagos practicamente igual a la control.
  
No podemos ignorar el hecho de que separar los datos arbitrariamente en 4 sectores casi iguales debe haber influenciado en los datos, aunque prefiero asi ya que casi todas las categorias tienen el mismo nivel de confianza por poseer aproximadamente la misma cantidad de datos.
  
Y claramente tenemos que hablar del elefante en el cuarto que son los super-high, acá tenemos el problema de que más allá de cuantos datos obtengamos, siempre vamos a tener proporcionalmente numeros muy bajos en la cantidad de personas que entren en esa categoría. De todas formas tenemos que reconocer que en nuestro caso si estamos hablando de una cantidad neta baja con menos de 150 personas.

Por lo tanto:
  
**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**
  
*Si, vemos claramente como si una persona pertenece a la clase media tiene más probabilidades de lo normal de no pagar su credito a tiempo, mientras que una persona que se pare en las puntas del espectro tiene por el contrario menos probabilidades de lo normal y (en base a los numeros que vemos) si una persona se ubica en el escalafón más alto de los ingresos posee una probabilidad bastante más baja de pagar sus creditos fuera de tiempo.*

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Primero sacamos la suma total y de los deudores
purpose_count = credit_table.groupby('purpose')['debt'].count()
purpose_sum = credit_table.groupby('purpose')['debt'].sum()

# Despues calculamos la tasa de inclumplimiento
purpose_percentage = 100*purpose_sum/purpose_count

# Finalmente cargamos todo en una tabla
purpose_debt = pd.concat([purpose_count,purpose_sum,purpose_percentage]
                          ,axis=1).set_axis(['total','deudores','proporcion'],axis=1)


In [None]:
purpose_debt.sort_values('proporcion',ascending=False)

Unnamed: 0_level_0,total,deudores,proporcion
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,4308,403,9.354689
education,4014,370,9.217738
wedding,2335,186,7.965739
real state,5770,436,7.556326
house,4437,311,7.00924
housing renovation,607,35,5.766063


**Conclusión**
  
Similar a `family_status` podemos observar una buena distribución de los datos respecto a las categorias dandonos un cierto nivel de confianza en los resultados obtenidos.
  
Empecemos por arriba, vemos claramente que las unicas categorías ubicadas por encima del número control (8,1%) son *car* y *education* con un 9.3% y 9.2% respectivamente. De ahí en más el resto de categorias se ubican por debajo de nuestro valor control aunque *wedding* solo se distancia un mero 0.1% por lo que no me parece bien afirmar que efectivamente esas personas son menos propensas a fallar un pago de lo normal.
  
Algo que tambien vemos claramente es que *house*, *housing renovation* y *real state* se ubican todos por debajo del 8.1% obtenido previamente con una diferencia de hasta 2.3%. De haber agrupado *housing renovation* con *house* seguramente veriamos que *house* presentaria valores menores a los que vemos ahora mismo sin llegar a ese 5.8% claro está.
  
Es medio contrastante como la categoria que representa la carga económica más grande (un auto) se ubica en "el podio" con lo que sería la inversión más grande que hay que es la educación. Aunque bueno, es verdad que la educación es una inversion a largo plazo que muchas veces supera en tiempo a los limites de pago de un credito.
  
Por lo tanto:
  
**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**
  
*Más allá de lo que digan los datos, se puede hacer un análisis sobre como el motivo por el cual piden el credito va a influenciar si van a poder pagar el credito a tiempo o no, es predecible que alguien que buscar iniciar un negocio o potenciar el que ya tiene presentara condiciones más favorables que alguien que compra un activo como un auto ya que por encima de pagar el credito tambien debe pagar el mantenimiento del mismo, o alguien que busca pagarse una educacion ya que esa persona tendrá que seguir gastando en consumibles. En resumen, más que un análisis aislado sobre como afecta el proposito a la tasa de cumplimiento tambien convendria hacer un estudio observando las variables y factores que se escapan de la posibilidad de las tablas.*
  
*Tampoco quiero dejar sin destacar que por la forma de ésta tabla, es muy posible que las conclusiones respecto al proposito estén mal dadas ya que si queremos analizar la causalidad entre el proposito y el fallo de un pago sería mejor evaluar los pagos que fallaron en pagar y cual es el proposito por el que sacaron ese credito que finalmente no llegaron a pagar a tiempo.*
  
*Finalmente, si bien la tabla presenta una cierta escala mostrando los propositos y las tasas impagas, no hay que olvidarse que la casualidad no implica causalidad y que si queremos analizar una categoría tan amplia y profunda como la tasa de incumplimiento respecto al motivo por el que alguien saca un credito; me parece que se requiere de un analisis más detallado y con otra orientacion buscando no si esa persona falló un pago o no, pero si lo hizo cual era el motivo original.*

# <a id='toc4_'></a>[Conclusión general](#toc0_)

Para ésta conclusión general vamos a partir de arriba para abajo.
  
Primero nos encontramos con los valores faltantes en las tablas `total_income` y `days_employed` que presentaban una simetría de tal manera que si faltaban los datos en uno si o si faltaban en otro. No parecían demostrar un patrón particular ya que en el resto de las columnas se comportaban muy similar al resto del dataframe, por lo que podemos hipotetizar de que dichas filas fueron cargadas desde una misma fuente y en el proceso de llegar a nuestras manos pasó algo que dejó esos valores de tal forma. Los motivos pueden ir desde que nunca fueron cargadas en primer lugar hasta que alguien accidentalmente las eliminó al unirlas con la tabla general, de cualquier forma habría que hacer un *backtrack* en la busqueda de todos los pasos que incurrieron dichas columnas para llegar a nuestra disposición.
  
De las primeras cosas que decidimos hacer fue reemplazar el nombre de la columna `dob_years` por `age` para más facilidad a la hora de trabajar aparte de aplicar .lower() a los valores de la columna `education` que presentaba una heterogeneidad sobre categorias que eran las mismas pero algunas estaban con mayúsculas, otras capitalizadas y otras minúsculas. Ese accionar fue una daga de doble filo pues si nos permitió analizar con más eficiencia posteriormente a costa de crear varios duplicados que a mi interpretación eran nacidos originalmente de la falta de valores en `credit_table` y `days_employed`.
  
El siguiente paso tomado fue realizar un análisis de la tabla completa para observar bien los valores extraños que tengan aparte y empezar a orientarnos para un correcto trabajo de la misma. Primero fuimos por los fáciles reemplazando (o no) valores anomalos en las tablas `age`, `children`, `gender` y `days_employed`.
   
Posteriormente nos topamos que en las columnas que sí tenian valores en `days_employed` se manifestaban 2 tipos.
* Primero unas 3445 filas positivas con cifras absurdamente altas que claramente no eran posibles para ningún ser humano. El motivo atras de eso puede ser tan simple como que estaban cargadas en horas o alguna otra unidad que no sea día. Para evitar sacar conclusiones erroneas sobre el problema de los datos, directamente se decidió reemplazarlas por un valor nulo. Un patrón que si se notó en dichas filas es que casi todas presentaban la columna `income_type` como *retiree*, lo cual nos da el indicio de que posiblemente vengan todas de la misma fuente la cual sin mucha evidencia atribuyo que es alguna relacionada a personas con jubilación adelantada por discapacidad.
* El otro tipo de filas que nos encontramos eran filas negativas bastante variadas con números mucho mas coherentes con la realidad y distribuidos de una forma mas amplia (al contrario de los numeros positivos). Sobre ellos no hubo mucho que hacer más que multiplicarlos por -1 despues de eliminar los positivos.

Tras finalizar el análisis de la columna `days_employed` fuimos directamente a trabajar con los duplicados explícitos en la tabla. Ahí es donde nos topamos con las consecuencias de nuestras acciones y por ello tuvimos que recurrir a unas técnicas en las cuales extraíamos los indices de los valores duplicados en la tabla original sin editar para no tener que eliminar más valores de lo necesario.
  
Con los duplicados explícitos fuera de la mesa pasamos a los duplicados implícitos, principalmente enfocados en la columna `purpose` cuyo accionar nos ahorró trabajo posteriormente. Previo a eso, explicamos que la gran variedad de valores en la columna `purpose` sería nuestra piedra angular para tener la certeza de que los duplicados en la tabla original se iban a encontrar altamente limitados. En retrospectiva, no es malo en absoluto que una o más columnas categóricas vengan con una alta presencia de duplicados implícitos ya que nos dan esa seguridad a prueba de duplicados por encima de la que dan las columnas cualitativas continuas y sirven como un plan de refuerzo en el caso que tuvimos en el que falten valores en las cualitativas continuas.
  
Ya con los duplicados fuera de la escena pasamos directamente a reemplazar los valores nulos en las columnas `days_employed` y `total_income`. Para ésta parte se buscó el comportamiento de otras columnas en relación a las 2 columnas previamente mencionadas y en base a lo descubierto se buscó reemplazar los valores nulos con números que modifiquen el comportamiento general de la tabla en lo menos posible prestando atención a columnas que sí teniamos. 
* En el caso de `days_employed` se encontró que se presentaban unos numeros muy por debajo de lo esperado según un análisis previo y si bien se lo destacó, tampoco se ahondó tanto en el tema debido a que no jugaban un rol clave en contestar las preguntas tratadas. 
* Para nuestra suerte, la columna `total_income` no presentaba tales problemas y si bien el reemplazo tuvo más impacto que el de la columna `days_employed` eso se debe a que menos columnas presentaban un patron respecto a `days_employed` y tambien debido a que teniamos muchas filas que bajo el analisis hecho se ubicaban por encima de la mediana general.
  
Cabe destacar que en ésta etapa la presencia de valores con `age` 0 se hizo notar ya que dicha columna nos fue muy útil para el reemplazo de `days_employed` y `total_income`. Si habría que hacer un *backtrack* sobre qué causó ese error con el objetivo de evitar el mismo error pero que afecte a una cantidad mayor de filas ya que eso sería catastrófico.
  
Ahora, respecto a las preguntas y las conclusiones obtenidas. En las primeras 3 preguntas se pueden sacar conclusiones más concretas debido a que son preguntas cerradas a un si o no. El caso de la cuarta pregunta es más complicado de contestar concretamente debido a que es una pregunta más abierta y que plantea una situación que no necesariamente puede ser contestada por la informacion que tenemos, pues para poder hacerlo habría que indagar más sobre los datos y su origen.
  
El segundo motivo recien dado es un punto que quiero debatir en ésta conclusion es que la columna `debt` dice si alguna vez la persona falló en pagar un credito a tiempo pero nunca se especifica hace cuanto y si la persona sigue en las mismas condiciones que cuando falló dicho pago. Esa pregunta es clave ya que en las condiciones correctas puede indicar que estamos sacando conclusiones sobre datos que ya no influyen o que no influian sobre si en un futuro va a pagar el credito en tiempo y forma.
  
En resumen, sería lo ideal hacer un rastreo de por qué surgieron los problemas en las columnas `total_income`, `days_employed`, `age` y `income_type`. No digo de investigar individualmente cada uno, pues es claro que los valores ausentes de `total_income` y `days_employed` van de la mano y el origen debe ser el mismo. El mismo caso se da para `income_type` y `days_employed` ya que el patrón que se observó con los *retiree* hace más que evidente que comparten la misma ruta problematica. Finalmente hago incapie una vez más en `age` pues esa columna debe ser la columna más importante si ignoramos las preguntas puesto que la edad de una persona sirve no solo para completar datos sino tambien para descubrir errores y si tuviesemos un problema generalizado sobre ella, completarla sería muy dificil por no decir imposible.