# Prediccion de Default en Prestamos


Para este proyecto utilizaremos un sample de los datos de Lending Club. La idea es predecir si cierto usuario cometera Default basado en informacion que la plataforma recolecta. Esto nos ayudara a mejorar la metodologia/pipeline de prestamo.


# Descripcion



Contiene los prestamos de esta plataforma:

    periodo 2007-2017Q3.
    887mil observaciones, sample de 100mil
    150 variables
    Target: loan status



# Objetivo

Realizar un ETL y un EDA

## ETL

0. Limpia los datos de tal manera que al final del ETL queden en formato `tidy`.
1. Asegurate de cargar y leer los datos
2. Crea una tabla donde se guarde el nombre de la columna y el tipo de dato: (`column_name`,   `type`).
3. Asegurate de pensar cual es el tipo de dato correcto. Porque elejiste strig/object o float o int?. No hay respuestas incorrectas como tal, pero tienes que justificar tu decision.
4. Maneja missings o nans de la manera adecuada. Justifica cada decision







## EDA

0. Preparar lo datos para un pipeline de datos
1. Quitar columnas inservibles 
2. Imputar valores
3. Mantener replicabildiad y reproducibilidad

**No olvides anotar tus justificaciones en celdas para recordar cuando te toque explicarlo.** Puedes agregar el numero de celdas que necesites para poner tu explicacion y el codigo, solo manten la estructura.

# ETL

Importamos las librerías que vamos a necesitar para la limpieza y procesamiento de datos.

In [219]:
import pandas as pd
import numpy as np

Vas a obtener 2 errores, solucionalo con los visto en clase.  
Tip: Se arreglan con argumentos adicionales de la funcion `read_csv`  
Documentacion: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html 

Agregamos los comandos de `compression='gzip'` y `index_col=0` para descomprimir el archivo que estamos leyendo con formato gzip e indicar en la lectura que la primera columna del dataset es el índice de nuestro DataFrame de pandas. En este fragmento cargamos y leemos los datos a partir de un URL y los guardamos en la variable `loans`.

In [220]:
loans = pd.read_csv('https://github.com/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/LoansData_sample.csv.gz?raw=true',
                    compression='gzip',
                    index_col=0)
loans

  loans = pd.read_csv('https://github.com/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/LoansData_sample.csv.gz?raw=true',


Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,38098114,,15000.0,15000.0,15000.0,60 months,12.39,336.64,C,C1,...,,,Cash,N,,,,,,
1,36805548,,10400.0,10400.0,10400.0,36 months,6.99,321.08,A,A3,...,,,Cash,N,,,,,,
2,37842129,,21425.0,21425.0,21425.0,60 months,15.59,516.36,D,D1,...,,,Cash,N,,,,,,
3,37612354,,12800.0,12800.0,12800.0,60 months,17.14,319.08,D,D4,...,,,Cash,N,,,,,,
4,37662224,,7650.0,7650.0,7650.0,36 months,13.66,260.20,C,C3,...,,,Cash,N,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,22454240,,8400.0,8400.0,8400.0,36 months,9.17,267.79,B,B1,...,,,Cash,N,,,,,,
99996,11396920,,10000.0,10000.0,10000.0,36 months,12.99,336.90,C,C1,...,,,Cash,N,,,,,,
99997,8556176,,30000.0,30000.0,30000.0,60 months,20.99,811.44,E,E4,...,,,Cash,N,,,,,,
99998,24023408,,8475.0,8475.0,8475.0,36 months,24.99,336.92,F,F4,...,,,Cash,N,,,,,,


## Tabla (column_name, type)

Revisa el metodo pd.DataFrame.dtypes. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html 

En este bloque creamos una tabla donde se guarda el nombre de la columna y el tipo de dato: (`column_name`,   `type`). De esta forma podemos acceder rápidamente a los tipos de datos y decidir sobre ellos.

In [221]:
# Crear el DataFrame con los tipos de columna
column_types = pd.DataFrame(loans.dtypes, columns=['Type'])

# Resetear el índice para que el nombre de la columna sea una columna separada y no sea el índice de la tabla
column_types.reset_index(inplace=True)

# Renombrar las columnas para que queden como deseamos
column_types.columns = ['column_name', 'type']
column_types


Unnamed: 0,column_name,type
0,id,int64
1,member_id,float64
2,loan_amnt,float64
3,funded_amnt,float64
4,funded_amnt_inv,float64
...,...,...
145,settlement_status,object
146,settlement_date,object
147,settlement_amount,float64
148,settlement_percentage,float64


### Revisamos los valores únicos por columna

De esta forma, podemos saber si existe consistencia en los datos (hay índices únicos, cada columna representa una variable, cada fila una observación). De esta forma podemos determinar que la tabla ya esta en formato `tidy`.

In [222]:
# Creamos la tabla de valores únicos
unique_values = pd.DataFrame(loans.nunique(), columns=['Unique Values'])

# Resetear el índice para que el nombre de la columna sea una columna separada y no sea el índice de la tabla
unique_values.reset_index(inplace=True)

# Renombrar las columnas para que queden como deseamos
unique_values.columns = ['column_name', 'unique_values']
unique_values

Unnamed: 0,column_name,unique_values
0,id,100000
1,member_id,0
2,loan_amnt,1254
3,funded_amnt,1254
4,funded_amnt_inv,1299
...,...,...
145,settlement_status,3
146,settlement_date,35
147,settlement_amount,1244
148,settlement_percentage,264


## Cargar descripcion de columnas

La siguiente tabla tiene una descripcion del significado de cada columna:

In [223]:
# Creamos la tabla con las descripciones de las columnas
datos_dict = pd.read_excel(
    'https://resources.lendingclub.com/LCDataDictionary.xlsx')

# Indicamos las columnas para que queden como deseamos, con la primera columna como 'feature' 
# (observación) y la segunda como 'description' (descripción de la variable).
datos_dict.columns = ['feature', 'description']
datos_dict


Unnamed: 0,feature,description
0,acc_now_delinq,The number of accounts on which the borrower is now delinquent.
1,acc_open_past_24mths,Number of trades opened in past 24 months.
2,addr_state,The state provided by the borrower in the loan application
3,all_util,Balance to credit limit on all trades
4,annual_inc,The self-reported annual income provided by the borrower during registration.
...,...,...
148,settlement_amount,The loan amount that the borrower has agreed to settle for
149,settlement_percentage,The settlement amount as a percentage of the payoff balance amount on the loan
150,settlement_term,The number of months that the borrower will be on the settlement plan
151,,


### Pickle

Crea codigo para **guardar** y **cargar** el DataFrame de `datos_dict` creada en las celdas anteriores en formato **pickle**

In [224]:
# Importamos la libería necesaria para guardar el DataFrame en un pickle
import pickle

In [225]:
# Codigo guardar (guarda el DataFrame 'datos_dict' en un archivo llamado 'datos_dict.pkl')
with open('datos_dict.pkl', 'wb') as f:
    pickle.dump(datos_dict, f)

In [226]:
# Codigo para cargar (lee el archivo 'datos_dict.pkl' -que es un pickle- y lo guarda en la variable 'datos_dictpkl')
with open('datos_dict.pkl', 'rb') as f:
    datos_dictpkl = pickle.load(f)
datos_dictpkl

Unnamed: 0,feature,description
0,acc_now_delinq,The number of accounts on which the borrower is now delinquent.
1,acc_open_past_24mths,Number of trades opened in past 24 months.
2,addr_state,The state provided by the borrower in the loan application
3,all_util,Balance to credit limit on all trades
4,annual_inc,The self-reported annual income provided by the borrower during registration.
...,...,...
148,settlement_amount,The loan amount that the borrower has agreed to settle for
149,settlement_percentage,The settlement amount as a percentage of the payoff balance amount on the loan
150,settlement_term,The number of months that the borrower will be on the settlement plan
151,,


In [227]:
# Codigo para guardar el DataFrame de loans (en un archivo llamado 'loans.pkl' -que es un pickle-)
with open('loans.pkl', 'wb') as f:
    pickle.dump(loans, f)

In [228]:
# Codigo para cargar el DataFrame de loans (lee el archivo 'loans.pkl' -que es un pickle- y lo guarda en la variable 'loanspkl')
with open('loans.pkl', 'rb') as f:
    loanspkl = pickle.load(f)
loanspkl

Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,38098114,,15000.0,15000.0,15000.0,60 months,12.39,336.64,C,C1,...,,,Cash,N,,,,,,
1,36805548,,10400.0,10400.0,10400.0,36 months,6.99,321.08,A,A3,...,,,Cash,N,,,,,,
2,37842129,,21425.0,21425.0,21425.0,60 months,15.59,516.36,D,D1,...,,,Cash,N,,,,,,
3,37612354,,12800.0,12800.0,12800.0,60 months,17.14,319.08,D,D4,...,,,Cash,N,,,,,,
4,37662224,,7650.0,7650.0,7650.0,36 months,13.66,260.20,C,C3,...,,,Cash,N,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,22454240,,8400.0,8400.0,8400.0,36 months,9.17,267.79,B,B1,...,,,Cash,N,,,,,,
99996,11396920,,10000.0,10000.0,10000.0,36 months,12.99,336.90,C,C1,...,,,Cash,N,,,,,,
99997,8556176,,30000.0,30000.0,30000.0,60 months,20.99,811.44,E,E4,...,,,Cash,N,,,,,,
99998,24023408,,8475.0,8475.0,8475.0,36 months,24.99,336.92,F,F4,...,,,Cash,N,,,,,,


## Tipos de Datos

Realiza las transformaciones o casteos (casting) que creas necesarios a tus datos de tal manera que el typo de dato sea adecuado. Al terminar recrea la tabla `column_types` con los nuevos tipos.

No olvides anotar tus justificaciones para recordar cuando te toque explicarlo.

Haremos una revisión general de los tipos con sus columnas para determinar si el tipo que se asignó es correcto, si no, cambiarlo y justificar por qué elegimos ese tipo. Después, haremos una reducción de tamaño de los tipos.

In [229]:
# Observar los tipos de columnas que tenemos 
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

# Union de los DataFrames de tipo de columnas y descripción de columnas. Tumbamos la columna 'feature' para que no se repita.
merged_df = column_types.merge(datos_dict, left_on='column_name', right_on='feature', how='inner').drop(columns=['feature'])
merged_df

Unnamed: 0,column_name,type,description
0,id,int64,A unique LC assigned ID for the loan listing.
1,member_id,float64,A unique LC assigned Id for the borrower member.
2,loan_amnt,float64,"The listed amount of the loan applied for by the borrower. If at some point in time, the credit department reduces the loan amount, then it will be reflected in this value."
3,funded_amnt,float64,The total amount committed to that loan at that point in time.
4,funded_amnt_inv,float64,The total amount committed by investors for that loan at that point in time.
5,term,object,The number of payments on the loan. Values are in months and can be either 36 or 60.
6,int_rate,float64,Interest Rate on the loan
7,installment,float64,The monthly payment owed by the borrower if the loan originates.
8,grade,object,LC assigned loan grade
9,sub_grade,object,LC assigned loan subgrade


In [230]:
# Regresamos a observar solo algunos valores.
pd.reset_option('display.max_rows', 'display.max_colwidth')

In [231]:
# Manejos de tipos 1
# Por los valores únicos, podemos ver que no existe la necesidad de que sea un 'object', puede ser un int8. 
# Elegí convertirla a int8 porque solo puede guardar 36 o 60 (meses).
# Suponiendo que la columna se llama 'term'
loans['term'] = loans['term'].str.replace(' months', '', regex=False)
loans['term'] = loans['term'].astype('int8')
loans['term'].unique()


array([60, 36], dtype=int8)

In [232]:
# Manejo de tipos 2
# La columna de pymnt_plan indica si existe un plan de pagos, solo existen los valores 'y' y 'n', por lo que es un boolean.
# Reemplazar 'y' con True y 'n' con False, luego convertir a tipo booleano
loans['pymnt_plan'] = loans['pymnt_plan'].replace({'y': True, 'n': False}).astype(bool)
loans['pymnt_plan'].unique()

  loans['pymnt_plan'] = loans['pymnt_plan'].replace({'y': True, 'n': False}).astype(bool)


array([False,  True])

In [233]:
# Manejo de tipos 3
# El zip_code tiene los primeros 3 dígitos por confidencialidad y luego xx en todos los casos, por lo que es innecesario.
# Elegí convertirlo a np.np.np.np.np.np.np.np.int16 para que el código postal (aunque sean solo los primeros 3 dígitos) sean de tipo entero.
# Eliminar 'xx' y convertir a int16
loans['zip_code'] = loans['zip_code'].str.replace('xx', '', regex=False).astype('int16')
loans['zip_code'].unique()

array([235, 937, 658, 953, 850,  77, 554, 201, 982, 208, 483, 331, 144,
       606, 403, 112, 926, 852, 329, 304, 760, 754, 567, 960, 333, 463,
       467, 810, 336, 114, 770, 853, 629, 273, 363, 704, 958,  64,  60,
       395, 802, 328, 925, 303, 277, 670, 358, 130, 327, 560, 283, 196,
       452, 324, 841, 300, 728, 210, 600,  76, 368, 402, 967, 631, 787,
       881, 439, 232, 900, 117, 620, 774, 863, 234, 104,  32, 789, 223,
       481, 379, 356, 907, 337, 750,  15, 347, 601, 637, 265, 672,  80,
       800, 442, 574, 922, 310, 951, 871, 762, 917, 410, 179,  23, 207,
       330,  16, 751, 928, 857, 494, 840,  88, 916, 730, 782, 189, 294,
       571, 170, 975, 995, 236, 190, 217, 206, 902, 949, 945, 553, 981,
       105, 880, 100, 785, 372, 957, 781, 166, 604, 350, 971, 290, 145,
       231, 191, 302, 193, 447, 109, 322, 972, 939, 783, 761, 803, 462,
       908, 563, 721, 927, 370,  70, 920, 735, 707, 919, 891,  86, 497,
       980, 988, 708,  19, 113, 276, 912, 123, 440, 780, 906, 94

In [234]:
# Manejo de tipos 4
# Convertir la columna 'delinq_2yrs' a tipo entero, ya que todos sus valores son enteros auqnue el tipo sea float64.
# Además, el valor máximo es 21, por lo que basta con 8 bits para representarlo.
loans['delinq_2yrs'] = loans['delinq_2yrs'].astype('int8')
loans['delinq_2yrs'].unique()

array([ 0,  1,  3,  2,  4,  6,  5, 11, 13,  9, 12,  8,  7, 10, 21, 14, 22,
       15, 19, 16, 17, 18], dtype=int8)

In [235]:
# Manejo de tipos 5
# En este caso, aunque estén como floats, los puntajes FICO son enteros, y necesitamos 16 bits para representarlos, según mi investigación.
loans['fico_range_high'] = loans['fico_range_high'].astype('int16')
loans['fico_range_low'] = loans['fico_range_low'].astype('int16')
loans['last_fico_range_high'] = loans['last_fico_range_high'].astype('int16')
loans['last_fico_range_low'] = loans['last_fico_range_low'].astype('int16')

In [236]:
# Manejo de tipos 6
# En estas columnas, el tipo debería de ser entero en lugar de float(64). Representan meses o números enteros pequeños (8-bits).
# No hay una explicación conceptual, solamente las variables representan cosas enteras y no hay ningún valor decimal.
loans['inq_last_6mths'] = loans['inq_last_6mths'].astype('int8') # Mes
loans['open_acc'] = loans['open_acc'].astype('int8') # Número
loans['pub_rec'] = loans['pub_rec'].astype('int8') # Número
loans['collections_12_mths_ex_med'] = loans['collections_12_mths_ex_med'].astype('int8') # Mes
loans['policy_code'] = loans['policy_code'].astype('int8') # Es 1 o 2
loans['acc_now_delinq'] = loans['acc_now_delinq'].astype('int8') # Número
loans['acc_open_past_24mths'] = loans['acc_open_past_24mths'].astype('int8') # Mes
loans['chargeoff_within_12_mths'] = loans['chargeoff_within_12_mths'].astype('int8') # Número
loans['mo_sin_old_rev_tl_op'] = loans['mo_sin_old_rev_tl_op'].astype('int8') # Mes
loans['mo_sin_rcnt_rev_tl_op'] = loans['mo_sin_rcnt_rev_tl_op'].astype('int8') # Mes 
loans['mo_sin_rcnt_tl'] = loans['mo_sin_rcnt_tl'].astype('int8') # Mes
loans['mort_acc'] = loans['mort_acc'].astype('int8') # Número
loans['num_accts_ever_120_pd'] = loans['num_accts_ever_120_pd'].astype('int8') # Número
loans['num_actv_bc_tl'] = loans['num_actv_bc_tl'].astype('int8') # Número
loans['num_actv_rev_tl'] = loans['num_actv_rev_tl'].astype('int8') # Número
loans['num_bc_sats'] = loans['num_bc_sats'].astype('int8') # Número
loans['num_bc_tl'] = loans['num_bc_tl'].astype('int8') # Número
loans['num_il_tl'] = loans['num_il_tl'].astype('int8') # Número
loans['num_op_rev_tl'] = loans['num_op_rev_tl'].astype('int8') # Número
loans['num_rev_accts'] = loans['num_rev_accts'].astype('int8') # Número
loans['num_rev_tl_bal_gt_0'] = loans['num_rev_tl_bal_gt_0'].astype('int8') # Número
loans['num_sats'] = loans['num_sats'].astype('int8') # Número
loans['num_tl_30dpd'] = loans['num_tl_30dpd'].astype('int8') # Número
loans['num_tl_90g_dpd_24m'] = loans['num_tl_90g_dpd_24m'].astype('int8') # Número
loans['num_tl_op_past_12m'] = loans['num_tl_op_past_12m'].astype('int8') # Número
loans['tax_liens'] = loans['tax_liens'].astype('int8') # Número


In [237]:
# Manejo de tipos 7
# En este caso, se tiene una bandera que toma dos valores, si y no, por lo que computacionalmente es un booleano que representa el hardship.
# Convertir 'Y' a True y 'N' a False, luego convertir a booleano.
loans['hardship_flag'] = loans['hardship_flag'].map({'Y': True, 'N': False}).astype(bool)
loans['hardship_flag'].unique()

array([False,  True])

In [238]:
# Manejo de tipos 8
# En este caso, se tiene una bandera que toma dos valores, si y no, por lo que computacionalmente es un booleano que representa el debt_settlement.
# Convertir 'Y' a True y 'N' a False, luego convertir a booleano.
loans['debt_settlement_flag'] = loans['debt_settlement_flag'].map({'Y': True, 'N': False}).astype(bool)
loans['debt_settlement_flag'].unique()

array([False,  True])

Una vez que se tienen manualmente corregidos los tipos incoherentes, ahora se quiere reducir su especio en memoria, por lo que, en el siguiente bloque, se reducen (si es posible) el uso de memoria (int64->int32,16,8, igual con float).

In [239]:
# Manejo de tipos 9
# Creamos una función que intenta reducir el tamaño de las columnas numéricas (int o float) de un DataFrame
def reduce_numeric_dtype(df):
    for col in df.select_dtypes(include=['int64', 'float64']).columns:
        col_data = df[col]
        
        # Saltar la columna si contiene NaNs
        if col_data.isna().any():
            continue
        
        # Para columnas enteras
        if pd.api.types.is_integer_dtype(col_data):
            if col_data.min() >= np.iinfo(np.int8).min and col_data.max() <= np.iinfo(np.int8).max:
                df[col] = col_data.astype(np.int8)
            elif col_data.min() >= np.iinfo(np.int16).min and col_data.max() <= np.iinfo(np.int16).max:
                df[col] = col_data.astype(np.int16)
            elif col_data.min() >= np.iinfo(np.int32).min and col_data.max() <= np.iinfo(np.int32).max:
                df[col] = col_data.astype(np.int32)
            # No se hace nada si solo cabe en int64

        # Para columnas de punto flotante
        elif pd.api.types.is_float_dtype(col_data):
            if col_data.min() >= np.finfo(np.float16).min and col_data.max() <= np.finfo(np.float16).max:
                df[col] = col_data.astype(np.float16)
            elif col_data.min() >= np.finfo(np.float32).min and col_data.max() <= np.finfo(np.float32).max:
                df[col] = col_data.astype(np.float32)
            # No se hace nada si solo cabe en float64

# Uso del método en el DataFrame loans
reduce_numeric_dtype(loans)


#### Recreación de la tabla column_types

In [240]:
# Crear el DataFrame con los tipos de columna
column_types = pd.DataFrame(loans.dtypes, columns=['Type'])

# Resetear el índice para que el nombre de la columna sea una columna separada y no sea el índice de la tabla
column_types.reset_index(inplace=True)

# Renombrar las columnas para que queden como deseamos
column_types.columns = ['column_name', 'type']
column_types


Unnamed: 0,column_name,type
0,id,int32
1,member_id,float64
2,loan_amnt,float16
3,funded_amnt,float16
4,funded_amnt_inv,float16
...,...,...
145,settlement_status,object
146,settlement_date,object
147,settlement_amount,float64
148,settlement_percentage,float64


In [241]:
# Ver los tipos de datos únicos en el DataFrame
unique_dtypes = loans.dtypes.unique()
unique_dtypes

array([dtype('int32'), dtype('float64'), dtype('float16'), dtype('int8'),
       dtype('O'), dtype('float32'), dtype('bool'), dtype('int16')],
      dtype=object)

#### Explicación de No-modificación

Estas son las columnas que revisé para ver si hacían sentido los tipos que indicaba la tabla creada al inicio de la sección.
Además, cheque las demás columnas para determinar cuales contenían NaNs y, por lo tanto, hay que manejarlas en la siguiente sección. Estas son solo algunas de las columnas para guiar mi decisión de porque no las modifique.

In [242]:
# loans['grade'] - son caracteres (letras)
# loans['sub_grade'] - son caracteres (letras y números)
# loans['emp_length'] - no solo son los años, también hay 10+, por lo que puede ser object
# loans['verification_status'] - no es un boolean, hay 3 tipos de valores
# loans['issue_d'] - está bien que guarde el mes y año como string
# loans['earliest_cr_line'].unique() - mismo caso que issue_id
# loans['initial_list_status'].unique() - no puede ser boolean aunque solo sean dos valores
# loans['total_rec_prncp'] - si tiene decimales, no puede ser entero

# Las columnas que terminan en _d tienen la fecha en formato Mmm-AAAA, no las modifico

## Manejo de NaNs o missings

Maneja los datos de tipos missing. Elije una estrategia adecuada dependiendo del tipo de dato que le asignaste a la columna.


Crea codigo para **guardar** y **cargar** un archivo JSON en el que se guarde la `estrategia` y `valor` que utilizaste para **imputar**. Por ejemplo: Si hay una columna que se llama `columna 3` y utilizaste la estrategia de imputacion de media, y existe otra llamada `columna 4` y  elegiste la palabra 'missing' el JSON debera contener:  
  
 `{'columna 3':{'estrategia':'mean', 'valor':3.4}, 'columna 4':{'estrategia':'identificador', 'valor':'missing'}}`  

 De tal manera que para cada columna que tenga un metodo de imputacion apunte a otro diccionario donde el **key** `estrategia` describa de manera sencilla el metodo, y el **key** `valor` el valor usado. En general:   
 `{'nombre de la columna':{'estrategia':'descripcion de estrategia', 'valor':'valor utilizado'}}`. 
 

De utilizar mas de un metodo puedes anidarlos en una lista  
  `[{...},{...}]`.  

Incluso si la columna utilizada no sufrio imputacion, es necesario que la agregues al JSON.

La idea es que cualquier otra persona pueda cargar el el archivo JSON con tu funcion, entender que hiciste y replicarlo facilmente. No existe solo una respuesta correcta, pero tendras que justificar y explicar tus deciciones.

### Imputacion

Primero, vamos a observar cuales columnas tienen un NaN o valores faltantes. Esto lo dividiremos en numéricas y no numéricas (object), ya que los booleanos ya revisamos que solo hubiera verdadero o falso en la signación de tipos del bloque anterior.

In [243]:
# Necesitaremos ver todas
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

def check_negatives_and_zeros(df):
    # Seleccionar columnas numéricas
    numeric_cols = df.select_dtypes(include=['number']).columns
    
    # Listas para almacenar información sobre columnas con ceros y negativos
    cols_with_negatives = []
    cols_with_zeros = []
    
    # Revisar cada columna numérica
    for col in numeric_cols:
        col_data = df[col]
        
        # Verificar si la columna tiene valores negativos y contar cuántos hay
        negative_count = (col_data < 0).sum()
        if negative_count > 0:
            cols_with_negatives.append({'column_name': col, 'data_type': col_data.dtype, 'negative_count': negative_count})
        
        # Verificar si la columna tiene valores cero y contar cuántos hay
        zero_count = (col_data == 0).sum()
        if zero_count > 0:
            cols_with_zeros.append({'column_name': col, 'data_type': col_data.dtype, 'zero_count': zero_count})
    
    # Convertir las listas a DataFrames
    df_negatives = pd.DataFrame(cols_with_negatives)
    df_zeros = pd.DataFrame(cols_with_zeros)
    
    return df_negatives, df_zeros

# Uso del método en el DataFrame loans
df_negatives, df_zeros = check_negatives_and_zeros(loans)

# Mostrar los DataFrames
print("Columnas con valores negativos y su conteo:")
print(df_negatives)

print("\nColumnas con valores cero y su conteo:")
df_zeros

Columnas con valores negativos y su conteo:
             column_name data_type  negative_count
0   mo_sin_old_rev_tl_op      int8           54875
1  mo_sin_rcnt_rev_tl_op      int8              87
2         mo_sin_rcnt_tl      int8               5
3              num_il_tl      int8               1

Columnas con valores cero y su conteo:


Unnamed: 0,column_name,data_type,zero_count
0,dti,float16,21
1,delinq_2yrs,int8,79396
2,inq_last_6mths,int8,58490
3,mths_since_last_delinq,float64,125
4,mths_since_last_record,float64,2
5,pub_rec,int8,83268
6,revol_bal,float32,252
7,revol_util,float64,273
8,out_prncp,float16,86151
9,out_prncp_inv,float16,86151


Por lo que estuve revisando, las columnas numericas si tienene tienen valores con cero, esto tiene sentido en la mayoría de casos, ya que se trata de cantidades monetarias o duraciones de tiempo que bien podrían tener sentido y ocurren cuando no se satisface alguna condición. Por otro lado, las columnas con valores negativos podrían no tener sentido, ya que se tratan de intervalos de tiempo (en meses) desde la última vez que se abrió una cuenta de cierto tipo. El otro caso con negativos es el número de cuentas instaladas. Pero, como podemos ver, más de la mitad contiene negativos en uno de los parámetros de meses, por lo que debe de tener un sentido. Así que, la interpretación que yo le di para los meses es que es un error de captura de valor absoluto y el numérico solo tiene una ocurrencia, por lo que podemos tratarlo con la media.

In [244]:
def fix_negative_values(df):
    # Columnas que queremos procesar y sus estrategias
    cols_to_abs = ['mo_sin_old_rev_tl_op', 'mo_sin_rcnt_rev_tl_op', 'mo_sin_rcnt_tl']
    col_to_mean = 'num_il_tl'
    
    # Aplicar valor absoluto a las columnas seleccionadas
    for col in cols_to_abs:
        df[col] = df[col].apply(lambda x: abs(x) if x < 0 else x)
    
    # Reemplazar valores negativos en la columna 'num_il_tl' con la media de los valores positivos
    mean_value = df[col_to_mean][df[col_to_mean] >= 0].mean()
    df[col_to_mean] = df[col_to_mean].apply(lambda x: mean_value if x < 0 else x)

# Uso del método en el DataFrame loans
fix_negative_values(loans)

# Mostrar las primeras filas para verificar los cambios
print(loans[['mo_sin_old_rev_tl_op', 'mo_sin_rcnt_rev_tl_op', 'mo_sin_rcnt_tl', 'num_il_tl']].head())

   mo_sin_old_rev_tl_op  mo_sin_rcnt_rev_tl_op  mo_sin_rcnt_tl  num_il_tl
0                    12                      1               1        8.0
1                    34                      1               1        2.0
2                   120                      7               7       16.0
3                    86                     21              16        1.0
4                   108                      8               8       12.0


In [245]:
# Filtrar columnas que tienen al menos un NaN
cols_with_nans = loans.columns[loans.isna().any()]

# Crear un DataFrame con el nombre de la columna y su tipo
df_nans_info = pd.DataFrame({
    'column_name': cols_with_nans,
    'data_type': loans[cols_with_nans].dtypes.values
})

# Mostrar el DataFrame
df_nans_info

Unnamed: 0,column_name,data_type
0,member_id,float64
1,emp_title,object
2,emp_length,object
3,desc,object
4,mths_since_last_delinq,float64
5,mths_since_last_record,float64
6,revol_util,float64
7,last_pymnt_d,object
8,next_pymnt_d,object
9,last_credit_pull_d,object


Después de analizar las columnas que contienen NaNs, me di cuenta que hay algunas que dependen de las banderas booleanas que convertimos en el bloque anterior, por lo que, no tendría sentido que tuvieran un valor. Si son de tipo `object` (string) en lugar de NaN, lo sustituiremos por un N/A, y si es de tipo numérico, lo cambiaremos por un -1 para saber que no aplica.

In [246]:
# Lista de columnas a procesar
columns_depend_flags = [
    'settlement_term', 'hardship_dpd', 'total_pymnt_inv', 'total_pymnt', 
    'last_pymnt_amnt', 'last_pymnt_d', 'next_pymnt_d', 'hardship_type', 
    'hardship_reason', 'hardship_status', 'defferal_term', 'hardship_amount', 
    'hardship_start_date', 'hardship_end_date', 'payment_plan_start_date', 
    'hardship_length', 'hardship_loan_status', 'hardship_payoff_balance_amount', 
    'hardship_last_payment_amount', 'debt_settlement_flag_date', 'settlement_status', 
    'settlement_date', 'settlement_amount', 'settlement_percentage', 'deferral_term',
    'orig_projected_additional_accrued_interest', 'orig_projected_additional_accrued_interest',
]

# Aplicar imputación condicional
for col in columns_depend_flags:
    if col in loans.columns:
        # Verificar el tipo de dato de la columna
        if loans[col].dtype == 'object':
            # Reemplazar NaNs con 'N/A' para columnas de tipo object
            loans[col] = loans[col].fillna('N/A')
        elif pd.api.types.is_numeric_dtype(loans[col]):
            # Reemplazar NaNs con -1 para columnas de tipo numérico
            loans[col] = loans[col].fillna(-1)

In [247]:
# Filtrar columnas que tienen al menos un NaN
cols_with_nans = loans.columns[loans.isna().any()]

# Crear un DataFrame con el nombre de la columna y su tipo
df_nans_info = pd.DataFrame({
    'column_name': cols_with_nans,
    'data_type': loans[cols_with_nans].dtypes.values
})

# Mostrar el DataFrame
df_nans_info

Unnamed: 0,column_name,data_type
0,member_id,float64
1,emp_title,object
2,emp_length,object
3,desc,object
4,mths_since_last_delinq,float64
5,mths_since_last_record,float64
6,revol_util,float64
7,last_credit_pull_d,object
8,mths_since_last_major_derog,float64
9,annual_inc_joint,float64


En el resto de columnas, si son de tipo `object` (string), como no dependen de banderas booleanas, significa que los datos no se capturaron, y, en lugar de tener NaNs en esos campos, vamos a colocar **"MISSING"** para indicar que no se registró. Por otro lado, los valores numéricos que todavía tienen NaNs vamos a utilizar la estrategia de imputarlos con la media, esto para no alterar ese valor estadísticos. Si requerimos un análisis estadístico de esas columnas antes de alterar los demás estadísticos, lo hacemos en este momento.

In [248]:
# Iterar sobre las columnas que tienen NaNs
for col in cols_with_nans:
    # Verificar si la columna es numérica
    if col in loans.columns and pd.api.types.is_numeric_dtype(loans[col]):
        print(f"Resumen estadístico para la columna '{col}':")
        print(loans[col].describe())
        print("\n" + "-"*40 + "\n")


Resumen estadístico para la columna 'member_id':
count    0.0
mean     NaN
std      NaN
min      NaN
25%      NaN
50%      NaN
75%      NaN
max      NaN
Name: member_id, dtype: float64

----------------------------------------

Resumen estadístico para la columna 'mths_since_last_delinq':
count    51297.000000
mean        33.522526
std         21.702020
min          0.000000
25%         15.000000
50%         30.000000
75%         49.000000
max        141.000000
Name: mths_since_last_delinq, dtype: float64

----------------------------------------

Resumen estadístico para la columna 'mths_since_last_record':
count    16732.000000
mean        69.394215
std         27.871347
min          0.000000
25%         50.000000
50%         67.000000
75%         89.000000
max        120.000000
Name: mths_since_last_record, dtype: float64

----------------------------------------

Resumen estadístico para la columna 'revol_util':
count    99944.000000
mean        55.434985
std         23.460328
min 

In [249]:
# Iterar sobre las columnas que tienen NaNs
for col in cols_with_nans:
    if col in loans.columns:
        # Imputar la media para columnas numéricas de tipo float64
        if loans[col].dtype == 'float64':
            mean_value = loans[col].mean()
            loans[col] = loans[col].fillna(mean_value)
        # Imputar "MISSING" para columnas de tipo object (string)
        elif loans[col].dtype == 'object':
            loans[col] = loans[col].fillna("MISSING")

In [250]:
# Filtrar columnas que tienen al menos un NaN
cols_with_nans = loans.columns[loans.isna().any()]

# Crear un DataFrame con el nombre de la columna y su tipo
df_nans_info = pd.DataFrame({
    'column_name': cols_with_nans,
    'data_type': loans[cols_with_nans].dtypes.values
})

# Mostrar el DataFrame
df_nans_info

Unnamed: 0,column_name,data_type
0,member_id,float64
1,annual_inc_joint,float64
2,dti_joint,float64
3,verification_status_joint,float64
4,open_acc_6m,float64
5,open_act_il,float64
6,open_il_12m,float64
7,open_il_24m,float64
8,mths_since_rcnt_il,float64
9,total_bal_il,float64


Las columnas que quedan son columnas en las que todos los valores son NaNs, por lo que no se puede calcular la media e imputarlo. En este caso, decidí llenar las columnas de 0s. De esta forma indicamos (como toda la columna es de 0s) que no esta registrado el valor, pero si podría aplicar.

In [251]:
# Iterar sobre las columnas que tienen NaNs
for col in cols_with_nans:
    if col in loans.columns:
        if loans[col].dtype == 'float64':
            loans[col] = loans[col].fillna(0)
            
# Filtrar columnas que tienen al menos un NaN
cols_with_nans = loans.columns[loans.isna().any()]

# Crear un DataFrame con el nombre de la columna y su tipo
df_nans_info = pd.DataFrame({
    'column_name': cols_with_nans,
    'data_type': loans[cols_with_nans].dtypes.values
})

# Mostrar el DataFrame
df_nans_info

Unnamed: 0,column_name,data_type


Vemos que ya no tenemos NaNs en nuestro DataFrame de loans.

In [252]:
# Regresamos a observar solo algunos valores.
pd.reset_option('display.max_rows', 'display.max_colwidth')

Finalmente, noté que member_id si estaba llena de NaNs, pero como un identificador si podría ser 0, quise poner -1 para evitar confusiones de que todos los préstamos son del mismo miembro (con member_id = 0) y así, con -1 es como si n aplicara, no se registró pero podría aplicar, solo que el 0 se confundiría.

In [253]:
# Rellenamos el member_id con '-1' para que no sea un NaN y sepamos que no obtuvimos el dato.
loans['member_id']= loans['member_id'].replace(0, -1)

# Cambiamos el tipo de dato a int64 y lo mantenemos numérico por si en algún momento se recibe el id del miembro. Los id son numéricos según la descripción de la columna.
loans['member_id'] = loans['member_id'].astype('int8')
loans['member_id'].unique()

array([-1], dtype=int8)

#### Volver a reducir el tamaño de las columnas y mostraar los tipos

In [254]:
reduce_numeric_dtype(loans)
loans.dtypes.unique()

array([dtype('int32'), dtype('int8'), dtype('float16'), dtype('O'),
       dtype('float32'), dtype('bool'), dtype('int16')], dtype=object)

### Codigo para salvar y cargar JSONs

#### Salvar

In [255]:
import json

# Función para convertir float16 a un tipo compatible con JSON (float)
def convert_floats_for_json(data):
    """
    Convierte valores float16 en el diccionario a float para hacerlos compatibles con JSON.
    
    :param data: Diccionario de datos.
    :return: Diccionario con valores convertidos.
    """
    if isinstance(data, dict):
        return {k: convert_floats_for_json(v) for k, v in data.items()}
    elif isinstance(data, list):
        return [convert_floats_for_json(v) for v in data]
    elif isinstance(data, np.float16):  # Convertir float16 a float
        return float(data)
    return data

# Listas de columnas por grupo y estrategias aplicadas
group_1 = ['mo_sin_old_rev_tl_op', 'mo_sin_rcnt_rev_tl_op', 'mo_sin_rcnt_tl', 'num_il_tl']
group_2 = [
    'settlement_term', 'hardship_dpd', 'total_pymnt_inv', 'total_pymnt', 
    'last_pymnt_amnt', 'last_pymnt_d', 'next_pymnt_d', 'hardship_type', 
    'hardship_reason', 'hardship_status', 'defferal_term', 'hardship_amount', 
    'hardship_start_date', 'hardship_end_date', 'payment_plan_start_date', 
    'hardship_length', 'hardship_loan_status', 'hardship_payoff_balance_amount', 
    'hardship_last_payment_amount', 'debt_settlement_flag_date', 'settlement_status', 
    'settlement_date', 'settlement_amount', 'settlement_percentage', 'deferral_term',
    'orig_projected_additional_accrued_interest'
]
group_4 = [
    'member_id', 'annual_inc_joint', 'dti_joint', 'verification_status_joint', 
    'open_acc_6m', 'open_act_il', 'open_il_12m', 'open_il_24m', 'mths_since_rcnt_il', 
    'total_bal_il', 'il_util', 'open_rv_12m', 'open_rv_24m', 'max_bal_bc', 'all_util', 
    'inq_fi', 'total_cu_tl', 'inq_last_12m', 'revol_bal_joint', 'sec_app_fico_range_low', 
    'sec_app_fico_range_high', 'sec_app_earliest_cr_line', 'sec_app_inq_last_6mths', 
    'sec_app_mort_acc', 'sec_app_open_acc', 'sec_app_revol_util', 'sec_app_open_act_il', 
    'sec_app_num_rev_accts', 'sec_app_chargeoff_within_12_mths', 'sec_app_collections_12_mths_ex_med', 
    'sec_app_mths_since_last_major_derog'
]

# Grupo 3 es la diferencia entre los conjuntos del grupo 3 y el grupo 4
group_3 = list(set([
    'member_id', 'emp_title', 'emp_length', 'desc', 'mths_since_last_delinq', 
    'mths_since_last_record', 'revol_util', 'last_credit_pull_d', 
    'mths_since_last_major_derog', 'annual_inc_joint', 'dti_joint', 
    'verification_status_joint', 'open_acc_6m', 'open_act_il', 'open_il_12m', 
    'open_il_24m', 'mths_since_rcnt_il', 'total_bal_il', 'il_util', 'open_rv_12m', 
    'open_rv_24m', 'max_bal_bc', 'all_util', 'inq_fi', 'total_cu_tl', 'inq_last_12m', 
    'bc_open_to_buy', 'bc_util', 'mo_sin_old_il_acct', 'mths_since_recent_bc', 
    'mths_since_recent_bc_dlq', 'mths_since_recent_inq', 'mths_since_recent_revol_delinq', 
    'num_tl_120dpd_2m', 'percent_bc_gt_75', 'revol_bal_joint', 'sec_app_fico_range_low', 
    'sec_app_fico_range_high', 'sec_app_earliest_cr_line', 'sec_app_inq_last_6mths', 
    'sec_app_mort_acc', 'sec_app_open_acc', 'sec_app_revol_util', 'sec_app_open_act_il', 
    'sec_app_num_rev_accts', 'sec_app_chargeoff_within_12_mths', 
    'sec_app_collections_12_mths_ex_med', 'sec_app_mths_since_last_major_derog'
]) - set(group_4))

# Estrategias aplicadas a cada grupo
imputation_strategy = {}

# Grupo 1 - Valor absoluto para las primeras tres y media para la última
for col in group_1:
    if col in ['mo_sin_old_rev_tl_op', 'mo_sin_rcnt_rev_tl_op', 'mo_sin_rcnt_tl']:
        imputation_strategy[col] = [{'estrategia': 'absolute', 'valor': 'N/A'}]
    elif col == 'num_il_tl':
        mean_value = float(loans['num_il_tl'][loans['num_il_tl'] >= 0].mean())
        imputation_strategy[col] = [{'estrategia': 'mean', 'valor': mean_value}]

# Grupo 2 - 'N/A' para strings y -1 para numéricos
for col in group_2:
    if col in loans.columns:
        if loans[col].dtype == 'object':
            imputation_strategy[col] = [{'estrategia': 'identificador', 'valor': 'N/A'}]
        elif pd.api.types.is_numeric_dtype(loans[col]):
            imputation_strategy[col] = [{'estrategia': 'custom', 'valor': -1}]

# Grupo 3 - Media para numéricos, "MISSING" para strings
for col in group_3:
    if col in loans.columns:
        if loans[col].dtype == 'float64':
            mean_value = float(loans[col].mean())
            imputation_strategy[col] = [{'estrategia': 'mean', 'valor': mean_value}]
        elif loans[col].dtype == 'object':
            imputation_strategy[col] = [{'estrategia': 'missing', 'valor': "MISSING"}]

# Grupo 4 - Imputación de ceros para numéricos
for col in group_4:
    if col in loans.columns and loans[col].dtype == 'float64':
        imputation_strategy[col] = [{'estrategia': 'zero_fill', 'valor': 0}]

# Convertir todos los float16 a float antes de guardar en JSON
imputation_strategy = convert_floats_for_json(imputation_strategy)

# Guardar el diccionario en un archivo JSON
with open('imputation_strategy.json', 'w') as f:
    json.dump(imputation_strategy, f, indent=4)


  return dtype.type(n)
  return umr_sum(a, axis, dtype, out, keepdims, initial, where)
  the_mean = the_sum / count if count > 0 else np.nan


#### Cargar

In [256]:
def load_imputation_strategy(file_path):
    """
    Carga la estrategia de imputación desde un archivo JSON.
    
    :param file_path: Ruta del archivo JSON.
    :return: Diccionario con la estrategia de imputación.
    """
    with open(file_path, 'r') as f:
        strategies = json.load(f)
    return strategies

imputation_strategy = load_imputation_strategy('imputation_strategy.json')
imputation_strategy

{'mo_sin_old_rev_tl_op': [{'estrategia': 'absolute', 'valor': 'N/A'}],
 'mo_sin_rcnt_rev_tl_op': [{'estrategia': 'absolute', 'valor': 'N/A'}],
 'mo_sin_rcnt_tl': [{'estrategia': 'absolute', 'valor': 'N/A'}],
 'num_il_tl': [{'estrategia': 'mean', 'valor': nan}],
 'settlement_term': [{'estrategia': 'custom', 'valor': -1}],
 'hardship_dpd': [{'estrategia': 'custom', 'valor': -1}],
 'total_pymnt_inv': [{'estrategia': 'custom', 'valor': -1}],
 'total_pymnt': [{'estrategia': 'custom', 'valor': -1}],
 'last_pymnt_amnt': [{'estrategia': 'custom', 'valor': -1}],
 'last_pymnt_d': [{'estrategia': 'identificador', 'valor': 'N/A'}],
 'next_pymnt_d': [{'estrategia': 'identificador', 'valor': 'N/A'}],
 'hardship_type': [{'estrategia': 'identificador', 'valor': 'N/A'}],
 'hardship_reason': [{'estrategia': 'identificador', 'valor': 'N/A'}],
 'hardship_status': [{'estrategia': 'identificador', 'valor': 'N/A'}],
 'hardship_amount': [{'estrategia': 'custom', 'valor': -1}],
 'hardship_start_date': [{'estra

# EDA

En el bloque anterior, los datos ya fueron preparados para un pipeline de datos, ya que se imputan los valores
y a través del flujo se mantiene la replicabildiad y reproducibilidad hasta llegar a cargar el modelo de imputado en un JSON, pero podemos hacer un poco más para prepararlo, como: quitar columnas inservibles.

## Quitar columnas inservibles

Como ya hicimos la limpieza, sabemos que, si una columna tiene todos sus valores en 0, es porque es una "columna inservible". A lo que me refiero con esto es que estas columnas estaban llenas de NaNs, y si bien para nuestro DataFrame principal podemos mantener esas columnas por si se llegan a llenar o modificar los valores, para un Pipeline de procesamiento no representan nada porque no se capturó la información para ningún registro. 

In [257]:
def remove_zero_filled_columns(df):
    """
    Crea un nuevo DataFrame eliminando todas las columnas que están completamente llenas de ceros.
    
    :param df: DataFrame original (loans)
    :return: Nuevo DataFrame sin las columnas llenas de ceros (pipeline_loans)
    """
    # Seleccionar solo las columnas que no están completamente llenas de ceros
    pipeline_loans = df.loc[:, (df != 0).any(axis=0)]
    return pipeline_loans

# Uso del método
pipeline_loans = remove_zero_filled_columns(loans)
pipeline_loans.shape

(100000, 120)

In [258]:
pipeline_loans.head(10)

  has_large_values = (abs_vals > 1e6).any()
  has_large_values = (abs_vals > 1e6).any()


Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,38098114,-1,15000.0,15000.0,15000.0,60,12.390625,336.75,C,C1,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
1,36805548,-1,10400.0,10400.0,10400.0,36,6.988281,321.0,A,A3,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
2,37842129,-1,21424.0,21424.0,21424.0,60,15.59375,516.5,D,D1,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
3,37612354,-1,12800.0,12800.0,12800.0,60,17.140625,319.0,D,D4,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
4,37662224,-1,7648.0,7648.0,7648.0,36,13.65625,260.25,C,C3,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
5,37822187,-1,9600.0,9600.0,9600.0,36,13.65625,326.5,C,C3,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
6,37741884,-1,2500.0,2500.0,2500.0,36,11.992188,83.0,B,B5,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
7,37854444,-1,16000.0,16000.0,16000.0,60,11.4375,351.5,B,B4,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
8,36804663,-1,23328.0,23328.0,23328.0,36,14.3125,800.5,C,C4,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
9,37642222,-1,5248.0,5248.0,5248.0,36,11.4375,173.0,B,B4,...,-1.0,-1.0,Cash,False,,,,-1.0,-1.0,-1.0
