# Prediccion de Default en Prestamos


Para este proyecto utilizaremos un sample de los datos de Lending Club. La idea es predecir si cierto usuario cometera Default basado en informacion que la plataforma recolecta. Esto nos ayudara a mejorar la metodologia/pipeline de prestamo.


# Descripcion



Contiene los prestamos de esta plataforma:

    periodo 2007-2017Q3.
    887mil observaciones, sample de 100mil
    150 variables
    Target: loan status



# Objetivo

Realizar un ETL y un EDA

## ETL

0. Limpia los datos de tal manera que al final del ETL queden en formato `tidy`.
1. Asegurate de cargar y leer los datos
2. Crea una tabla donde se guarde el nombre de la columna y el tipo de dato: (`column_name`,   `type`).
3. Asegurate de pensar cual es el tipo de dato correcto. Porque elejiste strig/object o float o int?. No hay respuestas incorrectas como tal, pero tienes que justificar tu decision.
4. Maneja missings o nans de la manera adecuada. Justifica cada decision







## EDA

0. Preparar lo datos para un pipeline de datos
1. Quitar columnas inservibles 
2. Imputar valores
3. Mantener replicabildiad y reproducibilidad

**No olvides anotar tus justificaciones en celdas para recordar cuando te toque explicarlo.** Puedes agregar el numero de celdas que necesites para poner tu explicacion y el codigo, solo manten la estructura.

# ETL

In [90]:
import pandas as pd
import numpy as np
import openpyxl

Vas a obtener 2 errores, solucionalo con los visto en clase.  
Tip: Se arreglan con argumentos adicionales de la funcion `read_csv`  
Documentacion: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html 

In [91]:
loans = pd.read_csv('https://github.com/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/LoansData_sample.csv.gz?raw=true',
                    compression='gzip',
                    encoding_errors='ignore')
loans.head()

  loans = pd.read_csv('https://github.com/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/LoansData_sample.csv.gz?raw=true',


Unnamed: 0.1,Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,0,38098114,,15000.0,15000.0,15000.0,60 months,12.39,336.64,C,...,,,Cash,N,,,,,,
1,1,36805548,,10400.0,10400.0,10400.0,36 months,6.99,321.08,A,...,,,Cash,N,,,,,,
2,2,37842129,,21425.0,21425.0,21425.0,60 months,15.59,516.36,D,...,,,Cash,N,,,,,,
3,3,37612354,,12800.0,12800.0,12800.0,60 months,17.14,319.08,D,...,,,Cash,N,,,,,,
4,4,37662224,,7650.0,7650.0,7650.0,36 months,13.66,260.2,C,...,,,Cash,N,,,,,,


## Tabla (column_name, type)

Revisa el metodo pd.DataFrame.dtypes. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html 

In [92]:
pd.set_option('display.max_rows', None)
column_types = loans.dtypes
column_types

Unnamed: 0                                      int64
id                                              int64
member_id                                     float64
loan_amnt                                     float64
funded_amnt                                   float64
funded_amnt_inv                               float64
term                                           object
int_rate                                      float64
installment                                   float64
grade                                          object
sub_grade                                      object
emp_title                                      object
emp_length                                     object
home_ownership                                 object
annual_inc                                    float64
verification_status                            object
issue_d                                        object
loan_status                                    object
pymnt_plan                  

## Cargar descripcion de columnas

La siguiente tabla tiene una descripcion del significado de cada columna

In [93]:
datos_dict = pd.read_excel(
    'https://resources.lendingclub.com/LCDataDictionary.xlsx')
datos_dict.columns = ['feature', 'description']


In [94]:
datos_dict

Unnamed: 0,feature,description
0,acc_now_delinq,The number of accounts on which the borrower i...
1,acc_open_past_24mths,Number of trades opened in past 24 months.
2,addr_state,The state provided by the borrower in the loan...
3,all_util,Balance to credit limit on all trades
4,annual_inc,The self-reported annual income provided by th...
5,annual_inc_joint,The combined self-reported annual income provi...
6,application_type,Indicates whether the loan is an individual ap...
7,avg_cur_bal,Average current balance of all accounts
8,bc_open_to_buy,Total open to buy on revolving bankcards.
9,bc_util,Ratio of total current balance to high credit/...


### Pickle

Crea codigo para **guardar** y **cargar** el DataFrame de `datos_dict` creada en las celdas anteriores en formato **pickle**

In [95]:
import pickle
with open("datos_dict.pkl", "wb") as file:
    pickle.dump(datos_dict, file)

In [96]:
with open("datos_dict.pkl", "rb") as file:
    datos_dict_pick = pickle.load(file)

## Tipos de Datos

Realiza las transformaciones o casteos (casting) que creas necesarios a tus datos de tal manera que el typo de dato sea adecuado. Al terminar recrea la tabla `column_types` con los nuevos tipos.

No olvides anotar tus justificaciones para recordar cuando te toque explicarlo.

In [97]:
# Creamos funcion para verificar si existen numeros decimales en dicha columna para realizar cambio de tipo de dato
def verificar_decimales(columna):
    # Verificar si hay al menos un número decimal
    return any(columna.dropna() != columna.dropna().astype(int))


In [98]:
# Manejos de tipos 1
# Unnamed contiene los indices de la columna pero el dataframe los genera por default por lo que esta columna no funciona
loans.drop('Unnamed: 0', axis=1, inplace=True)

In [99]:
# Tu codigo aqui
# Hacemos un loop que itere sobre todas las columnas para cambiar los tipos de dato mas frecuentes, float a int
# Ya que en muchos casos no contienen numeros decimales las columnas y por lo tanto que sean float64 no es necesario
cols_negativas = []
for column in loans.columns:
    if loans[column].dtype == 'float64':
        # Revisamos primero si la columna contiene valores negativos para analizarla a mayor detalle si es que los contiene
        if not (loans[column] < 0).any():
            if not verificar_decimales(loans[column]):
                # Llenamos los na como cero ya que en estos casos estamos hablando de cantidades monetarias (por lo que 0 es lo mismo que NA )
                # Tambien cuando no se habla de cantidades monetarias se habla de numero de meses para tal cosa o numero de cuentas abiertas en tal tiempo
                # A pesar de que 0 es un buen NA filler, indicaremos con un -1 los NA para indicar que estas no aplican ya que este dato no se capturo
                loans[column] = loans[column].fillna(-1).astype(int)
        else:
            cols_negativas.append(column)

cols_negativas

[]

In [100]:
# No hay columnas con valores negativos por lo que procedemos
cols_negativas

[]

In [101]:
# Una vez cambiado el tipo de dato mas frecuente el cual es float e int, nos enfocamos en object ya que todavia hay tipos de dato que se pueden cambiar
# Convertir columnas de object a boolean
loans['pymnt_plan'] = loans['pymnt_plan'].replace({'n': False, 'y': True}).astype(bool)
loans['hardship_flag'] = loans['hardship_flag'].replace({'N': False, 'Y': True}).astype(bool)
loans['debt_settlement_flag'] = loans['debt_settlement_flag'].replace({'N': False, 'Y': True}).astype(bool)

  loans['pymnt_plan'] = loans['pymnt_plan'].replace({'n': False, 'y': True}).astype(bool)
  loans['hardship_flag'] = loans['hardship_flag'].replace({'N': False, 'Y': True}).astype(bool)
  loans['debt_settlement_flag'] = loans['debt_settlement_flag'].replace({'N': False, 'Y': True}).astype(bool)


In [102]:
# Convertir columnas de object a datetime
date_columns = [
    'last_pymnt_d',
    'next_pymnt_d',
    'last_credit_pull_d',
    'hardship_start_date',
    'hardship_end_date',
    'payment_plan_start_date',
    'debt_settlement_flag_date',
    'settlement_date'
]

for col in date_columns:
    loans[col] = pd.to_datetime(loans[col], errors='coerce', format='%b-%y')
    # Le ponemos la fecha minima que maneja pandas para indicar que no es valido y por lo tanto no se considera dentro de los datos
    loans[col] = loans[col].fillna(pd.Timestamp.min)


In [103]:
column_types = loans.dtypes
column_types

id                                                     int64
member_id                                              int64
loan_amnt                                              int64
funded_amnt                                            int64
funded_amnt_inv                                        int64
term                                                  object
int_rate                                             float64
installment                                          float64
grade                                                 object
sub_grade                                             object
emp_title                                             object
emp_length                                            object
home_ownership                                        object
annual_inc                                           float64
verification_status                                   object
issue_d                                               object
loan_status             

## Manejo de NaNs o missings

Maneja los datos de tipos missing. Elije una estrategia adecuada dependiendo del tipo de dato que le asignaste a la columna.


Crea codigo para **guardar** y **cargar** un archivo JSON en el que se guarde la `estrategia` y `valor` que utilizaste para **imputar**. Por ejemplo: Si hay una columna que se llama `columna 3` y utilizaste la estrategia de imputacion de media, y existe otra llamada `columna 4` y  elegiste la palabra 'missing' el JSON debera contener:  
  
 `{'columna 3':{'estrategia':'mean', 'valor':3.4}, 'columna 4':{'estrategia':'identificador', 'valor':'missing'}}`  

 De tal manera que para cada columna que tenga un metodo de imputacion apunte a otro diccionario donde el **key** `estrategia` describa de manera sencilla el metodo, y el **key** `valor` el valor usado. En general:   
 `{'nombre de la columna':{'estrategia':'descripcion de estrategia', 'valor':'valor utilizado'}}`. 
 

De utilizar mas de un metodo puedes anidarlos en una lista  
  `[{...},{...}]`.  

Incluso si la columna utilizada no sufrio imputacion, es necesario que la agregues al JSON.

La idea es que cualquier otra persona pueda cargar el el archivo JSON con tu funcion, entender que hiciste y replicarlo facilmente. No existe solo una respuesta correcta, pero tendras que justificar y explicar tus deciciones.

### Imputacion

In [104]:
def verificar_columna_vacia(columna):

    # Obtener el tipo de la columna
    tipo_columna = columna.dtype

    if pd.api.types.is_numeric_dtype(tipo_columna):
        # Para columnas numéricas, verificar si están llenas de -1 o NaN
        if (columna.isna().all()) or (columna.eq(-1).all()):
            return True
        else:
            return False
    
    elif pd.api.types.is_object_dtype(tipo_columna):
        # Para columnas de tipo objeto, verificar si están llenas de NaN
        if columna.isna().all():
            return True
        else:
            return False
    
    return False

In [105]:
array_cols_vacias = []
array_cols_string = []
array_cols_number = []
# De nada nos sirve tener columnas completamente vacias ya que no nos indican ninguna observacion por lo que las tumbamos.
# Debido a que por terminos de eficiencia ya hicimos imputacion en la seccion de arriba solo acabamos por hacer esto:
for column in loans.columns:
    if verificar_columna_vacia(loans[column]):
        loans.drop(column, axis=1, inplace=True)
        array_cols_vacias.append(column)
    elif pd.api.types.is_object_dtype(loans[column].dtype):
        # Hacemos los NAN un string que diga N/A para que se sepa que no es valido.
        loans[column].fillna('N/A')
        array_cols_string.append(column)
    elif pd.api.types.is_numeric_dtype(loans[column].dtype):
        array_cols_number.append(column)


### Codigo para salvar y cargar JSONs

In [None]:
bool_columns = ['pymnt_plan', 'hardship_plan', 'debt_settlement_flag']
# Tenemos entonces 5 arrays distintos: bool_columns, array_cols_vacias, array_cols_string, array_cols_number y date_columns
dict_estrategia = {}

for column in bool_columns:
    dict_estrategia[column] = {'estrategia': 'No imputacion a esta columna', 'Valor': 'No se realizaron cambios'}

for column in date_columns:
    dict_estrategia[column] = {'estrategia': 'Valor especifico', 'Valor': 'pd.Timestamp.min'}

for column in array_cols_string:
    dict_estrategia[column] = {'estrategia': 'Valor especifico', 'Valor': 'N/A'}

for column in array_cols_number:
    dict_estrategia[column] = {'estrategia': 'Valor especifico', 'Valor': -1}

dict_estrategia


{'pymnt_plan': {'estrategia': 'Valor especifico', 'Valor': -1},
 'hardship_plan': {'estrategia': 'No imputacion a esta columna',
  'Valor': 'No se realizaron cambios'},
 'debt_settlement_flag': {'estrategia': 'Valor especifico', 'Valor': -1},
 'last_pymnt_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'next_pymnt_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'last_credit_pull_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'hardship_start_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'hardship_end_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'payment_plan_start_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'debt_settlement_flag_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'settlement_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'member_id': {'estrategia': 'Tumbar Col

In [107]:
import json
# Guardamos en json
with open('estrategia_imputacion.json', 'w') as f:
    json.dump(dict_estrategia, f)

In [108]:
with open('estrategia_imputacion.json', 'r') as f:
    estrategia = json.load(f)
estrategia

{'pymnt_plan': {'estrategia': 'Valor especifico', 'Valor': -1},
 'hardship_plan': {'estrategia': 'No imputacion a esta columna',
  'Valor': 'No se realizaron cambios'},
 'debt_settlement_flag': {'estrategia': 'Valor especifico', 'Valor': -1},
 'last_pymnt_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'next_pymnt_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'last_credit_pull_d': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'hardship_start_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'hardship_end_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'payment_plan_start_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'debt_settlement_flag_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'settlement_date': {'estrategia': 'Valor especifico',
  'Valor': 'pd.Timestamp.min'},
 'member_id': {'estrategia': 'Tumbar Col