# Prediccion de Default en Prestamos


Para este proyecto utilizaremos un sample de los datos de Lending Club. La idea es predecir si cierto usuario cometera Default basado en informacion que la plataforma recolecta. Esto nos ayudara a mejorar la metodologia/pipeline de prestamo.


# Descripcion



Contiene los prestamos de esta plataforma:

    periodo 2007-2017Q3.
    887mil observaciones, sample de 100mil
    150 variables
    Target: loan status



# Objetivo

Realizar un ETL y un EDA

## ETL

0. Limpia los datos de tal manera que al final del ETL queden en formato `tidy`.
1. Asegurate de cargar y leer los datos
2. Crea una tabla donde se guarde el nombre de la columna y el tipo de dato: (`column_name`,   `type`).
3. Asegurate de pensar cual es el tipo de dato correcto. Porque elejiste strig/object o float o int?. No hay respuestas incorrectas como tal, pero tienes que justificar tu decision.
4. Maneja missings o nans de la manera adecuada. Justifica cada decision







## EDA

0. Preparar lo datos para un pipeline de datos
1. Quitar columnas inservibles
2. Imputar valores
3. Mantener replicabildiad y reproducibilidad

**No olvides anotar tus justificaciones en celdas para recordar cuando te toque explicarlo.** Puedes agregar el numero de celdas que necesites para poner tu explicacion y el codigo, solo manten la estructura.

# ETL

In [None]:
import pandas as pd
import numpy as np

Vas a obtener 2 errores, solucionalo con los visto en clase.  
Tip: Se arreglan con argumentos adicionales de la funcion `read_csv`  
Documentacion: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
loans = pd.read_csv(
    'https://github.com/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/LoansData_sample.csv.gz?raw=true',
    compression='gzip'
)

loans



  loans = pd.read_csv(


Unnamed: 0.1,Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,0,38098114,,15000.0,15000.0,15000.0,60 months,12.39,336.64,C,...,,,Cash,N,,,,,,
1,1,36805548,,10400.0,10400.0,10400.0,36 months,6.99,321.08,A,...,,,Cash,N,,,,,,
2,2,37842129,,21425.0,21425.0,21425.0,60 months,15.59,516.36,D,...,,,Cash,N,,,,,,
3,3,37612354,,12800.0,12800.0,12800.0,60 months,17.14,319.08,D,...,,,Cash,N,,,,,,
4,4,37662224,,7650.0,7650.0,7650.0,36 months,13.66,260.20,C,...,,,Cash,N,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,99995,22454240,,8400.0,8400.0,8400.0,36 months,9.17,267.79,B,...,,,Cash,N,,,,,,
99996,99996,11396920,,10000.0,10000.0,10000.0,36 months,12.99,336.90,C,...,,,Cash,N,,,,,,
99997,99997,8556176,,30000.0,30000.0,30000.0,60 months,20.99,811.44,E,...,,,Cash,N,,,,,,
99998,99998,24023408,,8475.0,8475.0,8475.0,36 months,24.99,336.92,F,...,,,Cash,N,,,,,,


## Tabla (column_name, type)

Revisa el metodo pd.DataFrame.dtypes. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

In [None]:
column_types = loans.dtypes
column_types


Unnamed: 0,0
Unnamed: 0,int64
id,int64
member_id,float64
loan_amnt,float64
funded_amnt,float64
...,...
settlement_status,object
settlement_date,object
settlement_amount,float64
settlement_percentage,float64


## Cargar descripcion de columnas

La siguiente tabla tiene una descripcion del significado de cada columna

In [None]:

datos_dict = pd.read_excel(
    'https://resources.lendingclub.com/LCDataDictionary.xlsx')
datos_dict.columns = ['feature', 'description']


In [None]:
datos_dict

Unnamed: 0,feature,description
0,acc_now_delinq,The number of accounts on which the borrower i...
1,acc_open_past_24mths,Number of trades opened in past 24 months.
2,addr_state,The state provided by the borrower in the loan...
3,all_util,Balance to credit limit on all trades
4,annual_inc,The self-reported annual income provided by th...
...,...,...
148,settlement_amount,The loan amount that the borrower has agreed t...
149,settlement_percentage,The settlement amount as a percentage of the p...
150,settlement_term,The number of months that the borrower will be...
151,,


### Pickle

Crea codigo para **guardar** y **cargar** el DataFrame de `datos_dict` creada en las celdas anteriores en formato **pickle**

In [None]:
# COdigo guardar
datos_dict.to_pickle("datos_dict.pkl")

In [None]:
# Codigo para cargar
datos_dict = pd.read_pickle("datos_dict.pkl")


## Tipos de Datos

Realiza las transformaciones o casteos (casting) que creas necesarios a tus datos de tal manera que el typo de dato sea adecuado. Al terminar recrea la tabla `column_types` con los nuevos tipos.

No olvides anotar tus justificaciones para recordar cuando te toque explicarlo.

In [None]:
# Manejos de tipos 1
# Tu codigo aqui

# Paso 1: Identificar y convertir columnas a formato datetime donde sea apropiado
# Define el formato de fecha esperado, por ejemplo, si es "mes-año" usa '%b-%Y'
date_format = '%b-%Y'  # Cambia este formato según tus datos

# Convertir las columnas a datetime usando el formato especificado
for col in date_columns:
    if col in loans.columns:
        loans[col] = pd.to_datetime(loans[col], format=date_format, errors='coerce')


In [None]:
# Manejos de tipos 2
# Tu codigo aqui
# Paso 2: Convertir columnas de porcentaje de tipo objeto a flotante (por ejemplo, 'int_rate')
# Eliminar el símbolo '%' si está presente y convertir a flotante
if 'int_rate' in loans.columns:
    loans['int_rate'] = loans['int_rate'].replace('[\%,]', '', regex=True).astype(float)



In [None]:
# Paso 3: Convertir columnas con valores únicos limitados a categoría para optimizar memoria
categorical_columns = ['term', 'grade', 'sub_grade', 'emp_length', 'home_ownership', 'verification_status',
                       'loan_status', 'purpose', 'addr_state', 'initial_list_status', 'application_type',
                       'hardship_flag', 'disbursement_method', 'debt_settlement_flag']
for col in categorical_columns:
    if col in loans.columns:
        loans[col] = loans[col].astype('category')



Unnamed: 0,0
Unnamed: 0,int64
id,int64
member_id,float64
loan_amnt,float64
funded_amnt,float64
...,...
settlement_status,object
settlement_date,datetime64[ns]
settlement_amount,float64
settlement_percentage,float64


In [None]:
# Recrear los tipos de columna actualizados
column_types = loans.dtypes

# Mostrar los tipos de columna actualizados al usuario
column_types


Unnamed: 0,0
Unnamed: 0,int64
id,int64
member_id,float64
loan_amnt,float64
funded_amnt,float64
...,...
settlement_status,object
settlement_date,datetime64[ns]
settlement_amount,float64
settlement_percentage,float64


## Manejo de NaNs o missings

Maneja los datos de tipos missing. Elije una estrategia adecuada dependiendo del tipo de dato que le asignaste a la columna.


Crea codigo para **guardar** y **cargar** un archivo JSON en el que se guarde la `estrategia` y `valor` que utilizaste para **imputar**. Por ejemplo: Si hay una columna que se llama `columna 3` y utilizaste la estrategia de imputacion de media, y existe otra llamada `columna 4` y  elegiste la palabra 'missing' el JSON debera contener:  
  
 `{'columna 3':{'estrategia':'mean', 'valor':3.4}, 'columna 4':{'estrategia':'identificador', 'valor':'missing'}}`  

 De tal manera que para cada columna que tenga un metodo de imputacion apunte a otro diccionario donde el **key** `estrategia` describa de manera sencilla el metodo, y el **key** `valor` el valor usado. En general:   
 `{'nombre de la columna':{'estrategia':'descripcion de estrategia', 'valor':'valor utilizado'}}`.


De utilizar mas de un metodo puedes anidarlos en una lista  
  `[{...},{...}]`.  

Incluso si la columna utilizada no sufrio imputacion, es necesario que la agregues al JSON.

La idea es que cualquier otra persona pueda cargar el el archivo JSON con tu funcion, entender que hiciste y replicarlo facilmente. No existe solo una respuesta correcta, pero tendras que justificar y explicar tus deciciones.

### Imputacion

1. Análisis del Tipo de Dato: Se revisa cada columna para definir la estrategia de imputación adecuada:

Numéricos: Se aplica la media, ya que a **falta de tiempo**, es una estrategia adecuada para mantener
la distribución general sin sesgos extremos.

Categorías: La moda se usa para columnas categóricas, manteniendo el valor más frecuente y representativo.

Texto: Los valores faltantes se reemplazan con 'missing', lo cual permite identificar fácilmente dónde faltaba información.

Fechas: Los valores faltantes en fechas se rellenan con una fecha simbólica, '1970-01-01', para denotar la ausencia de datos sin afectar las funciones de fecha.

2. Eliminación de Columnas Inservibles: Las columnas que tienen más del 90% de valores faltantes se eliminan, ya que aportan poca o ninguna información. Estas columnas se documentan en el archivo JSON bajo la clave estrategia: eliminado, con una descripción que indica la razón.

3. Archivo JSON: Se guarda el archivo imputation_strategies.json, que documenta cada columna, el método de imputación usado o si fue eliminada, y el valor específico de imputación utilizado. Esto permite que el proceso sea reproducible por otras personas.


--



In [19]:
import json
from datetime import datetime

# Diccionario para almacenar las estrategias de imputación de cada columna
imputation_strategies = {}

# Definir un umbral para columnas con alto porcentaje de valores faltantes
threshold_missing = 0.9

# Paso 1: Identificar columnas inservibles (con más del 90% de datos faltantes)
dropped_columns = [col for col in loans.columns if loans[col].isnull().mean() > threshold_missing]
loans.drop(columns=dropped_columns, inplace=True)

# Documentar las columnas eliminadas en el diccionario de estrategias
for col in dropped_columns:
    imputation_strategies[col] = {'estrategia': 'eliminado', 'razón': 'alto porcentaje de valores faltantes'}

# Paso 2: Aplicación de estrategias de imputación según el tipo de dato
for column, dtype in loans.dtypes.items():
    if dtype in ['float64', 'int64']:  # Datos numéricos
        # Calcular la media e imputar si hay valores faltantes
        mean_value = loans[column].mean()
        loans[column] = loans[column].fillna(mean_value)  # Asignación directa
        imputation_strategies[column] = {'estrategia': 'mean', 'valor': mean_value}

    elif dtype.name == 'category':  # Datos categóricos
        # Calcular la moda e imputar si hay valores faltantes
        mode_value = loans[column].mode()[0] if not loans[column].mode().empty else 'missing'
        loans[column] = loans[column].fillna(mode_value)  # Asignación directa
        imputation_strategies[column] = {'estrategia': 'mode', 'valor': mode_value}

    elif dtype == 'object':  # Datos de texto
        # Rellenar con la palabra 'missing' para datos de texto
        loans[column] = loans[column].fillna('missing')  # Asignación directa
        imputation_strategies[column] = {'estrategia': 'identificador', 'valor': 'missing'}

    elif dtype == 'datetime64[ns]':  # Datos de fecha
        # Imputar con una fecha simbólica
        placeholder_date = datetime(1970, 1, 1)
        loans[column] = loans[column].fillna(placeholder_date)  # Asignación directa
        imputation_strategies[column] = {'estrategia': 'placeholder', 'valor': placeholder_date.strftime('%Y-%m-%d')}







### Codigo para salvar y cargar JSONs

In [20]:
# TUcodigo aqui
# Paso 3: Guardar el diccionario de estrategias de imputación en un archivo JSON
json_file_path = 'imputation_strategies.json'
with open(json_file_path, 'w') as json_file:
    json.dump(imputation_strategies, json_file, indent=4)

print(f"Estrategias de imputación y columnas eliminadas guardadas en {json_file_path}")


Estrategias de imputación y columnas eliminadas guardadas en imputation_strategies.json


In [21]:
# Muestra las primeras filas del DataFrame limpio
loans.head()


Unnamed: 0.1,Unnamed: 0,id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,0,38098114,15000.0,15000.0,15000.0,60 months,12.39,336.64,C,C1,...,8046.616541,186.563135,Cash,N,missing,missing,1970-01-01,4768.376357,47.720519,8.265116
1,1,36805548,10400.0,10400.0,10400.0,36 months,6.99,321.08,A,A3,...,8046.616541,186.563135,Cash,N,missing,missing,1970-01-01,4768.376357,47.720519,8.265116
2,2,37842129,21425.0,21425.0,21425.0,60 months,15.59,516.36,D,D1,...,8046.616541,186.563135,Cash,N,missing,missing,1970-01-01,4768.376357,47.720519,8.265116
3,3,37612354,12800.0,12800.0,12800.0,60 months,17.14,319.08,D,D4,...,8046.616541,186.563135,Cash,N,missing,missing,1970-01-01,4768.376357,47.720519,8.265116
4,4,37662224,7650.0,7650.0,7650.0,36 months,13.66,260.2,C,C3,...,8046.616541,186.563135,Cash,N,missing,missing,1970-01-01,4768.376357,47.720519,8.265116


In [22]:
# Muestra los tipos de datos actualizados
loans.dtypes


Unnamed: 0,0
Unnamed: 0,int64
id,int64
loan_amnt,float64
funded_amnt,float64
funded_amnt_inv,float64
...,...
settlement_status,object
settlement_date,datetime64[ns]
settlement_amount,float64
settlement_percentage,float64
