*Import de módulos para el proyecto*

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

Conexión con Google Drive para acceder al archivo

In [None]:
credito_df = pd.read_csv('/content/drive/MyDrive/Bootcamp/Proyecto Produbanco - Coding para procesamiento/creditos_historicos.csv', low_memory=False)

In [None]:
credito_df = pd.read_csv('creditos_historicos.csv', low_memory=False)

                               CREDITOS OTORGADOS - PRODUBANCO (Grupos 1-4)

En el ámbito financiero, la concesión de créditos es una de las actividades más importantes y a
la vez, una de las más riesgosas para las instituciones. La capacidad de predecir y gestionar
adecuadamente el riesgo crediticio es crucial para mantener la estabilidad financiera y
minimizar las pérdidas. Este proyecto tiene como objetivo analizar el estatus de los créditos
otorgados y determinar los factores que influyen en el incumplimiento de pago.

El análisis de datos históricos sobre la forma en que los créditos fueron otorgados y su
posterior desempeño nos permitirá identificar patrones y tendencias en el comportamiento de
los prestatarios. Con un enfoque centrado en la identificación de créditos que cayeron en
vencimiento, este proyecto busca proporcionar una comprensión profunda de los factores que
contribuyen a la morosidad.

Tenemos datos completos de todos los préstamos emitidos entre 2007 y 2015, incluido el
estado actual del préstamo (vigente, retrasado, totalmente pagado, etc.) y la última información
de pago. Las características (también conocidas como variables) incluyen la puntuación
crediticia, el número de consultas financieras, la dirección, incluidos los códigos postales y el
estado, y los cobros, entre otros. El apartado de cobros indica si el cliente ha incumplido uno o
más pagos y el equipo está intentando recuperar su dinero.

Produbanco, requiere del departamento de Business Intelligence analizar un grupo de creditos
históricos. Asuma que el mes de análisis en marzo 2019 (fecha actual).
Usted deberá cumplir con al menos los siguientes puntos:

**Definición de mal pagador**

1. Crear una definición de ‘mal_pagador’. El dataset cuenta con varias columnas que
hacen referencia los clientes que han tenido problemas de pagos. Analice y escoja una
para crear la definición de mal pagador.

Consultar tamaño del dataframe para saber numero de observaciones y series --- 2260668 observaciones, 23 variables

In [None]:
credito_df.shape

Consultar los estados del crédito de cada cliente para crear categorías de riesgo. Ej. Fully Paid representa riesgo bajo, Late es de riesgo alto

In [None]:
credito_df['loan_status'].value_counts()


Crear función que clasifique estos estados en riesgo alto o bajo

In [None]:
def status_riesgo(status):
    if status in ['Fully Paid', 'Current', 'In Grace Period']:
       return 'low risk'
    else:
       return 'high risk'

Crear nueva columna de riesgo según el estado del credito

In [None]:
credito_df['risk_status'] = credito_df['loan_status'].apply(lambda x:status_riesgo(x))

En esta nueva serie, las observaciones son 1970599 riesgo bajo y 290069 riesgo alto

In [None]:
credito_df['risk_status'].value_counts()

Definir función para evaluar malos pagadores según tres parámetros: riesgo_status, meses desde la última vez que cayeron en mora y las veces que estuvieron en mora en los últimos dos años.

Ej. Si el pagador tiene riesgo bajo y ha pasado más de un mes, mal pagador. Si en los últimos dos años, estuvo en mora más de 2 veces, mal pagador

In [None]:
def marca(riesgo,meses,record2yrs):
    if (riesgo == 'high risk') or (riesgo == 'low risk' and meses <6) or (record2yrs >2):
       return 1
    else:
       return 0

Crear serie aplicando la función definida anteriormente

In [None]:
credito_df['marca_mal_pagador'] = credito_df.apply(lambda x: marca(riesgo=x['risk_status'],meses=x['mths_since_last_delinq'], record2yrs=x['delinq_2yrs']), axis =1)

Existen 384384 clientes marcados como malos pagadores

In [None]:
credito_df['marca_mal_pagador'].value_counts()

# **Data Quality**

*Duplicados*

1. Analice si existen valores duplicados, y si es así aborde el problema.

Para evaluar duplicados en este df revisaremos el id_cliente, ya que las otras variables podrían estar repetidas sin que signifique registro duplicado

In [None]:
credito_df['id_cliente']. duplicated().value_counts()

No existen duplicados, no necesita procesamiento adicional

*Nulos*

2. Analice si existen valores nulos, y si es así aborde el problema. Puede usar cualquiera
de las alternativas que vimos en clase.

isnull().any() retorna un detalle de columnas con nulos en todo el df

In [None]:
credito_df.isnull().any()

Crear view para consultar la cantidad de nulos en las series identificadas. Emplear *isnull().value_counts()*

emp_title -- 166969

emp_length -- 146907

annual_inc -- 4

delinq_2yrs -- 29

next_pymnt_d -- 1303607 nulos

earliest_cr_line -- 29

last_pymnt_d -- 2426

mths_since_last_delinq -- 1158473

settlement_status -- 2227583

tot_hi_cred_lim -- 70247

In [None]:
view= credito_df[credito_df['last_pymnt_d'].isnull()]
view.shape

Crear nuevo df eliminando las observaciones NaN de las columnas con menos nulos: annual inc, delinq 2yrs, earliest cr line.

Emplear *dropna*

In [None]:
creditos2 = credito_df.dropna(subset=['annual_inc','delinq_2yrs','earliest_cr_line'])
creditos2.shape

Consultar los nulos identificados y ver a qué pertenecen

- Los nulos de last payment pertenecen a los incobrables, tardíos más de 30 días, incobrables y default

- Los nulos de next payment están asociados a los créditos pagados o incobrables. Asignar fecha anterior a 2000

In [None]:
nulos = creditos2.next_pymnt_d.isnull()

In [None]:
creditos2['loan_status'][nulos].value_counts()

#*Tratamiento de valores NaN*

- Los nulos en columnas **emp title, emp length y settlement** son significativos, no se pueden eliminar registros. Reemplazar con valor 'unknown'

In [None]:
creditos2['emp_title'].fillna('unknown', inplace=True)
creditos2['emp_length'].fillna('unknown', inplace=True)
creditos2['settlement_status'].fillna('unknown', inplace=True)

- Fechas en **next y last payment d** reemplazar con Dic-2000 para poder separarlas de las otras fechas en las series, cuyos valores van del 2007 a 2015

In [None]:
creditos2['last_pymnt_d'].fillna('Dec-2000', inplace=True)
creditos2['next_pymnt_d'].fillna('Dec-2000', inplace=True)

- Para tratar nulos de **months since last delinq** primero consultar valores, si no existen ceros se puede asignar este valor

In [None]:
#creditos2.mths_since_last_delinq.value_counts().to_dict()

Existen 2400 observaciones con cero entonces no se puede asignar el mismo valor, rellenar con -999

In [None]:
creditos2['mths_since_last_delinq'].fillna(-999, inplace=True)

- Para **tot hi cred lim**, rellenar NaN con el promedio del resto de valores. Crear variable para después aplicar el *fillna*

In [None]:
prom_cred_mas_alto = (creditos2['tot_hi_cred_lim'].mean()).astype(int)

In [None]:
creditos2['tot_hi_cred_lim'].fillna(prom_cred_mas_alto,inplace=True)

Las dos celdas siguientes se usan para confirmar nulos en el df y para ver si los valores NaN se rellenaron correctamente en las series procesadas

In [None]:
creditos2.isnull().any()

In [None]:
creditos2.settlement_status.value_counts()

Cambiar tipos de datos para facilitar el analisis

In [None]:
creditos2['annual_inc'] = creditos2['annual_inc'].astype(int)
creditos2['delinq_2yrs'] = creditos2['delinq_2yrs'].astype(int)
creditos2['mths_since_last_delinq'] = creditos2['mths_since_last_delinq'].astype(int)

In [None]:
creditos2.dtypes

**Convertir columnas de fecha a dt**

Los cambios se hacen inplace, el formato es mes, año (%b-%Y)

In [None]:
creditos2['next_pymnt_d'] = pd.to_datetime(creditos2['next_pymnt_d'], format = '%b-%Y')
creditos2['last_pymnt_d'] = pd.to_datetime(creditos2['last_pymnt_d'], format = '%b-%Y')
creditos2['earliest_cr_line'] = pd.to_datetime(creditos2['earliest_cr_line'],format='%b-%Y')

# **Feature Transformation**

In [None]:
creditos2.earliest_cr_line.sort_values()


**Creación de variables categoricas**

*Vintage del cliente*

Después de cambiar tipo de dato earliest_cr_line a datetime, ordenar los valores, consultar el más antiguo y más reciente poder definir límites de categorías de vintage de clientes

- Separar solo el año del datetime y definir limites para los bins de segmentacion, crear categorias very long, long term, established y new

In [None]:
creditos2['vintage_cliente'] = pd.cut(creditos2.earliest_cr_line.dt.year, [1900, 1969,1970,2000,2010,2020], labels=['very long term', 'long term', 'established','mid-term ','new'])

*Social Class*

Categoría basada en el nivel de ingresos del cliente

- Se empleará para determinar un promedio de ingresos y hacer más sencilla la evaluación del ratio loan/income

In [None]:
creditos2['soc_class'] = pd.cut(creditos2.annual_inc,[-1,13000,35000,65000,130000,110000000], labels=['lower','working','middle','upper-middle','upper'])

Crear columna con ingresos promedio por cada categoria

In [None]:
creditos2['avg_annual_inc'] = (creditos2.groupby(['soc_class'])['annual_inc'].transform('mean')).astype(int)

Creacion de ratio loan/income para verificar nivel de deuda respecto a ingresos del cliente

In [None]:
creditos2['loan/income'] = (creditos2['loan_amnt'] / creditos2['avg_annual_inc']).round(2)

In [None]:
creditos2.to_csv('credito_df.csv', index=False)

# **Correlation Analysis**

1. Identifique si tiene variables correlacionadas

2. En caso de ser así, encuentre una explicación lógica para esa correlación. Si no
encuentra un argumento, puede mencionarlo.

# **Análisis descriptivo**

1. Usando estatísticos descriptivos univariados, analice las variables que considere
relevantes y aportan información.

 loan/income para verificar nivel de deuda respecto a ingresos del cliente

In [None]:
%matplotlib inline

In [None]:
fig, ax = plt.subplots()

In [None]:
ax.hist(creditos2['loan/income'], bins=10, range=(0, 1), edgecolor='black')

In [None]:
ax.set_title('Histograma de Loan/Income')
ax.set_xlabel('Loan/Income')
ax.set_ylabel('Frecuencia')

In [None]:
# Mostrar el histograma
plt.show()

In [None]:
creditos2['loan/income'].hist(bins=10, range=(0, 0.7), edgecolor='black')

2. Usando estatísticos descriptivos bivariados, analice las variables que considere
relevantes y aportan información.

In [None]:
tabla_contingencia = pd.crosstab(creditos2['soc_class'], creditos2['marca_mal_pagador'])

In [None]:
print(tabla_contingencia)

In [None]:
tabla_contingencia.plot(kind='bar', stacked=True)

In [None]:
boxplot = sns.boxplot(x='emp_title', y='marca_mal_pagador', data=creditos2)

In [None]:
print(boxplot)

# **Correlation Analysis**

3. Con variables categóricas, realice análisis con tablas cruzadas.