### NOMBRE PROYECTO: Describir el Nombre del Proyecto

### FECHA: 

## CONTEXTO
-- Los bancos, como intermediarios financieros, prestan dinero a quienes cumplen con los requisitos establecidos. Sin embargo, cuando llega el momento, una parte de los prestatarios incumplen con sus obligaciones y se atrasan en los pagos. Para el mes de julio del presente año, la morosidad en el sistema financiero peruano se ubicó en 4.04%, en las Mypes fue de 8.07% y en las Cajas Rurales fue de 11.25% (RPP Noticias, 05 de julio de 2021). Según Jorge C. (Diario La República, 09 de febrero de 2020), profesor de la Pacífico Business School, comenta que una de las posibles causas es que la gente aglomera gastos […] pequeños e inconscientes a través de las líneas de crédito asignadas a sus trajetas (tasa promedio anual de 46%, y en retiro de efectivo es de 120% anual). La forma en que los bancos evalúan la posibilidad o no de un crédito es a través del Score de calificación crediticia del cliente. Un score mayor significa un perfil crediticio mejor. Otra forma de evaluación es por medio del nivel de ahorro, y este va de cero a doce, significando este último un 'alto nivel de ahorros'. El atraso histórico (en número de días) también juega un rol importante, así como la calificación absoluta del cliente como 'pagador al día' u 'cliente moroso'. De otro lado, la SBS también clasifica el riesgo de cada crédito: 'cero' es normal, y el nivel 'cuatro' es pérdida. Sin embargo ¿Cómo afectaría la morosidad al banco? "Un incremento en la morosidad aumenta el nivel de riesgo, por tanto crecen las provisiones solicitadas por el regulador (dinero inmovilizado, y que no puede ser prestado). Esta es una forma de afectación, como a la rentabilidad de la entidad financiera, por ejemplo" (Conexión Esan, 13 de diciembre de 2016). Viendo desde el punto de vista del banco, la pregunta sería ¿Qué insights podemos hallar en los datos históricos que nos permitan tomar mejores decisiones antes de efectuar los préstamos? Es así que este trabajo pretende hallar dichos insights, considerados aún invisibles, y relacionados a la morosidad bancaria peruana a través de la formulación de preguntas sencillas. La revisión, limpieza, transformación y modelación de datos servirán de apoyo en la búsqueda de conclusiones, y la guía en la toma de decisiones.

DOI, APA:

Luis Humberto Calderon Baldeón. (2021). BankDefaultAnalysis [Data set]. Kaggle.

https://doi.org/10.34740/KAGGLE/DSV/2528417



### DESCRIPCIÓN DE LA DATA

* 1	**Mora Morosidad del cliente:** {0: paga al día, 1: cliente moroso}
* 2	**Atraso** Atraso histórico del cliente en días.
* 3	**Vivienda** Tipo de vivienda del cliente.
* 4	**Edad** Edad del cliente.
* 5	**Días_lab** Días laborados en su actual empleo.
* 6	**Exp_sf** Meses con experiencia en el sistema financiero, es decir el número de meses que tiene el cliente desde que adquirió algún producto financiero.
* 7	**Nivel_ahorro** Índice del nivel de ahorro del cliente: {0: no tiene ahorros, 12: alto nivel de ahorros}
* 8	**Ingreso**	Ingresos del cliente.
* 9	**Línea_sf** Línea de crédito en el sistema financiero que el cliente tiene disponible.
* 10 **Deuda_sf** Deuda del cliente en el sistema financiero.
* 11 **Score** Calificación crediticia del cliente. Mientras mayor es el score, mejor perfil crediticio tiene el cliente.
* 12 **Zona** Departamento de residencia del cliente.
* 13 **Clasif_sbs** Clasificación SBS. Mientras mayor es el número, peor clasificación tiene el cliente: {0: normal, 1: con problemas potenciales, 2: deficiente, 3: dudoso, * 4: pérdida}
* 14 **Nivel_educ**	Nivel educativo máximo alcanzado por el cliente.



## METODOLOGÍA UTILIZADA EN EL PROYECTO DE CIENCIA DE DATOS
## NOMBRE: CRISP-DM
* FASE 1: Comprensión del Negocio: objetivos especificos de la fase
* FASE 2: Comprensión de los datos: objetivos especificos de la fase
* FASE 3: Preparación de los datos: objetivos especificos de la fase
* FASE 4: Modelado: objetivos especificos de la fase
* FASE 5: Evaluación del modelo: objetivos especificos de la fase
* FASE 6: Despliegue: objetivos especificos de la fase

# FASE 1: Comprensión del Negocio

In [2]:
# Carga de librerias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [3]:
#Carga Dataset
df = pd.read_csv('data.csv', sep=",")

# FASE 2: Comprensión de los datos

In [4]:
# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(df.head())

# Mostrar información general del dataset
print("\nInformación del dataset:")
print(df.info())

# Descripción estadística básica del dataset
print("\nDescripción estadística:")
print(df.describe())

# Verificar si hay valores nulos en el dataset
print("\nValores nulos por columna:")
print(df.isnull().sum())

Primeras filas del dataset:
   mora  atraso  vivienda  edad  dias_lab  exp_sf  nivel_ahorro  ingreso  \
0     0     235  FAMILIAR    30      3748    93.0             5   3500.0   
1     0      18  FAMILIAR    32      4598     9.0            12    900.0   
2     0       0  FAMILIAR    26      5148     8.0             2   2400.0   
3     0       0  FAMILIAR    36      5179    20.0            12   2700.0   
4     0       0  FAMILIAR    46      3960     NaN             1   3100.0   

   linea_sf  deuda_sf  score         zona  clasif_sbs     nivel_educ  
0       NaN      0.00    214         Lima           4  UNIVERSITARIA  
1   1824.67   1933.75    175  La Libertad           1        TECNICA  
2   2797.38    188.29    187         Lima           0  UNIVERSITARIA  
3       NaN      0.00    187       Ancash           0        TECNICA  
4   2000.00  11010.65    189         Lima           0        TECNICA  

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8399 entries,

In [5]:
df.tail()

Unnamed: 0,mora,atraso,vivienda,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,zona,clasif_sbs,nivel_educ
8394,0,0,PROPIA,43,7917,106.0,12,13660.0,121543.4,8338.46,224,Lima,1,UNIVERSITARIA
8395,1,0,FAMILIAR,29,3352,25.0,0,813.0,2200.0,0.0,197,Lima,1,UNIVERSITARIA
8396,0,0,FAMILIAR,32,6821,19.0,12,3000.0,10087.0,933.68,200,Lima,1,UNIVERSITARIA
8397,1,0,PROPIA,38,3882,7.0,12,3069.23,23994.0,13954.65,221,Lambayeque,1,UNIVERSITARIA
8398,0,0,FAMILIAR,36,5909,51.0,12,3500.0,9060.0,10555.83,216,Lima,0,UNIVERSITARIA


In [6]:
df.head()

Unnamed: 0,mora,atraso,vivienda,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,zona,clasif_sbs,nivel_educ
0,0,235,FAMILIAR,30,3748,93.0,5,3500.0,,0.0,214,Lima,4,UNIVERSITARIA
1,0,18,FAMILIAR,32,4598,9.0,12,900.0,1824.67,1933.75,175,La Libertad,1,TECNICA
2,0,0,FAMILIAR,26,5148,8.0,2,2400.0,2797.38,188.29,187,Lima,0,UNIVERSITARIA
3,0,0,FAMILIAR,36,5179,20.0,12,2700.0,,0.0,187,Ancash,0,TECNICA
4,0,0,FAMILIAR,46,3960,,1,3100.0,2000.0,11010.65,189,Lima,0,TECNICA


In [7]:
df.describe()

Unnamed: 0,mora,atraso,edad,dias_lab,exp_sf,nivel_ahorro,ingreso,linea_sf,deuda_sf,score,clasif_sbs
count,8399.0,8399.0,8399.0,8399.0,6569.0,8399.0,8399.0,7272.0,7938.0,8399.0,8399.0
mean,0.704251,4.46315,36.399095,5555.888796,32.401583,10.593166,4350.406997,11987.241038,6110.724308,196.619955,0.563519
std,0.456406,14.27084,9.825764,2153.24414,32.866232,3.374619,5367.058953,21322.801655,11177.989799,19.544348,0.905637
min,0.0,0.0,20.0,2956.0,0.0,0.0,123.7,0.0,0.0,134.0,0.0
25%,0.0,0.0,29.0,4174.0,7.0,12.0,1366.67,1169.3725,478.32,182.0,0.0
50%,1.0,0.0,34.0,4904.0,20.0,12.0,2400.0,4030.12,2258.755,197.0,0.0
75%,1.0,2.0,42.0,6182.0,51.0,12.0,4900.0,12086.6275,5755.15,212.0,1.0
max,1.0,245.0,85.0,20700.0,130.0,12.0,30000.0,121543.4,57094.38,266.0,4.0


In [8]:
info = df.shape
print("La cantidad de filas y columnas en nuestro dataframe es de:",info)

La cantidad de filas y columnas en nuestro dataframe es de: (8399, 14)


# FASE 3: Preparación de los datos

# FASE 4: Modelado

# FASE 5: Evaluación del modelo

# FASE 6: Despliegue