![](https://www.dii.uchile.cl/wp-content/uploads/2021/06/Magi%CC%81ster-en-Ciencia-de-Datos.png)

# Proyecto: Riesgo en el Banco Giturra

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

### Cuerpo Docente:

- Profesor: Gabriel Iturra, Ignacio Meza De La Jara
- Auxiliar: Sebastián Tinoco
- Ayudante: Arturo Lazcano, Angelo Muñoz

_Por favor, lean detalladamente las instrucciones de la tarea antes de empezar a escribir._

---

## Reglas

- Fecha de entrega: 19/12/2023
- **Grupos de 2 personas.**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Estrictamente prohibida la copia.
- Pueden usar cualquier material del curso que estimen conveniente.

---

### Integrantes:
- Nicolás Acevedo
- Fabiola Pizarro

### **Link de repositorio de GitHub:** `https://github.com/nicoacevedor/MDS7202`


# Presentación del Problema


![](https://www.diarioeldia.cl/u/fotografias/fotosnoticias/2019/11/8/67218.jpg)


**Giturra**, un banquero astuto y ambicioso, estableció su propio banco con el objetivo de obtener enormes ganancias. Sin embargo, su reputación se vio empañada debido a las tasas de interés usureras que imponía a sus clientes. A medida que su banco crecía, Giturra enfrentaba una creciente cantidad de préstamos impagados, lo que amenazaba su negocio y su prestigio.

Para abordar este desafío, Giturra reconoció la necesidad de reducir los riesgos de préstamo y mejorar la calidad de los préstamos otorgados. Decidió aprovechar la ciencia de datos y el análisis de riesgo crediticio. Contrató a un equipo de expertos para desarrollar un modelo predictivo de riesgo crediticio.

Cabe señalar que lo modelos solicitados por el banquero deben ser interpretables. Ya que estos le permitira al equipo comprender y explicar cómo se toman las decisiones crediticias. Utilizando visualizaciones claras y explicaciones detalladas, pudieron identificar las características más relevantes, le permitirá analizar la distribución de la importancia de las variables y evaluar si los modelos son coherentes con el negocio.

Para esto Giturra les solicita crear un modelo de riesgo disponibilizandoles una amplia gama de variables de sus usuarios: como historiales de crédito, ingresos y otros factores financieros relevantes, para evaluar la probabilidad de incumplimiento de pago de los clientes. Con esta información, Giturra podra tomar decisiones más informadas en cuanto a los préstamos, ofreciendo condiciones más favorables a aquellos con menor riesgo de impago.


### Introducción

blablabla

### Importación de librerías a utilizar

In [1]:
from lightgbm import LGBMClassifier
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier

### Análisis exploratiorio de los datos

In [2]:
df_raw = pd.read_parquet("dataset.pq")
print(df_raw.info())
df_raw.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12500 entries, 0 to 12499
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   customer_id               12500 non-null  object 
 1   age                       12500 non-null  float64
 2   occupation                12500 non-null  object 
 3   annual_income             12500 non-null  float64
 4   monthly_inhand_salary     10584 non-null  float64
 5   num_bank_accounts         12500 non-null  int64  
 6   num_credit_card           12500 non-null  int64  
 7   interest_rate             12500 non-null  int64  
 8   num_of_loan               12500 non-null  float64
 9   delay_from_due_date       12500 non-null  int64  
 10  num_of_delayed_payment    11660 non-null  float64
 11  changed_credit_limit      12246 non-null  float64
 12  num_credit_inquiries      12243 non-null  float64
 13  outstanding_debt          12500 non-null  float64
 14  credit

Unnamed: 0,customer_id,age,occupation,annual_income,monthly_inhand_salary,num_bank_accounts,num_credit_card,interest_rate,num_of_loan,delay_from_due_date,...,num_credit_inquiries,outstanding_debt,credit_utilization_ratio,credit_history_age,payment_of_min_amount,total_emi_per_month,amount_invested_monthly,payment_behaviour,monthly_balance,credit_score
0,CUS_0xd40,23.0,Scientist,19114.12,1824.843333,3,4,3,4.0,3,...,4.0,809.98,23.933795,,No,49.574949,24.785217,High_spent_Medium_value_payments,358.124168,0
1,CUS_0x21b1,28.0,Teacher,34847.84,3037.986667,2,4,6,1.0,3,...,2.0,605.03,32.933856,27.0,No,18.816215,218.904344,Low_spent_Small_value_payments,356.078109,0
2,CUS_0x2dbc,34.0,Engineer,143162.64,12187.22,1,5,8,3.0,8,...,3.0,1303.01,38.374753,18.0,No,246.992319,10000.0,High_spent_Small_value_payments,895.494583,0
3,CUS_0xb891,55.0,Entrepreneur,30689.89,2612.490833,2,5,4,-100.0,4,...,4.0,632.46,27.332515,17.0,No,16.415452,125.617251,High_spent_Small_value_payments,379.216381,0
4,CUS_0x1cdb,21.0,Developer,35547.71,2853.309167,7,5,5,-100.0,1,...,4.0,943.86,25.862922,31.0,Yes,0.0,181.330901,High_spent_Small_value_payments,364.000016,0


In [3]:
df_raw.describe()

Unnamed: 0,age,annual_income,monthly_inhand_salary,num_bank_accounts,num_credit_card,interest_rate,num_of_loan,delay_from_due_date,num_of_delayed_payment,changed_credit_limit,num_credit_inquiries,outstanding_debt,credit_utilization_ratio,credit_history_age,total_emi_per_month,amount_invested_monthly,monthly_balance,credit_score
count,12500.0,12500.0,10584.0,12500.0,12500.0,12500.0,12500.0,12500.0,11660.0,12246.0,12243.0,12500.0,12500.0,11380.0,12500.0,11914.0,12145.0,12500.0
mean,105.77184,161620.6,4186.634963,16.93992,23.17272,73.21336,3.09944,21.06088,32.93542,10.398582,26.29233,1426.220376,32.349265,18.230404,1488.394291,638.798715,-2.744614e+22,0.28816
std,664.502705,1297842.0,3173.690362,114.350815,132.005866,468.682227,65.105277,14.863091,237.43768,6.799253,181.821031,1155.169458,5.156815,8.302078,8561.44991,2049.195193,3.024684e+24,0.452924
min,-500.0,7005.93,303.645417,-1.0,0.0,1.0,-100.0,-5.0,-3.0,-6.49,0.0,0.23,20.10077,0.0,0.0,0.0,-3.333333e+26,0.0
25%,25.0,19453.33,1622.408646,3.0,4.0,8.0,1.0,10.0,9.0,5.37,4.0,566.0725,28.066517,12.0,31.496968,73.73681,270.1501,0.0
50%,33.0,37572.38,3087.595,6.0,5.0,14.0,3.0,18.0,14.0,9.41,6.0,1166.155,32.418953,18.0,72.887628,134.093193,339.3885,0.0
75%,42.0,72690.21,5967.9375,7.0,7.0,20.0,5.0,28.0,18.0,14.94,10.0,1945.9625,36.62365,25.0,169.634826,261.664256,471.4245,1.0
max,8678.0,23834700.0,15204.633333,1756.0,1499.0,5789.0,1495.0,67.0,4293.0,36.97,2554.0,4998.07,48.199824,33.0,81971.0,10000.0,1463.792,1.0


### 3. Preparación de Datos

In [4]:
# Limpieza
# Edad entre 14 y 100
df_raw = df_raw[(df_raw['age'] >= 14) & (df_raw['age'] <= 100)]
# interés máximo de 100%
df_raw = df_raw[df_raw['interest_rate'] <= 100]
# eliminar valores negativos
df_raw = df_raw[df_raw['num_of_loan'] >= 0]
df_raw = df_raw[df_raw['num_bank_accounts'] >= 0]
df_raw = df_raw[df_raw['delay_from_due_date'] >= 0]
df_raw = df_raw[df_raw['num_of_delayed_payment'] >= 0]

# Cambiar tipos de datos
df_raw['age'] = df_raw['age'].astype('int64')
df_raw['num_of_loan'] = df_raw['num_of_loan'].astype('int64')
df_raw['delay_from_due_date'] = df_raw['delay_from_due_date'].astype('float64')

In [6]:
df_raw.shape

(10528, 22)

#### 3.1 Preprocesamiento con `ColumnTransformer`

In [None]:
transformer = ColumnTransformer([])

#### 3.2 Holdout 

### 4 Baseline

In [None]:
random_state = 42

dummy_pipeline = Pipeline([
    ("transformer", transformer),
    ("dummy", DummyClassifier(strategy="stratified", random_state=random_state))
])


logistic_reg_pipeline = Pipeline([
    ("transformer", transformer),
    ("logistic_reg", LogisticRegression(random_state=random_state))
])

k_neighbors_pipeline = Pipeline([
    ("transformer", transformer),
    ("k_neighbors", KNeighborsClassifier())
])

decision_tree_pipeline = Pipeline([
    ("transformer", transformer),
    ("decision_tree", DecisionTreeClassifier(random_state=random_state))
])

svc_pipeline = Pipeline([
    ("transformer", transformer),
    ("svc", SVC(random_state=random_state))
])

random_forest_pipeline = Pipeline([
    ("transformer", transformer),
    ("random_forest", RandomForestClassifier(random_state=random_state))
])

lgbm_pipeline = Pipeline([
    ("transformer", transformer),
    ("lgbm", LGBMClassifier(random_state=random_state))
])

xgb_pipeline = Pipeline([
    ("transformer", transformer),
    ("xgb", XGBClassifier(random_state=random_state))
])