# **Data Science I: Fundamentos para la Ciencia de Datos**

## **Datasets que se van analizar para su selección:**

**Banking Dataset Classification** → clasificación: predecir si los clientes de un banco serán propensos a sacar un crédito a largo plazo

[Banking Dataset Classification | Kaggle](https://www.kaggle.com/datasets/rashmiranu/banking-dataset-classification)

**Loan Default Dataset** → clasificación: predecir si los clientes de un banco defaultearán un préstamo o no en función de las características dadas

[Loan Default Dataset | Kaggle](https://www.kaggle.com/datasets/yasserh/loan-default-dataset)

**Bank Customer Churn Dataset** → clasificación: determinar si un cliente abandonará o no un banco.

[Bank Customer Churn Dataset | Kaggle](https://www.kaggle.com/datasets/gauravtopre/bank-customer-churn-dataset)


**Configuración Inicial: Conexión a Google Drive**

Primero, es asegurarse de montar Google Drive en el entorno para lograr ubicar los datasets:

In [1]:
# Conectar Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## **1. Banking Dataset Classification**

In [4]:
# Importar librerías
import pandas as pd
from IPython.display import display

# Ruta del archivo en Google Drive
banking_path = "/content/drive/MyDrive/datasets/new_train.csv"

# Leer el dataset
df_banking = pd.read_csv(banking_path)

# Configuraciones para mostrar el DataFrame completo
pd.set_option('display.max_rows', 20)         # Número máximo de filas
pd.set_option('display.max_columns', None)    # Mostrar todas las columnas
pd.set_option('display.expand_frame_repr', False) # Evitar saltos de línea en la tabla

# Mostrar el DataFrame
display(df_banking)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,y
0,49,blue-collar,married,basic.9y,unknown,no,no,cellular,nov,wed,227,4,999,0,nonexistent,no
1,37,entrepreneur,married,university.degree,no,no,no,telephone,nov,wed,202,2,999,1,failure,no
2,78,retired,married,basic.4y,no,no,no,cellular,jul,mon,1148,1,999,0,nonexistent,yes
3,36,admin.,married,university.degree,no,yes,no,telephone,may,mon,120,2,999,0,nonexistent,no
4,59,retired,divorced,university.degree,no,no,no,cellular,jun,tue,368,2,999,0,nonexistent,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32945,28,services,single,high.school,no,yes,no,cellular,jul,tue,192,1,999,0,nonexistent,no
32946,52,technician,married,professional.course,no,yes,no,cellular,nov,fri,64,1,999,1,failure,no
32947,54,admin.,married,basic.9y,no,no,yes,cellular,jul,mon,131,4,999,0,nonexistent,no
32948,29,admin.,married,university.degree,no,no,no,telephone,may,fri,165,1,999,0,nonexistent,no


### **Variables relevantes del Banking Dataset Classification**:

* **Age**: Edad del cliente, puede influir en la probabilidad de solicitar créditos.
* **Job**: La ocupación puede reflejar la estabilidad económica.
* **Education**: El nivel educativo se puede correlacionar con el comportamiento financiero.
* **Marital**: El estado civil puede afectar las necesidades de crédito.
* **Housing**: Indica si ya tienen un crédito hipotecario.
* **Loan**: Si tienen préstamos actuales.
* **Duration**: Tiempo de duración de las llamadas previas, relevante para medir interés.
* **Poutcome**: Éxito de campañas anteriores.

Para predecir si un cliente será propenso a solicitar un crédito, es fundamental analizar variables como **age**, **job**, y **education**, que reflejan características personales. Además, **housing** y **loan** ayudan a entender el perfil crediticio actual del cliente. Variables como **duration** y **poutcome** aportan información sobre campañas anteriores, útil para medir interés.


## **2. Loan Default Dataset**

In [5]:
# Importar librerías
import pandas as pd
from IPython.display import display

# Ruta del archivo en Google Drive
loan_path = "/content/drive/MyDrive/datasets/Loan_Default.csv"

# Leer el dataset
df_loan = pd.read_csv(loan_path)

# Configuraciones para mostrar el DataFrame completo
pd.set_option('display.max_rows', 20)         # Número máximo de filas
pd.set_option('display.max_columns', None)    # Mostrar todas las columnas
pd.set_option('display.expand_frame_repr', False) # Evitar saltos de línea en la tabla

# Mostrar el DataFrame
display(df_loan)

Unnamed: 0,ID,year,loan_limit,Gender,approv_in_adv,loan_type,loan_purpose,Credit_Worthiness,open_credit,business_or_commercial,loan_amount,rate_of_interest,Interest_rate_spread,Upfront_charges,term,Neg_ammortization,interest_only,lump_sum_payment,property_value,construction_type,occupancy_type,Secured_by,total_units,income,credit_type,Credit_Score,co-applicant_credit_type,age,submission_of_application,LTV,Region,Security_Type,Status,dtir1
0,24890,2019,cf,Sex Not Available,nopre,type1,p1,l1,nopc,nob/c,116500,,,,360.0,not_neg,not_int,not_lpsm,118000.0,sb,pr,home,1U,1740.0,EXP,758,CIB,25-34,to_inst,98.728814,south,direct,1,45.0
1,24891,2019,cf,Male,nopre,type2,p1,l1,nopc,b/c,206500,,,,360.0,not_neg,not_int,lpsm,,sb,pr,home,1U,4980.0,EQUI,552,EXP,55-64,to_inst,,North,direct,1,
2,24892,2019,cf,Male,pre,type1,p1,l1,nopc,nob/c,406500,4.560,0.2000,595.00,360.0,neg_amm,not_int,not_lpsm,508000.0,sb,pr,home,1U,9480.0,EXP,834,CIB,35-44,to_inst,80.019685,south,direct,0,46.0
3,24893,2019,cf,Male,nopre,type1,p4,l1,nopc,nob/c,456500,4.250,0.6810,,360.0,not_neg,not_int,not_lpsm,658000.0,sb,pr,home,1U,11880.0,EXP,587,CIB,45-54,not_inst,69.376900,North,direct,0,42.0
4,24894,2019,cf,Joint,pre,type1,p1,l1,nopc,nob/c,696500,4.000,0.3042,0.00,360.0,not_neg,not_int,not_lpsm,758000.0,sb,pr,home,1U,10440.0,CRIF,602,EXP,25-34,not_inst,91.886544,North,direct,0,39.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
148665,173555,2019,cf,Sex Not Available,nopre,type1,p3,l1,nopc,nob/c,436500,3.125,0.2571,9960.00,180.0,not_neg,not_int,not_lpsm,608000.0,sb,pr,home,1U,7860.0,CIB,659,EXP,55-64,to_inst,71.792763,south,direct,0,48.0
148666,173556,2019,cf,Male,nopre,type1,p1,l1,nopc,nob/c,586500,5.190,0.8544,0.00,360.0,not_neg,not_int,not_lpsm,788000.0,sb,ir,home,4U,7140.0,CIB,569,CIB,25-34,not_inst,74.428934,south,direct,0,15.0
148667,173557,2019,cf,Male,nopre,type1,p4,l1,nopc,nob/c,446500,3.125,0.0816,1226.64,180.0,not_neg,not_int,not_lpsm,728000.0,sb,pr,home,1U,6900.0,CIB,702,EXP,45-54,not_inst,61.332418,North,direct,0,49.0
148668,173558,2019,cf,Female,nopre,type1,p4,l1,nopc,nob/c,196500,3.500,0.5824,4323.33,180.0,not_neg,not_int,not_lpsm,278000.0,sb,pr,home,1U,7140.0,EXP,737,EXP,55-64,to_inst,70.683453,North,direct,0,29.0


### **Variables relevantes del Loan Default Dataset**:

* **Credit_Score**: Directamente relacionado con el riesgo de default.
* **Loan_Type**: El tipo de préstamo puede indicar riesgos inherentes.
* **Loan_Purpose**: Razón del préstamo, importante para evaluar comportamientos.
* **Age**: La edad puede influir en el riesgo de default.
* **Region**: Puede reflejar factores económicos regionales.
* **LTV (Loan-to-Value)**: Proporción entre el préstamo y el valor del colateral, crucial para el riesgo.

El puntaje crediticio (**credit_score**) es clave para predecir el riesgo de incumplimiento. Variables como **loan_purpose** y **LTV** explican el uso del préstamo y el nivel de riesgo inherente. Características demográficas como **age** y **region** completan el análisis.


## **3. Bank Customer Churn Dataset**

In [6]:
# Importar librerías
import pandas as pd
from IPython.display import display

# Ruta del archivo en Google Drive
churn_path = "/content/drive/MyDrive/datasets/Bank_Customer_Churn_Prediction.csv"

# Leer el dataset
df_churn = pd.read_csv(churn_path)

# Configuraciones para mostrar el DataFrame completo
pd.set_option('display.max_rows', 20)         # Número máximo de filas
pd.set_option('display.max_columns', None)    # Mostrar todas las columnas
pd.set_option('display.expand_frame_repr', False) # Evitar saltos de línea en la tabla

# Mostrar el DataFrame
display(df_churn)

Unnamed: 0,customer_id,credit_score,country,gender,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn
0,15634602,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15606229,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,15569892,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,15584532,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,15682355,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


## **Variables relevantes Bank Customer Churn Dataset**:

* **Credit_Score**: Bajo puntaje puede estar asociado con mayores probabilidades de churn.
* **Country**: Podría haber diferencias regionales en tasas de churn.
* **Age**: Clientes jóvenes o mayores podrían tener diferentes tasas de abandono.
* **Balance**: Clientes con saldos bajos podrían ser más propensos a irse.
* **Products_Number**: La cantidad de productos podría indicar compromiso con el banco.
* **Active_Member**: Ser miembro activo puede correlacionarse negativamente con churn.
* **Churn**: Es la variable objetivo.

La variable objetivo es **churn**. Factores como **balance**, **products_number**, y **active_member** son determinantes para medir el compromiso del cliente con el banco. La variable **credit_score** y el país (**country**) ayudan a identificar patrones de abandono.


## Seleccion del Dataset a Analizar

El **Bank Customer Churn Dataset** es el más recomendable para continuar con el trabajo por estas razones:

* Claridad del Objetivo: El churn es un tema bien definido, con un objetivo claro que facilita el análisis.
* Versatilidad: Ofrece un buen balance entre variables categóricas y numéricas para preprocesamiento, análisis descriptivo y predictivo.
* Potencial para Visualizaciones: Es ideal para generar gráficos como;
 * Distribuciones de balance o credit_score.
 * Comparaciones entre products_number y churn.
 * Relación entre active_member y abandono.
 * Facilidad de Interpretación: Más amigable para stakeholders, dado que los conceptos de churn y balance son intuitivos.
