# 01 - Separacion Train / Test

## Por que es lo primero que debemos hacer?

En cualquier proyecto de modelizacion de datos, **el primer paso antes de hacer cualquier otra cosa** debe ser separar nuestros datos en dos conjuntos:

- **Train (entrenamiento):** datos que usaremos para explorar, limpiar, transformar y entrenar nuestros modelos.
- **Test:** datos que **NO tocaremos** hasta el final del proyecto, cuando queramos evaluar como de buenos son nuestros modelos con datos que nunca han visto.

### Por que antes de cualquier analisis?

Si primero exploramos todos los datos y luego separamos, estamos **contaminando** el conjunto de test. Cualquier decision que tomemos (eliminar columnas, tratar outliers, imputar valores, seleccionar variables...) estara influenciada por haber visto los datos de test. Esto provoca una estimacion **optimista** del rendimiento real del modelo, conocido como **data leakage** (fuga de informacion).

### Analogia

Imaginad un examen:
- **Train** = los ejercicios de practica con los que estudias.
- **Test** = el examen final.

Si estudias con las preguntas del examen final, sacaras buena nota... pero no demuestra que hayas aprendido. Lo mismo pasa con los modelos: si "ven" los datos de test durante el desarrollo, sus metricas no reflejan su capacidad real de generalizacion.

### Que datos usamos?

Solo trabajaremos con el dataset **accepted** (`accepted_sample_small.csv`). El dataset **rejected** no contiene informacion util para nuestro proyecto de modelizacion, ya que esos prestamos nunca fueron concedidos y por tanto no tienen variable objetivo (loan_status).

## 1. Carga de datos

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv("data/accepted_sample_small.csv")
print(f"Dimensiones del dataset: {df.shape[0]} filas x {df.shape[1]} columnas")
df.head()

Dimensiones del dataset: 100000 filas x 151 columnas


Unnamed: 0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,...,hardship_payoff_balance_amount,hardship_last_payment_amount,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
0,76292849,,20475.0,20475.0,20475.0,60 months,14.46,481.32,C,C4,...,,,Cash,N,,,,,,
1,98074377,,30000.0,30000.0,30000.0,36 months,11.44,988.43,B,B4,...,,,Cash,N,,,,,,
2,44137339,,7200.0,7200.0,7200.0,36 months,13.33,243.75,C,C3,...,,,Cash,N,,,,,,
3,68586193,,8000.0,8000.0,8000.0,36 months,8.49,252.51,B,B1,...,,,Cash,N,,,,,,
4,86482573,,15000.0,15000.0,15000.0,36 months,9.49,480.43,B,B2,...,,,Cash,N,,,,,,


## 2. Separacion Train / Test

Usamos un **80/20 split** (80% train, 20% test), que es una proporcion habitual. Fijamos una `random_state` para que el resultado sea **reproducible**: cualquiera que ejecute este notebook obtendra exactamente la misma particion.

In [2]:
RANDOM_STATE = 42
TEST_SIZE = 0.2

df_train, df_test = train_test_split(
    df,
    test_size=TEST_SIZE,
    random_state=RANDOM_STATE,
)

print(f"Train: {df_train.shape[0]} filas ({df_train.shape[0]/len(df)*100:.1f}%)")
print(f"Test:  {df_test.shape[0]} filas ({df_test.shape[0]/len(df)*100:.1f}%)")

Train: 80000 filas (80.0%)
Test:  20000 filas (20.0%)


## 3. Guardar los datasets

Guardamos ambos conjuntos como CSV. A partir de ahora, **todo el analisis exploratorio, limpieza y modelado se hara SOLO con train**. El fichero de test no se abrira hasta la evaluacion final.

In [3]:
df_train.to_csv("data/accepted_train.csv", index=False)
df_test.to_csv("data/accepted_test.csv", index=False)

print("Ficheros guardados:")
print(f"  - data/accepted_train.csv ({df_train.shape[0]} filas)")
print(f"  - data/accepted_test.csv  ({df_test.shape[0]} filas)")

Ficheros guardados:
  - data/accepted_train.csv (80000 filas)
  - data/accepted_test.csv  (20000 filas)
