# 0. Split inicial del dataset (enfoque purista)

En este notebook se realiza el **split inicial** del dataset original en dos partes:

- `train_master.csv` → 80% de los datos, que se usará para EDA, CDA, segmentación y modelado.
- `test_master.csv` → 20% de los datos, que se reservará para la **evaluación final** del modelo.

⚠️ **Importante:** aquí todavía **no existen** las variables de churn ni CLV; el split se hace sobre el dataset crudo.

## 1. Cargar dataset original

Cargamos el archivo original `superstore_data.csv` desde la carpeta `data/`. En tu proyecto local, este notebook debería estar en la carpeta `notebooks/`, por lo que la ruta relativa será `../data/superstore_data.csv`.

In [None]:
text = """import pandas as pd
from pathlib import Path

data_path = Path("../data/superstore_data.csv")
df = pd.read_csv(data_path)
df.shape
"""
print(text)

## 2. División en train y test

Usamos `train_test_split` para dividir el dataset en dos subconjuntos:

- `train_master` (80%)
- `test_master` (20%)

Si en tu dataset original ya existiera alguna columna de etiqueta, podrías usar `stratify` para mantener las proporciones; si no, se hace un split simple aleatorio.

In [None]:
text = """from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(
    df,
    test_size=0.2,
    random_state=42,
    shuffle=True
)

train_df.shape, test_df.shape
"""
print(text)

## 3. Guardar `train_master.csv` y `test_master.csv`

Guardamos ambos subconjuntos en la carpeta `data/` para que el resto de notebooks los usen:

- `1_EDA_Superstore.ipynb` trabajará con `train_master.csv`.
- `5_Evaluacion_TestMaster.ipynb` usará `test_master.csv` para la evaluación final del modelo.

In [None]:
text = """output_path = Path("../data")
output_path.mkdir(exist_ok=True)

train_df.to_csv(output_path / "train_master.csv", index=False)
test_df.to_csv(output_path / "test_master.csv", index=False)

print("train_master.csv y test_master.csv guardados en:", output_path)
"""
print(text)