In [5]:
import sys
from pathlib import Path
sys.path.append(str(Path.cwd().parent))
from src.load_data import load_data
from sklearn.model_selection import train_test_split

# 1) Define el directorio raíz del proyecto y el subdirectorio 'data'
root_dir = Path().cwd().parent
data_dir = root_dir / 'data'

# 2) Crea 'data/' si no existe
if not data_dir.exists():
    data_dir.mkdir(parents=True, exist_ok=True)
    print(f"📁 Directorio de datos creado en: {data_dir}")

# 3) Carga el DataFrame
df = load_data()

# 4) Separa en train (70%) y test (30%) estratificado por 'target'
train_df, test_df = train_test_split(
    df,
    test_size=0.3,
    stratify=df['target'],
    random_state=42,
)

# 5) Rutas de salida en formato Parquet
train_path = data_dir / 'train.parquet'
test_path  = data_dir / 'test.parquet'

# 6) Guarda los archivos
train_df.to_parquet(train_path, index=False)
test_df.to_parquet(test_path, index=False)

print(f'✅ Train guardado en: {train_path}')
print(f'✅ Test  guardado en: {test_path}')

📁 Directorio de datos creado en: /home/lynn/Documentos/development/scripts-notebooks/feast-aws-deepchecks/data
✅ Train guardado en: /home/lynn/Documentos/development/scripts-notebooks/feast-aws-deepchecks/data/train.parquet
✅ Test  guardado en: /home/lynn/Documentos/development/scripts-notebooks/feast-aws-deepchecks/data/test.parquet
