In [2]:
# Importamos las librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
import os


ORIGINAL_DATA_PATH = '../data/raw/dataset.csv' 

TARGET_COLUMN = 'churn' 

OUTPUT_DIR = '../data/raw/'

TEST_SIZE = 0.2

RANDOM_STATE = 42

os.makedirs(OUTPUT_DIR, exist_ok=True)

try:
    print(f"Cargando datos desde '{ORIGINAL_DATA_PATH}'...")
    df = pd.df = pd.read_csv(ORIGINAL_DATA_PATH, sep=';', low_memory=False)
    print("Datos cargados correctamente.")
    print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
except FileNotFoundError:
    print(f"Error: El fichero '{ORIGINAL_DATA_PATH}' no se encontró.")
    exit()

X = df.drop(TARGET_COLUMN, axis=1)

y = df[TARGET_COLUMN]

X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=TEST_SIZE, 
    random_state=RANDOM_STATE,
    stratify=y 
)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} filas")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} filas")

train_df = pd.concat([X_train, y_train], axis=1)
test_df = pd.concat([X_test, y_test], axis=1)

train_path = os.path.join(OUTPUT_DIR, 'train.csv')
test_path = os.path.join(OUTPUT_DIR, 'test.csv')

print(f"Guardando conjunto de entrenamiento en '{train_path}' (separado por ';')...")
train_df.to_csv(train_path, index=False, sep=';') 

print(f"Guardando conjunto de prueba en '{test_path}' (separado por ';')...")
test_df.to_csv(test_path, index=False, sep=';') 




Cargando datos desde '../data/raw/dataset.csv'...
Datos cargados correctamente.
El dataset tiene 100000 filas y 100 columnas.
Tamaño del conjunto de entrenamiento: 80000 filas
Tamaño del conjunto de prueba: 20000 filas
Guardando conjunto de entrenamiento en '../data/raw/train.csv' (separado por ';')...
Guardando conjunto de prueba en '../data/raw/test.csv' (separado por ';')...
