In [3]:
import pandas as pd

# 1. Cargar el dataset
file_path = 'spy.us.txt'
df = pd.read_csv(file_path)

# 2. Eliminar la columna 'OpenInt' (ya que siempre es 0)
if 'OpenInt' in df.columns:
    df = df.drop(columns=['OpenInt'])
    print("Columna 'OpenInt' eliminada con éxito.")

# 3. Eliminar las filas con valores nulos
df_cleaned = df.dropna()

# 4. Verificar las columnas restantes y el tamaño
print(f"Columnas finales: {df_cleaned.columns.tolist()}")
print(f"Filas resultantes: {len(df_cleaned)}")

# 5. Guardar el resultado limpio
df_cleaned.to_csv('spy_cleaned.csv', index=False)

Columna 'OpenInt' eliminada con éxito.
Columnas finales: ['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
Filas resultantes: 3201


In [4]:
import pandas as pd

# 1. Cargar los datos limpios
df = pd.read_csv('spy_cleaned.csv')

# 2. Crear el objetivo (Target): el 'High' del registro siguiente
# shift(-1) mueve los valores hacia arriba una posición
df['Target_High'] = df['High'].shift(-1)

# 3. Eliminar la última fila
# La última fila no tiene un "día siguiente", por lo que queda como nula
df = df.dropna(subset=['Target_High'])

# 4. División de datos (Temporal Split - SIN SHUFFLE)
# Usaremos 70% entrenamiento, 15% validación y 15% test
n = len(df)
train_end = int(n * 0.70)
val_end = int(n * 0.85)

train_df = df.iloc[:train_end]
val_df = df.iloc[train_end:val_end]
test_df = df.iloc[val_end:]

# 5. Guardar los archivos para usarlos con River
train_df.to_csv('spy_train.csv', index=False)
val_df.to_csv('spy_val.csv', index=False)
test_df.to_csv('spy_test.csv', index=False)

print(f"Total de muestras: {n}")
print(f"Muestras de Entrenamiento: {len(train_df)}")
print(f"Muestras de Validación: {len(val_df)}")
print(f"Muestras de Test: {len(test_df)}")

# Verificamos que el Target_High sea efectivamente el High del día siguiente
print("\nPrimeras filas del dataset transformado:")
print(df[['Date', 'High', 'Target_High']].head())

Total de muestras: 3200
Muestras de Entrenamiento: 2240
Muestras de Validación: 480
Muestras de Test: 480

Primeras filas del dataset transformado:
         Date    High  Target_High
0  2005-02-25  106.00       105.68
1  2005-02-28  105.68       105.87
2  2005-03-01  105.87       106.22
3  2005-03-02  106.22       106.20
4  2005-03-03  106.20       107.01
