Aquí simplemente obtenemos el conjunto de entrenamiento y test y lo guardamos en archivo Excel.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [6]:
file_path_name = "dataset/DATASET.xlsx"
df = pd.read_excel(file_path_name)

In [8]:
cols_duplicadas = ['fc', 'elevation', 'azimuth', 'year', 'mmdd', 'hour']

# Creamos una "máscara" (True si es duplicada, False si es única/original)
# keep='first' marca como True (duplicada) todas las apariciones MENOS la primera.
mask_duplicadas = df.duplicated(subset=cols_duplicadas, keep='first')
cant_duplicadas = mask_duplicadas.sum()

print(f"--- REPORTE DE DUPLICADOS ---")

if cant_duplicadas > 0:
    print(f"Se detectaron {cant_duplicadas} filas repetidas que serán eliminadas.")
    
    # 3. VISUALIZACIÓN: Mostramos una muestra de lo que se va a borrar
    print("\n--- Muestra de filas a eliminar (Primeras 5) ---")
    # Creamos un dataframe temporal solo con las duplicadas para visualizarlas
    # Mostramos solo las columnas clave para verificar rápido, pero puedes quitar el filtro de columnas
    filas_a_borrar = df[mask_duplicadas]
    print(filas_a_borrar[cols_duplicadas].head()) 
    
    # 4. ACCIÓN: Eliminamos usando la inversa de la máscara (~)
    # Esto es equivalente a drop_duplicates pero más explícito ya que calculamos la máscara antes
    df = df[~mask_duplicadas]
    
    print(f"\n Limpieza completada. Filas restantes: {df.shape[0]}")

else:
    print("No se encontraron duplicados. Todo en orden.")

print("-----------------------------")

--- REPORTE DE DUPLICADOS ---
Se detectaron 2 filas repetidas que serán eliminadas.

--- Muestra de filas a eliminar (Primeras 5) ---
           fc  elevation  azimuth  year   mmdd  hour
939  10000000          5       98  2010  06-06     4
940  10000000          5       98  2010  06-06     8

 Limpieza completada. Filas restantes: 37470
-----------------------------


In [9]:
x_columns = ['fc', 'elevation', 'azimuth', 'year','mmdd_modified', 'mmdd', 'hour',
                      'day_of_year', 'mmdd_sin', 'mmdd_cos', 'hour_sin', 'hour_cos']
# Quitamos las columnas que no son de interes 
drop_columns = ['final_latitude', 'final_longitude', 'final_elevation']
df = df.drop(columns = drop_columns)

x_df = df[x_columns]
# quitamos las columnas de entrada. 
y_df = df.drop(columns=x_columns)


In [10]:
x_df.head()

Unnamed: 0,fc,elevation,azimuth,year,mmdd_modified,mmdd,hour,day_of_year,mmdd_sin,mmdd_cos,hour_sin,hour_cos
0,10000000,5,98,2010,2010-01-01,01-01,0,1,0.017213,0.999852,0.0,1.0
1,10000000,5,98,2010,2010-01-01,01-01,4,1,0.017213,0.999852,0.8660254,0.5
2,10000000,5,98,2010,2010-01-01,01-01,8,1,0.017213,0.999852,0.8660254,-0.5
3,10000000,5,98,2010,2010-01-01,01-01,12,1,0.017213,0.999852,1.224647e-16,-1.0
4,10000000,5,98,2010,2010-01-01,01-01,16,1,0.017213,0.999852,-0.8660254,-0.5


In [11]:
x_train,x_test,y_train,y_test = train_test_split(x_df,y_df,test_size=0.2,random_state=42)


In [13]:
x_train.to_excel("Train_Test/Dataset_Separado/x_train_new.xlsx",index = False)
x_test.to_excel("Train_Test/Dataset_Separado/x_test_new.xlsx",index = False)
y_train.to_excel("Train_Test/Dataset_Separado/y_train_new.xlsx",index = False)
y_test.to_excel("Train_Test/Dataset_Separado/y_test_new.xlsx",index = False)
