# **RECORDATORIO:** SUBIR "btcusd_1-min_data.csv" A 01_raw

# **IMPORTACIONES** 

In [6]:
#Ejecutar las importaciones m√°s generales
import pandas as pd
import seaborn as sns
import numpy as np
import os, sys
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# **GENERACI√ìN DEL DATASET FINAL** 
*Al final de los siguientes bloques de c√≥digo deber√≠as tener un dataset en 03_primary - Este considera el formato UNIX -> DIA y se encuentra escalado para el entrenamiento de modelos*

### SUBIDA INICIAL DE DATASET BASE Y CREACI√ìN DE DAILY, FORMATO UNIX (MIN) -> DIA 

In [8]:
# üîô Subir una carpeta desde la ubicaci√≥n actual del notebook
parent_dir = os.path.abspath(os.path.join(os.getcwd(), ".."))

# Ruta del archivo original (minutos)
path = os.path.join(parent_dir, "data", "01_raw", "btcusd_1-min_data.csv")

print("üìÑ Archivo detectado en:", path)

# Verificar existencia
if not os.path.exists(path):
    raise FileNotFoundError(f"‚ùå No se encontr√≥ el archivo en: {path}")

# Detectar tama√±o del archivo
file_size_mb = os.path.getsize(path) / (1024**2)
print(f"üì¶ Tama√±o del archivo: {file_size_mb:.2f} MB")

# Crear acumulador de resultados
df_daily_total = []

# Leer todo el archivo por chunks (procesa el dataset completo)
chunk_size = 500_000  # medio mill√≥n de filas por bloque (~200 MB aprox)
print("üöÄ Procesando dataset completo en bloques...")

for i, chunk in enumerate(pd.read_csv(path, chunksize=chunk_size)):
    print(f"üß© Procesando bloque {i+1}...")

    # Asegurar conversi√≥n de tiempo
    chunk['Timestamp'] = pd.to_datetime(chunk['Timestamp'], unit='s')
    chunk = chunk.set_index('Timestamp')

    # Resample diario (1D)
    df_daily = chunk.resample('1D').agg({
        'Open': 'first',
        'High': 'max',
        'Low': 'min',
        'Close': 'last',
        'Volume': 'sum'
    })
    df_daily_total.append(df_daily)

# Unir todos los bloques diarios
print("üßÆ Combinando resultados...")
df_daily_full = pd.concat(df_daily_total).sort_index()

# Agrupar otra vez para consolidar (por si hay solapamiento entre chunks)
df_daily_full = df_daily_full.groupby(df_daily_full.index).agg({
    'Open': 'first',
    'High': 'max',
    'Low': 'min',
    'Close': 'last',
    'Volume': 'sum'
}).dropna(subset=['Open'])

# üÜï Agregar columna 't' = n√∫mero de d√≠a consecutivo
df_daily_full['t'] = range(1, len(df_daily_full) + 1)

print("‚úÖ Transformaci√≥n completa.")
print("Dimensiones finales:", df_daily_full.shape)
display(df_daily_full.head())

# Guardar versi√≥n diaria en formato Parquet (m√°s r√°pido y comprimido)
output_path = os.path.join(parent_dir, "data", "02_intermediate", "btcusd_daily.parquet")
os.makedirs(os.path.dirname(output_path), exist_ok=True)

df_daily_full.to_parquet(output_path, index=True, compression="snappy")
print(f"üíæ Dataset diario guardado en formato Parquet en: {output_path}")

üìÑ Archivo detectado en: c:\Users\AlexandreKz\Documents\GitHub\EVAL3_IDN\data\01_raw\btcusd_1-min_data.csv
üì¶ Tama√±o del archivo: 358.74 MB
üöÄ Procesando dataset completo en bloques...
üß© Procesando bloque 1...
üß© Procesando bloque 2...
üß© Procesando bloque 3...
üß© Procesando bloque 4...
üß© Procesando bloque 5...
üß© Procesando bloque 6...
üß© Procesando bloque 7...
üß© Procesando bloque 8...
üß© Procesando bloque 9...
üß© Procesando bloque 10...
üß© Procesando bloque 11...
üß© Procesando bloque 12...
üß© Procesando bloque 13...
üß© Procesando bloque 14...
üß© Procesando bloque 15...
üßÆ Combinando resultados...
‚úÖ Transformaci√≥n completa.
Dimensiones finales: (4994, 6)


Unnamed: 0_level_0,Open,High,Low,Close,Volume,t
Timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-01,4.58,4.84,4.58,4.84,10.0,1
2012-01-02,4.84,5.0,4.84,5.0,10.1,2
2012-01-03,5.0,5.32,5.0,5.29,107.085281,3
2012-01-04,5.29,5.57,4.93,5.57,107.23326,4
2012-01-05,5.57,6.46,5.57,6.42,70.328742,5


üíæ Dataset diario guardado en formato Parquet en: c:\Users\AlexandreKz\Documents\GitHub\EVAL3_IDN\data\02_intermediate\btcusd_daily.parquet


In [9]:
# üîô Subir una carpeta desde la ubicaci√≥n actual del notebook
parent_dir = os.path.abspath(os.path.join(os.getcwd(), ".."))

# Ruta del dataset diario (Parquet)
daily_path = os.path.join(parent_dir, "data", "02_intermediate", "btcusd_daily.parquet")

print("üìÑ Archivo detectado en:", daily_path)

# Verificar existencia
if not os.path.exists(daily_path):
    raise FileNotFoundError(f"‚ùå No se encontr√≥ el archivo en: {daily_path}")

# Cargar dataset diario
btc_daily = pd.read_parquet(daily_path)

# Confirmar carga
print(f"‚úÖ Dataset diario cargado correctamente desde:\n{daily_path}")
print(f"Dimensiones: {btc_daily.shape}")
display(btc_daily.head())
display(btc_daily.tail())

üìÑ Archivo detectado en: c:\Users\AlexandreKz\Documents\GitHub\EVAL3_IDN\data\02_intermediate\btcusd_daily.parquet
‚úÖ Dataset diario cargado correctamente desde:
c:\Users\AlexandreKz\Documents\GitHub\EVAL3_IDN\data\02_intermediate\btcusd_daily.parquet
Dimensiones: (4994, 6)


Unnamed: 0_level_0,Open,High,Low,Close,Volume,t
Timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012-01-01,4.58,4.84,4.58,4.84,10.0,1
2012-01-02,4.84,5.0,4.84,5.0,10.1,2
2012-01-03,5.0,5.32,5.0,5.29,107.085281,3
2012-01-04,5.29,5.57,4.93,5.57,107.23326,4
2012-01-05,5.57,6.46,5.57,6.42,70.328742,5


Unnamed: 0_level_0,Open,High,Low,Close,Volume,t
Timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2025-08-29,112581.0,112654.0,107488.0,108362.0,1977.324125,4990
2025-08-30,108376.0,108924.0,107389.0,108827.0,790.830131,4991
2025-08-31,108827.0,109503.0,108092.0,108269.0,747.367797,4992
2025-09-01,108268.0,109907.0,107270.0,109244.0,1584.061806,4993
2025-09-02,109255.0,111775.0,108426.0,111198.0,2117.614083,4994


### Escalado con scikitlearn

In [11]:
# Seleccionar columnas a escalar
cols = ['Low', 'High', 'Close', 'Volume']

# Inicializar escalador
scaler = StandardScaler()

# Ajustar y transformar
scaled_data = scaler.fit_transform(btc_daily[cols])

# Crear nuevo DataFrame escalado
btc_scaled = pd.DataFrame(scaled_data, columns=cols, index=btc_daily.index)

# Verificar resultados
print("üìä Primeras filas del dataset escalado:\n")
display(btc_scaled.head())

print("\nüìà Estad√≠sticas tras el escalado (deben tener media ‚âà 0 y std ‚âà 1):\n")
display(btc_scaled.describe().T[['mean', 'std']].round(4))

üìä Primeras filas del dataset escalado:



Unnamed: 0_level_0,Low,High,Close,Volume
Timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-01-01,-0.705891,-0.710982,-0.708564,-0.82501
2012-01-02,-0.705881,-0.710977,-0.708558,-0.824999
2012-01-03,-0.705875,-0.710965,-0.708548,-0.81428
2012-01-04,-0.705878,-0.710957,-0.708537,-0.814264
2012-01-05,-0.705854,-0.710925,-0.708507,-0.818342



üìà Estad√≠sticas tras el escalado (deben tener media ‚âà 0 y std ‚âà 1):



Unnamed: 0,mean,std
Low,-0.0,1.0001
High,0.0,1.0001
Close,0.0,1.0001
Volume,-0.0,1.0001
