<a href="https://colab.research.google.com/github/kevinGM03/NeuroTrader/blob/main/PROYECTO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


Descargar los datos historicos de bitcoin desde 2017 hasta la fecha actual

In [None]:
import os
import requests
import pandas as pd
from zipfile import ZipFile
from io import BytesIO
from datetime import datetime

# Configuración de la carpeta de destino
output_folder = r'/content/drive/My Drive/PROYECTO/DATOS HISTORICOS'
if not os.path.exists(output_folder):
  os.makedirs(output_folder)

if os.path.exists(output_folder):
    print(f"La carpeta de destino existe: {output_folder}")

    # Fechas de inicio y configuración
    start_year = 2019
    start_month = 1
    end_year = datetime.now().year
    end_month = datetime.now().month
    end_day = datetime.now().day - 1  # Hasta el día anterior al actual
    symbol = 'BTCUSDT'
    interval = '1m'

    # URL base para datos de Binance en la ruta mensual y diaria
    monthly_base_url = 'https://data.binance.vision/data/spot/monthly/klines'
    daily_base_url = 'https://data.binance.vision/data/spot/daily/klines'

    def download_monthly_data(year, month):
        month_str = str(month).zfill(2)
        file_name = f"{symbol}-{interval}-{year}-{month_str}.zip"
        file_url = f"{monthly_base_url}/{symbol}/{interval}/{file_name}"

        yearly_folder = os.path.join(output_folder, f'{year}')
        if not os.path.exists(yearly_folder):
            os.makedirs(yearly_folder)

        output_file = os.path.join(yearly_folder, f'{symbol}_data_{year}_{month_str}.csv')

        # Evitar descarga si el archivo ya existe
        if os.path.exists(output_file):
            print(f"{output_file} ya existe. Saltando descarga del mes completo.")
            return

        # Descargar y guardar archivo mensual
        try:
            print(f"Descargando archivo mensual {file_name} desde {file_url}")
            response = requests.get(file_url, stream=True)
            if response.status_code == 404:
                print(f"Archivo {file_name} no encontrado. Saltando.")
                return

            with ZipFile(BytesIO(response.content)) as thezip:
                csv_file_name = thezip.namelist()[0]
                with thezip.open(csv_file_name) as thefile:
                    df = pd.read_csv(thefile, header=None, names=[
                        'timestamp', 'open', 'high', 'low', 'close', 'volume',
                        'close_time', 'quote_asset_volume', 'number_of_trades',
                        'taker_buy_base_asset_volume', 'taker_buy_quote_asset_volume', 'ignore'
                    ])
                    df.to_csv(output_file, index=False)
                    print(f"Datos de {year}-{month_str} guardados en {output_file}")
        except requests.exceptions.RequestException as e:
            print(f"Error al descargar {file_name}: {e}")

    def download_daily_data(year, month, day):
        month_str = str(month).zfill(2)
        day_str = str(day).zfill(2)
        file_name = f"{symbol}-{interval}-{year}-{month_str}-{day_str}.zip"
        file_url = f"{daily_base_url}/{symbol}/{interval}/{file_name}"

        daily_folder = os.path.join(output_folder, f'{year}')
        if not os.path.exists(daily_folder):
            os.makedirs(daily_folder)

        output_file = os.path.join(daily_folder, f'{symbol}_data_{year}_{month_str}_{day_str}.csv')

        # Evitar descarga si el archivo ya existe
        if os.path.exists(output_file):
            print(f"{output_file} ya existe. Saltando descarga del día.")
            return

        # Descargar y guardar archivo diario
        try:
            print(f"Descargando archivo diario {file_name} desde {file_url}")
            response = requests.get(file_url, stream=True)
            if response.status_code == 404:
                print(f"Archivo {file_name} no encontrado. Saltando.")
                return

            with ZipFile(BytesIO(response.content)) as thezip:
                csv_file_name = thezip.namelist()[0]
                with thezip.open(csv_file_name) as thefile:
                    df = pd.read_csv(thefile, header=None, names=[
                        'timestamp', 'open', 'high', 'low', 'close', 'volume',
                        'close_time', 'quote_asset_volume', 'number_of_trades',
                        'taker_buy_base_asset_volume', 'taker_buy_quote_asset_volume', 'ignore'
                    ])
                    df.to_csv(output_file, index=False)
                    print(f"Datos de {year}-{month_str}-{day_str} guardados en {output_file}")
        except requests.exceptions.RequestException as e:
            print(f"Error al descargar {file_name}: {e}")

    # Descargar datos mensuales para cada mes hasta el mes actual
    for year in range(start_year, end_year + 1):
        first_month = start_month if year == start_year else 1
        last_month = end_month if year == end_year else 12

        for month in range(first_month, last_month + 1):
            download_monthly_data(year, month)

    # Descargar datos diarios para el mes actual, hasta el día anterior al actual
    for day in range(1, end_day + 1):
        download_daily_data(end_year, end_month, day)

    print("Descarga completa.")
else:
    print(f"Error: La carpeta de destino no se encuentra en {output_folder}")


La carpeta de destino existe: /content/drive/My Drive/PROYECTO/DATOS HISTORICOS
Descargando archivo mensual BTCUSDT-1m-2019-01.zip desde https://data.binance.vision/data/spot/monthly/klines/BTCUSDT/1m/BTCUSDT-1m-2019-01.zip
Datos de 2019-01 guardados en /content/drive/My Drive/PROYECTO/DATOS HISTORICOS/2019/BTCUSDT_data_2019_01.csv
Descargando archivo mensual BTCUSDT-1m-2019-02.zip desde https://data.binance.vision/data/spot/monthly/klines/BTCUSDT/1m/BTCUSDT-1m-2019-02.zip
Datos de 2019-02 guardados en /content/drive/My Drive/PROYECTO/DATOS HISTORICOS/2019/BTCUSDT_data_2019_02.csv
Descargando archivo mensual BTCUSDT-1m-2019-03.zip desde https://data.binance.vision/data/spot/monthly/klines/BTCUSDT/1m/BTCUSDT-1m-2019-03.zip
Datos de 2019-03 guardados en /content/drive/My Drive/PROYECTO/DATOS HISTORICOS/2019/BTCUSDT_data_2019_03.csv
Descargando archivo mensual BTCUSDT-1m-2019-04.zip desde https://data.binance.vision/data/spot/monthly/klines/BTCUSDT/1m/BTCUSDT-1m-2019-04.zip
Datos de 2019-

Calcular los indicadores tecnicos y crear el Dataset completo

In [None]:
import os
import pandas as pd

# Ruta del directorio raíz que contiene las carpetas por año
root_folder = r'/content/drive/My Drive/PROYECTO/DATOS HISTORICOS'

# Crear una lista para almacenar todos los DataFrames
all_data = []

# Recorrer las carpetas de cada año
for year_folder in os.listdir(root_folder):
    year_path = os.path.join(root_folder, year_folder)

    # Verificar si es una carpeta
    if os.path.isdir(year_path):
        # Recorrer los archivos dentro de la carpeta del año
        for file_name in os.listdir(year_path):
            if file_name.endswith('.csv'):
                file_path = os.path.join(year_path, file_name)

                # Leer el archivo CSV
                df = pd.read_csv(file_path)

                # Agregar los datos al conjunto
                all_data.append(df)

# Combinar todos los DataFrames en uno solo
if all_data:
    historical_data = pd.concat(all_data, ignore_index=True)

    # Asegúrate de que los datos estén ordenados por el tiempo
    historical_data.sort_values(by='timestamp', inplace=True)
    historical_data.reset_index(drop=True, inplace=True)

    # Funciones para calcular indicadores técnicos
    def calculate_indicators(df):
        # Media Móvil (MA) de 20 y 50 periodos
        df['MA_20'] = df['close'].rolling(window=20).mean()
        df['MA_50'] = df['close'].rolling(window=50).mean()

        # RSI de 14 periodos
        df['RSI'] = calculate_rsi(df['close'], 14)

        # Bandas de Bollinger de 20 periodos
        df['Bollinger_Upper'], df['Bollinger_Lower'] = calculate_bollinger_bands(df['close'], window=20)

        return df

    def calculate_rsi(series, period=14):
        delta = series.diff()
        gain = (delta.where(delta > 0, 0)).rolling(window=period).mean()
        loss = (-delta.where(delta < 0, 0)).rolling(window=period).mean()
        rs = gain / loss
        return 100 - (100 / (1 + rs))

    def calculate_bollinger_bands(series, window=20):
        ma = series.rolling(window).mean()
        std = series.rolling(window).std()
        upper_band = ma + (std * 2)
        lower_band = ma - (std * 2)
        return upper_band, lower_band

    # Aplicar el cálculo de indicadores técnicos
    historical_data = calculate_indicators(historical_data)

    # Eliminar filas con valores faltantes
    historical_data.dropna(inplace=True)

    # Guardar el DataFrame con indicadores en un nuevo archivo CSV
    output_file = r'/content/drive/My Drive/PROYECTO/DATASET/Dataset.csv'
    os.makedirs(os.path.dirname(output_file), exist_ok=True)
    historical_data.to_csv(output_file, index=False)
    print(f"Archivo con indicadores técnicos guardado como '{output_file}'")
else:
    print("No se encontraron datos para procesar.")



Archivo con indicadores técnicos guardado como '/content/drive/My Drive/PROYECTO/DATASET/Dataset.csv'


Prepara el Dataset

In [None]:
import pandas as pd
import numpy as np
import os
from sklearn.preprocessing import MinMaxScaler

# Configuración
input_file = r'/content/drive/My Drive/PROYECTO/DATASET/Dataset.csv'
output_folder = r'/content/drive/My Drive/PROYECTO/DATASET_PREPARADO'
os.makedirs(output_folder, exist_ok=True)

sequence_length = 60  # Ventana de 60 minutos
features = [
    'open', 'high', 'low', 'close',
    'MA_20', 'MA_50',
    'RSI', 'Bollinger_Upper', 'Bollinger_Lower',
    'quote_asset_volume', 'number_of_trades',
    'taker_buy_base_asset_volume', 'taker_buy_quote_asset_volume'
]
target = 'close'

# Leer el dataset en chunks
chunk_size = 10**6  # Leer en bloques de 1 millón de filas
chunks = pd.read_csv(input_file, chunksize=chunk_size)

# Combinar todos los chunks para dividir los datos
df = pd.concat(chunks, ignore_index=True)

# Eliminar filas con valores faltantes
df.dropna(inplace=True)

# Dividir el dataset en entrenamiento (60%), validación (10%) y prueba (30%)
train_size = int(len(df) * 0.60)
val_size = int(len(df) * 0.10)

train_df = df[:train_size]
val_df = df[train_size:train_size + val_size]
test_df = df[train_size + val_size:]

# Escalador para normalizar las características
scaler = MinMaxScaler()

# Crear copias explícitas de los subconjuntos para evitar conflictos
train_df = train_df.copy()
val_df = val_df.copy()
test_df = test_df.copy()

# Aplicar la normalización
train_df.loc[:, features] = scaler.fit_transform(train_df[features])
val_df.loc[:, features] = scaler.transform(val_df[features])
test_df.loc[:, features] = scaler.transform(test_df[features])

# Función para procesar ventanas temporales y guardar lotes en bloques
def process_and_save_batches(data, set_name):
    num_rows = len(data)
    num_chunks = num_rows // (chunk_size // sequence_length) + 1

    X_data = data[features].values
    y_data = data[target].values

    for chunk_index in range(num_chunks):
        start_idx = chunk_index * (chunk_size // sequence_length)
        end_idx = min(start_idx + (chunk_size // sequence_length), num_rows - sequence_length)

        if start_idx >= end_idx:  # Evitar chunks vacíos
            break

        X, y = [], []
        for i in range(start_idx, end_idx):
            X.append(X_data[i:i + sequence_length])
            y.append(y_data[i + sequence_length])

        # Convertir a numpy arrays
        X = np.array(X)
        y = np.array(y)

        # Guardar el bloque
        np.save(os.path.join(output_folder, f"X_{set_name}_chunk{chunk_index}.npy"), X)
        np.save(os.path.join(output_folder, f"y_{set_name}_chunk{chunk_index}.npy"), y)
        print(f"Chunk {chunk_index + 1}/{num_chunks} del {set_name} guardado: X shape = {X.shape}, y shape = {y.shape}")

# Procesar y guardar cada conjunto
process_and_save_batches(train_df, "train")
process_and_save_batches(val_df, "val")
process_and_save_batches(test_df, "test")

print("Procesamiento y guardado de lotes completado.")




  train_df.loc[:, features] = scaler.fit_transform(train_df[features])
  val_df.loc[:, features] = scaler.transform(val_df[features])
  test_df.loc[:, features] = scaler.transform(test_df[features])


Chunk 1/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 2/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 3/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 4/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 5/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 6/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 7/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 8/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 9/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 10/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 11/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 12/112 del train guardado: X shape = (16666, 60, 13), y shape = (16666,)
Chunk 13/112 del train guardado: X shape = (16666, 60, 13), y

In [None]:
# Importar Tensorflow y mostrar su versión
import tensorflow as tf

print('TensorFlow version:', tf.__version__)

print(tf.config.list_physical_devices('GPU'))

TensorFlow version: 2.17.1
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]


In [None]:
# Importar librerías
import tensorflow as tf
import numpy as np

# La librería logging es un medio para rastrear eventos que ocurren cuando se ejecuta un script.
# El componente tf.logger() de TF tiene programado enviar logs a este logger cuando exista algún error
# en la ejecución.
import logging
logger = tf.get_logger()
logger.setLevel(logging.ERROR)

print('Versión de TensorFlow:', tf.__version__)
print('Versión de Keras:', tf.keras.__version__)
print('Probar GPU' if tf.test.is_gpu_available() else 'No se encontró GPU. Corriendo en CPU')

# Establecer la semilla aleatoria para que los números generados sean reproducibles
tf.random.set_seed(7)

# Crear 3 características aleatorias
features = tf.random.normal((1, 3))

# Crear 3 pesos aleatorios para nuestra red neuronal
weights = tf.random.normal((1, 3))

# Crear un bias aleatorio
bias = tf.random.normal((1, 1))

print('Features:\n', features)
print('\nWeights:\n', weights)
print('\nBias:\n', bias)

def sigmoid_activation(x):
    """ Función de activación sigmoidal

        Argumentos
        ---------
        x: tf.Tensor. Tendra que ser uno de los siguientes tipos: bfloat16, half, float32, float64, complex64, complex128.
    """
    return 1/(1+tf.exp(-x))

y = sigmoid_activation(tf.reduce_sum(tf.multiply(features, weights)) + bias)

print('label:\n', y)

Versión de TensorFlow: 2.17.1
Versión de Keras: 3.5.0
Probar GPU
Features:
 tf.Tensor([[0.5983449  0.06276207 0.14631742]], shape=(1, 3), dtype=float32)

Weights:
 tf.Tensor([[-2.2733312 -1.6592104 -0.2633568]], shape=(1, 3), dtype=float32)

Bias:
 tf.Tensor([[1.5749501]], shape=(1, 1), dtype=float32)
label:
 tf.Tensor([[0.5180034]], shape=(1, 1), dtype=float32)


In [None]:
# Establecer la semilla aleatoria para que los números generados sean reproducibles
tf.random.set_seed(7)

# Crear 3 datos de entrada (características aleatorias)
features = tf.random.normal((1,3))

# Definir el tamaño de cada capa en nuestra red
n_input = features.shape[1]     # Número de unidades de entrada, debe coincidir con el número de unidades de entrada
n_hidden = 2                    # Número de unidades ocultas
n_output = 1                    # Número de unidades de salida

# Crear los pesos aleatorios para las conexiones que van desde las entradas hacia la capa oculta
W1 = tf.random.normal((n_input,n_hidden))

# Crear pesos aleatorios para las conexiones que van desde la capa oculta hacia la capa de salida
W2 = tf.random.normal((n_hidden, n_output))

# Crear bias aleatorios para la capa oculta y la de salida
B1 = tf.random.normal((1,n_hidden))
B2 = tf.random.normal((1, n_output))

# Aplicar la función de activación sigmoidal
h = sigmoid_activation(tf.matmul(features, W1) + B1)
output = sigmoid_activation(tf.matmul(h, W2) + B2)

# Mostrar el resultado
print(output)

tf.Tensor([[0.10678572]], shape=(1, 1), dtype=float32)
