## Importación de librerías y configuración inicial

In [50]:
import os
import pandas as pd
import requests
from dotenv import load_dotenv

load_dotenv()

BASE_URL = os.getenv("COINGECKO_BASE_URL")
API_KEY = os.getenv("COINGECKO_API_KEY")
DEFAULT_CURRENCY = os.getenv("DEFAULT_VS_CURRENCY")

print("Configuración cargada correctamente")

Configuración cargada correctamente


## Función para obtener datos desde CoinGecko

In [56]:
def get_coin_data_api(coin_id: str, symbol: str, days: int | str = 180) -> pd.DataFrame:
    url = f"{BASE_URL}/coins/{coin_id}/market_chart"
    params = {"vs_currency": DEFAULT_CURRENCY, "days": days, "x_cg_demo_api_key": API_KEY}

    response = requests.get(url, params=params)
    response.raise_for_status()
    data = response.json()

    # Convertir las tres listas a DataFrames
    df_price = pd.DataFrame(data["prices"], columns=["timestamp", "close"])
    df_cap = pd.DataFrame(data["market_caps"], columns=["timestamp", "market_cap"])
    df_vol = pd.DataFrame(data["total_volumes"], columns=["timestamp", "volume"])

    # Fusionar
    df = df_price.merge(df_cap, on="timestamp").merge(df_vol, on="timestamp")

    # Procesamiento
    df["date"] = pd.to_datetime(df["timestamp"], unit="ms").dt.date
    df["coin"] = symbol
    df["open"] = df["close"]
    df["high"] = df["close"]
    df["low"] = df["close"]
    df["source"] = "API"

    return df[["date", "coin", "open", "high", "low", "close", "volume", "market_cap", "source"]]


## Función para cargar datasets locales (CSV)

In [55]:
def load_csv(path: str, symbol: str) -> pd.DataFrame:
    df = pd.read_csv(path)

    # Renombrar columnas comunes
    rename_map = {
        "Date": "date", "Open": "open", "High": "high", "Low": "low",
        "Close": "close", "Volume": "volume", "Marketcap": "market_cap"
    }
    df.rename(columns=rename_map, inplace=True)

    # Asegurar tipos correctos
    df["date"] = pd.to_datetime(df["date"]).dt.date
    df["coin"] = symbol
    df["source"] = "CSV"

    # Mantener solo columnas del esquema
    cols = ["date", "coin", "open", "high", "low", "close", "volume", "market_cap", "source"]
    for col in cols:
        if col not in df.columns:
            df[col] = None

    return df[cols]


## Función para eliminar nulos y duplicados

In [54]:
def limpiar_datos(df: pd.DataFrame, nombre: str = "Dataset") -> pd.DataFrame:

    print(f"\n Limpieza de datos para: {nombre}")
    print("-" * 60)

    registros_iniciales = len(df)

    # Eliminar duplicados por 'coin' + 'date' si existen
    if "date" in df.columns and "coin" in df.columns:
        df = df.drop_duplicates(subset=["coin", "date"])
    else:
        df = df.drop_duplicates()

    # Eliminar filas completamente vacías o con valores nulos críticos
    df = df.dropna(subset=["close"], how="any")

    # Si una columna entera es nula, la eliminamos
    df = df.dropna(axis=1, how="all")

    registros_finales = len(df)
    eliminados = registros_iniciales - registros_finales

    print(f"Registros iniciales: {registros_iniciales:,}")
    print(f"Registros eliminados: {eliminados:,}")
    print(f"Registros finales: {registros_finales:,}")

    print("Limpieza completada.")
    print("-" * 60)
    return df.reset_index(drop=True)

## Función para validar la limpieza de los datos

In [None]:
def validar_calidad_datos(df: pd.DataFrame, nombre: str = "Dataset") -> None:

    print(f"\n Validación de calidad de datos para: {nombre}")
    print("-" * 60)

    # Número total de registros
    total = len(df)
    print(f"Total de registros: {total:,}")

    # Nulos por columna
    nulos = df.isnull().sum()
    nulos_totales = nulos.sum()

    if nulos_totales == 0:
        print("No hay valores nulos.")
    else:
        print("Se encontraron valores nulos:")
        print(nulos[nulos > 0])

    # Duplicados
    if "date" in df.columns and "coin" in df.columns:
        duplicados = df.duplicated(subset=["coin", "date"]).sum()
        print(f"Registros duplicados (por coin + date): {duplicados}")
    else:
        duplicados = df.duplicated().sum()
        print(f"Registros duplicados (por fila completa): {duplicados}")

    # Resultado general
    if nulos_totales == 0 and duplicados == 0:
        print("Dataset limpio y listo para análisis.")
    else:
        print("Es recomendable limpiar los datos antes de continuar.")

    print("-" * 60)

## Obtener y limpiar los datos (API + CSV)

In [None]:
btc_api = get_coin_data_api("bitcoin", "BTC")
eth_api = get_coin_data_api("ethereum", "ETH")
bnb_api = get_coin_data_api("binancecoin", "BNB")


btc_csv = load_csv("../data/raw/coin_Bitcoin.csv", "BTC")
eth_csv = load_csv("../data/raw/coin_Ethereum.csv", "ETH")
bnb_csv = load_csv("../data/raw/coin_BinanceCoin.csv", "BNB")

print("Datos cargados y procesados correctamente")

Datos cargados y procesados correctamente ✅


## Procesar datos

In [57]:
btc_api = limpiar_datos(btc_api, "Bitcoin (API)")
eth_api = limpiar_datos(eth_api, "Ethereum (API)")
bnb_api = limpiar_datos(bnb_api, "Binance Coin (API)")

btc_csv = limpiar_datos(btc_csv, "Bitcoin (CSV)")
eth_csv = limpiar_datos(eth_csv, "Ethereum (CSV)")
bnb_csv = limpiar_datos(bnb_csv, "Binance Coin (CSV)")

print("\n Todos los DataFrames fueron limpiados correctamente")



 Limpieza de datos para: Bitcoin (API)
------------------------------------------------------------
Registros iniciales: 180
Registros eliminados: 0
Registros finales: 180
Limpieza completada.
------------------------------------------------------------

 Limpieza de datos para: Ethereum (API)
------------------------------------------------------------
Registros iniciales: 180
Registros eliminados: 0
Registros finales: 180
Limpieza completada.
------------------------------------------------------------

 Limpieza de datos para: Binance Coin (API)
------------------------------------------------------------
Registros iniciales: 180
Registros eliminados: 0
Registros finales: 180
Limpieza completada.
------------------------------------------------------------

 Limpieza de datos para: Bitcoin (CSV)
------------------------------------------------------------
Registros iniciales: 2,991
Registros eliminados: 0
Registros finales: 2,991
Limpieza completada.
-------------------------------

## Validar datos

In [None]:
validar_calidad_datos(btc_api, "Bitcoin (API)")
validar_calidad_datos(eth_api, "Ethereum (API)")
validar_calidad_datos(bnb_api, "Binance Coin (API)")

validar_calidad_datos(btc_csv, "Bitcoin (CSV)")
validar_calidad_datos(eth_csv, "Ethereum (CSV)")
validar_calidad_datos(bnb_csv, "Binance Coin (CSV)")


## Guardar los datasets procesados (una fuente por moneda)

In [58]:
os.makedirs("../data/processed", exist_ok=True)

btc_api.to_csv("../data/processed/bitcoin_api.csv", index=False)
eth_api.to_csv("../data/processed/ethereum_api.csv", index=False)
bnb_api.to_csv("../data/processed/binancecoin_api.csv", index=False)

btc_csv.to_csv("../data/processed/bitcoin_csv.csv", index=False)
eth_csv.to_csv("../data/processed/ethereum_csv.csv", index=False)
bnb_csv.to_csv("../data/processed/binancecoin_csv.csv", index=False)

print("Archivos guardados en 'data/processed/'")

Archivos guardados en 'data/processed/'
