# TP1 Extracci√≥n y almacenamiento de datos

### CoinGecko API
CoinGecko API es una interfaz REST p√∫blica que permite acceder a informaci√≥n b√°sica de criptomonedas. CoinGecko ofrece m√°s de 70 endpoints p√∫blicos REST en JSON, abarcando datos de precios en tiempo real, estad√≠sticas de mercado, metadatos y series hist√≥ricas de miles de criptomonedas y exchanges.
La Api es publica y no necesita API keys para usarse.

# Librerias

In [1]:
# Instalaci√≥n de dependencias para Google Colab
!pip install deltalake
!pip install pyarrow
!pip install pandas
!pip install requests

Collecting deltalake
  Downloading deltalake-1.0.2-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.6 kB)
Collecting arro3-core>=0.5.0 (from deltalake)
  Downloading arro3_core-0.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (949 bytes)
Collecting deprecated>=1.2.18 (from deltalake)
  Downloading Deprecated-1.2.18-py2.py3-none-any.whl.metadata (5.7 kB)
Downloading deltalake-1.0.2-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (51.3 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m51.3/51.3 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading arro3_core-0.5.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.5 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.5/2.5 MB[0m [31m37.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [1]:
import os, time, requests
import pandas as pd
from deltalake import write_deltalake, DeltaTable
from datetime import datetime
import numpy as np

# Configuraci√≥n de endpoints

In [2]:
# Configuraci√≥n de endpoints
BASE_URL = "https://api.coingecko.com/api/v3"
MARKETS_URL = f"{BASE_URL}/coins/markets"
LIST_URL = f"{BASE_URL}/coins/list"

# Estructura del Data Lake - Capa Bronze
BRONZE_PATH = "bronze/coingecko_api"

# Funciones de extracci√≥n

In [3]:
def ensure_directory_exists(path):
    """
    Asegura que el directorio existe, si no lo crea autom√°ticamente
    """
    try:
        if not os.path.exists(path):
            os.makedirs(path, exist_ok=True)
            print(f"‚úì Directorio creado: {path}")
        else:
            print(f"‚úì Directorio ya existe: {path}")
    except Exception as e:
        print(f"Error creando directorio {path}: {e}")
        raise


def is_valid_delta_table(path):
    """
    Verifica si un path contiene una tabla Delta v√°lida
    """
    try:
        DeltaTable(path)
        return True
    except Exception:
        return False


#Extracci√≥n full; endpoint para datos est√°ticos: lista todas las criptomonedas con id, symbol y name.
def fetch_static_coins():
    """
    Extrae la lista de criptomonedas de CoinGecko (datos est√°ticos/metadatos)
    Devuelve un dataframe con id, symbol, name
    retorna:
        pd.DataFrame: DataFrame con la lista de criptomonedas
    """
    print("üîÑ Extrayendo datos est√°ticos: lista de criptomonedas...")
    try:
        resp = requests.get(LIST_URL, timeout=30)
        resp.raise_for_status()
        df = pd.DataFrame(resp.json())

        # Agregar timestamp de extracci√≥n para auditor√≠a
        df["extraction_timestamp"] = datetime.utcnow().isoformat()

        print(f"‚úÖ Extracci√≥n exitosa: {len(df)} monedas obtenidas")
        return df

    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error en la petici√≥n: {e}")
        raise
    except Exception as e:
        print(f"‚ùå Error procesando datos est√°ticos: {e}")
        raise

# Endpoint para datos temporales: Informaci√≥n actualizada sobre la cotizacion de distintas criptomonedas (current_price, market_cap, total_volume y price_change_percentage_24h, etc)
# los datos del endpoint se actualiza todos los dias.
def fetch_market_data(vs_currency="usd", number_of_pages=2, per_page=25):
    """
    Extrae datos actuales de mercado desde CoinGecko (datos temporales)
    Par√°metros:
        vs_currency (str): la moneda de comparaci√≥n (p.ej. "usd")
        per_page (int): cantidad de √≠tems por p√°gina (m√°x. 250)
        number_of_pages (int): cantidad de p√°ginas a extraer
    retorna:
        pd.DataFrame: DataFrame con datos de mercado de criptomonedas
    """
    print(f"üîÑ Extrayendo datos temporales: mercado de criptomonedas...")
    print(f"   üìä Configuraci√≥n: {number_of_pages} p√°ginas √ó {per_page} items = {number_of_pages * per_page} registros m√°x.")
    
    # Acumulador de datos
    all_data = []

    try:
        for page in range(1, number_of_pages + 1):
            print(f"   üìÑ Procesando p√°gina {page}/{number_of_pages}...")

            params = {
                "vs_currency": vs_currency,
                "order": "market_cap_desc",
                "per_page": per_page,
                "page": page,
                "sparkline": "false"
            }

            resp = requests.get(MARKETS_URL, params=params, timeout=30)
            resp.raise_for_status()
            data = resp.json()

            if not data:
                print(f"   ‚ö†Ô∏è  P√°gina {page} vac√≠a, finalizando extracci√≥n")
                break

            all_data.extend(data)
            print(f"   ‚úÖ P√°gina {page}: {len(data)} registros obtenidos")

            # Rate limiting 
            if page < number_of_pages:
                time.sleep(3)

        if not all_data:
            raise ValueError("No se obtuvieron datos de la API")

        df = pd.json_normalize(all_data)

        # Agregar columnas de partici√≥n 
        now = datetime.utcnow()
        df["extract_date"] = now.strftime("%Y-%m-%d")
        df["extraction_timestamp"] = now.isoformat()

        print(f"‚úÖ Extracci√≥n completada: {len(df)} registros totales")
        return df

    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error en la petici√≥n: {e}")
        raise
    except Exception as e:
        print(f"‚ùå Error procesando datos de mercado: {e}")
        raise



# Endpoint para datos hist√≥ricos: Extrae datos de una criptomoneda espec√≠fica en un rango de d√≠as determinado desde la fecha actual. Utilizare estos datos en la capa gold.
def fetch_historical_chart(coin_id, vs_currency="usd", days=30, interval="daily"):
    """
    Extrae datos de una criptomoneda espec√≠fica en un rango de d√≠as determinado desde la fecha actual,
    Par√°metros:
    - coin_id: ID de la criptomoneda (ej. 'bitcoin', 'ethereum').
    - vs_currency: Moneda contra la que se comparan los precios (ej. 'usd', 'eur').
    - days: N√∫mero de d√≠as a partir desde la fecha actual para obtener los datos hist√≥ricos, ej 30 para los datos de los √∫ltimos 30 d√≠as.
    Retorna: un DataFrame de pandas con los datos hist√≥ricos de precios, columnas: ['prices', 'market_caps', 'total_volumes'] cada columna es una lista de listas con dos elementos: [timestamp, valor].
    """
    url = f"{BASE_URL}/coins/{coin_id}/market_chart"
    params = {
        "vs_currency": vs_currency,
        "days": days,
        "interval": interval
    }
    resp = requests.get(url, params=params, timeout=30)
    resp.raise_for_status()
    
    df= pd.DataFrame(resp.json())
    now = datetime.utcnow()
    df["extract_date"] = now.strftime("%Y-%m-%d")
    df['coin_id'] = coin_id
    return df


def fetch_multiple_historical_chart(coins,vs_currency="usd", days=30, interval="daily"):
    """
    la funci√≥n recibe una lista de IDs de criptomonedas y extrae los datos hist√≥ricos para cada una y los combina en un √∫nico DataFrame.
    Par√°metros: 
    -coins: lista de IDs de criptomonedas (ej. ['bitcoin', 'ethereum']).
    -vs_currency: Moneda contra la que se comparan los precios (ej. 'usd', 'eur').
    -days: N√∫mero de d√≠as a partir desde la fecha actual para obtener los datos hist√≥ricos, ej 30 para los datos de los √∫ltimos 30 d√≠as.
    -interval: Intervalo de tiempo para los datos hist√≥ricos (ej. 'daily', 'hourly').
    Retorna: un DataFrame de pandas con los datos hist√≥ricos de precios, columnas: ['prices', 'market_caps', 'total_volumes'] cada columna es una lista de listas con dos elementos: [timestamp, valor].
    """
    all_coins=[]
    for coin in coins:
        try:
            df_coin= fetch_historical_chart(coin,vs_currency,days,interval)
            all_coins.append(df_coin)
            time.sleep(30) # esto hara que el codigo sea m√°s lento, pero es necesario para evitar errores de rate limiting y bloqueos.
        except requests.exceptions.RequestException as e:
            print(f"   ‚ùå {coin}: Error de API - {e}")
            continue
        except Exception as e:
                print(f"   ‚ùå {coin}: Error inesperado - {e}")
                continue
    df_all_coins= pd.concat(all_coins, axis=0, ignore_index=True)
    print(f"‚úÖ Extracci√≥n completada:")
    print(f"   üìä Total registros unificados: {len(df_all_coins)}")
    return(df_all_coins)



# Funciones almacenamiento en capa bronze

In [4]:
def save_static_data_bronze(df_static):
    """
    Guarda datos est√°ticos en la capa Bronze
    Estructura: bronze/coingecko_api/coins_list/
    """
    #si el directorio no existe, lo crea
    path = f"{BRONZE_PATH}/coins_list"
    ensure_directory_exists(path)

    print(f"üíæ Guardando datos est√°ticos en: {path}")
    try:
        write_deltalake(
            path,
            df_static,
            mode="overwrite"
        )
        print(f"‚úÖ Datos est√°ticos guardados exitosamente: {len(df_static)} registros")

        # Verificar que se guard√≥ correctamente
        if os.path.exists(path):
            print(f"‚úÖ Verificaci√≥n: Directorio Delta creado correctamente")

    except Exception as e:
        print(f"‚ùå Error guardando datos est√°ticos: {e}")
        raise

def save_market_data_bronze(df_market):
    """
    Guarda datos temporales en la capa Bronze con estrategia de merge
    Estructura: bronze/coingecko_api/coins_markets/extract_date=YYYY-MM-DD/

    Estrategia de merge:
    - Merge key: id + extract_date (una versi√≥n por moneda por d√≠a)
    - Si existe: actualiza el registro (√∫til para re-ejecuciones)
    - Si no existe: inserta nuevo registro
    - Mantiene historial completo de todas las fechas
    """
    path = f"{BRONZE_PATH}/coins_markets"
    # si el directorio no existe, lo crea
    ensure_directory_exists(path)

    extract_date = df_market["extract_date"].iloc[0]
    print(f"üíæ Guardando datos de mercado en: {path}")

    try:
        # Verificar si la tabla Delta ya existe
        if is_valid_delta_table(path):
            print(f"   üìã Tabla Delta existente detectada, ejecutando merge...")

            # Cargar la tabla Delta existente
            dt = DeltaTable(path)

            # Ejecutar merge usando id + extract_date como clave
            (
                dt.merge(
                    df_market,
                    predicate="target.id = source.id AND target.extract_date = source.extract_date",
                    source_alias="source",
                    target_alias="target"
                )
                .when_matched_update_all()  # Actualiza todos los campos si encuentra match
                .when_not_matched_insert_all()  # Inserta si no encuentra match
                .execute()
            )

            print(f"‚úÖ Merge completado exitosamente")
        # si la tabla no existe, se crea una nueva
        else:
            print(f"   üÜï Primera ejecuci√≥n, creando tabla Delta...")
            # Primera vez, crear la tabla con overwrite
            write_deltalake(
                path,
                df_market,
                mode="overwrite",
                partition_by=["extract_date"]
            )
            print(f"‚úÖ Tabla Delta creada por primera vez: {len(df_market)} registros")

        # Verificar partici√≥n creada
        partition_path = f"{path}/extract_date={extract_date}"
        if os.path.exists(partition_path):
            print(f"‚úÖ Verificaci√≥n: Partici√≥n creada/actualizada en {partition_path}")

        # Informaci√≥n final
        print(f"   üéØ Registros procesados en esta ejecuci√≥n: {len(df_market)}")

    except Exception as e:
        print(f"‚ùå Error en merge de datos de mercado: {e}")
        print(f"   üí° Tip: Verifica que la tabla Delta no est√© corrupta")
        raise



# los datos crudos no tienen columna date, cada columna tiene una lista [timestamp_ms,valor], asi que en la capa bronze usar√© un overwrite partitionando por coin_id y extract_date,
# en la capa silver con los datos mas limpios y transformados usare una mejor estrategia de guardado con un merge incremental.
def save_multiple_market_chart_bronze(df_chart):
    """
    Guarda datos de market chart en la capa Bronze con estrategia incremental
    Estructura: bronze/coingecko_api/market_chart/extract_date=YYYY-MM-DD/

    Estrategia:
    - Particionado por coin_id y extract_date

    PROS:
    - Simple de implementar
    - Mantiene trazabilidad de cu√°ndo se extrajo cada lote
    
    CONTRAS:
    - Duplicaci√≥n masiva de datos (30 d√≠as √ó N extracciones)
    - Consume mucho storage
    
    En la capa silver trataremos estos contras.
    """
    path = f"{BRONZE_PATH}/market_chart"
    ensure_directory_exists(path)

    extract_date = df_chart["extract_date"].iloc[0]
    print(f"üíæ Guardando datos de market chart en: {path}")
    try:
        # Verificar si ya existe la tabla
        if is_valid_delta_table(path):
            # Cargar la tabla Delta existente
            dt = DeltaTable(path)

            # Ejecutar merge usando id + extract_date como clave
            (
                dt.merge(
                    df_chart,
                    predicate="target.coin_id = source.coin_id AND target.extract_date = source.extract_date",
                    source_alias="source",
                    target_alias="target"
                )
                .when_matched_update_all()  # Actualiza todos los campos si encuentra match
                .when_not_matched_insert_all()  # Inserta si no encuentra match
                .execute()
            )

            print(f"‚úÖ Merge completado exitosamente")
        else:
            # Primera vez, crear la tabla
            write_deltalake(
                path,
                df_chart,
                mode="overwrite",
                partition_by=["extract_date"]
            )
            print(f"‚úÖ Tabla Delta creada por primera vez")

        # Verificar partici√≥n creada
        partition_path = f"{path}/extract_date={extract_date}"
        if os.path.exists(partition_path):
            print(f"‚úÖ Verificaci√≥n: Partici√≥n creada en {partition_path}")

    except Exception as e:
        print(f"‚ùå Error guardando datos de market chart: {e}")
        raise


# Estas funcion no tienen bloque try/except o menejo de errores porque las funciones que utilzan ya tienen manejo de errores incorporado.
def full_extraction():
    """
    Extracci√≥n y guardado completa de datos est√°ticos (metadatos)
    """
    print("\n=== EXTRACCI√ìN FULL - DATOS EST√ÅTICOS ===")
    df_static = fetch_static_coins()
    save_static_data_bronze(df_static)
    return df_static

def incremental_extraction(vs_currency="usd", number_of_pages=2, per_page=25):
    """
    Extracci√≥n incremental de datos temporales (mercado)
    Se ejecuta diariamente para obtener datos actualizados del mercado
    """
    print("\n=== EXTRACCI√ìN INCREMENTAL - DATOS TEMPORALES ===")
    df_market = fetch_market_data(vs_currency, number_of_pages, per_page)
    save_market_data_bronze(df_market)
    return df_market

def multiple_historical_chart_extraction(coins, vs_currency="usd", days=30, interval="daily"):
    """
    Extracci√≥n incremental de datos historicos de m√∫ltiples criptomonedas.
    """
    print("\n=== EXTRACCI√ìN INCREMENTAL - DATOS TEMPORALES ===")
    df_market_chart = fetch_multiple_historical_chart(coins, vs_currency, days, interval)
    save_multiple_market_chart_bronze(df_market_chart)
    return df_market_chart

# main()

In [5]:

def main(vs_currency="usd", number_of_pages=2):
    """
    Funci√≥n principal que ejecuta las extracciones y la carga de datos en la capa Bronze
    Par√°metros:
        vs_currency (str): Moneda de comparaci√≥n para datos de mercado (default: "usd")
        number_of_pages (int): N√∫mero de p√°ginas a extraer para datos de mercado (default: 2
    """
    print("üöÄ Iniciando proceso de extracci√≥n de datos - CoinGecko API")
    print("üìÅ Estructura del Data Lake: bronze/coingecko_api/")
    print("üåê Ejecut√°ndose en Google Colab")
    print("-" * 60)

    try:
        # Extracci√≥n full de metadatos
        df_static = full_extraction()

        print("-" * 60)

        # Extracci√≥n incremental de datos de mercado
        df_market = incremental_extraction(vs_currency,number_of_pages)

        # Para el presenta trabajo vamos a trabajar con los datos hist√≥ricos de 5 criptomonedas m√°s relevantes.
        
        top_coins=["bitcoin", "ethereum", "tether", "ripple","binancecoin"]
        
        df_multiple_historical_chart=multiple_historical_chart_extraction(top_coins) # usaremos los parametros por defecto, vs_currency="usd", days=30, interval="daily"
        
        
        print("-" * 60)
        print(f"üìä RESUMEN FINAL")
        print(f"   üìà Datos est√°ticos extra√≠dos: {len(df_static)} monedas")
        print(f"   üí∞ Datos de mercado extra√≠dos: {len(df_market)} registros")
        print(f"   üíæ Formato: Delta Lake - Capa Bronze")
        print(f"   üìÇ Ubicaci√≥n: ./bronze/coingecko_api/")
        print("‚úÖ Proceso completado exitosamente!")

        return df_static, df_market, df_multiple_historical_chart

    except Exception as e:
        print(f"‚ùå Error en el proceso principal: {e}")
        print("üí° Tip: Verifica tu conexi√≥n a internet y que la API est√© disponible")
        raise

In [7]:
# Ejecutar el proceso
# el script tardara 2 min 30 seg aproximadamente en ejecutarse debido a los tiempos de espera entre las peticiones a la API para evitar bloqueos por rate limiting.
if __name__ == "__main__":
    df_static, df_market,df_multiple_historical_chart = main(vs_currency="usd", number_of_pages=2)

    # Mostrar muestra de los datos para verificaci√≥n
    print("\n" + "="*60)
    print("üìã MUESTRA DE DATOS EXTRA√çDOS")
    print("="*60)
    print("\nüè∑Ô∏è  DATOS EST√ÅTICOS (primeras 5 filas):")
    print(df_static[['id', 'symbol', 'name']].head())

    print(f"\nüí∞ DATOS DE MERCADO (primeras 5 filas, {len(df_market.columns)} columnas totales):")
    print(df_market[['id', 'symbol', 'name', 'current_price', 'market_cap', 'extract_date']].head())


üöÄ Iniciando proceso de extracci√≥n de datos - CoinGecko API
üìÅ Estructura del Data Lake: bronze/coingecko_api/
üåê Ejecut√°ndose en Google Colab
------------------------------------------------------------

=== EXTRACCI√ìN FULL - DATOS EST√ÅTICOS ===
üîÑ Extrayendo datos est√°ticos: lista de criptomonedas...


  df["extraction_timestamp"] = datetime.utcnow().isoformat()


‚úÖ Extracci√≥n exitosa: 17507 monedas obtenidas
‚úì Directorio ya existe: bronze/coingecko_api/coins_list
üíæ Guardando datos est√°ticos en: bronze/coingecko_api/coins_list
‚úÖ Datos est√°ticos guardados exitosamente: 17507 registros
‚úÖ Verificaci√≥n: Directorio Delta creado correctamente
------------------------------------------------------------

=== EXTRACCI√ìN INCREMENTAL - DATOS TEMPORALES ===
üîÑ Extrayendo datos temporales: mercado de criptomonedas...
   üìä Configuraci√≥n: 2 p√°ginas √ó 25 items = 50 registros m√°x.
   üìÑ Procesando p√°gina 1/2...
   ‚úÖ P√°gina 1: 25 registros obtenidos
   üìÑ Procesando p√°gina 2/2...
   ‚úÖ P√°gina 2: 25 registros obtenidos
‚úÖ Extracci√≥n completada: 50 registros totales
‚úì Directorio ya existe: bronze/coingecko_api/coins_markets
üíæ Guardando datos de mercado en: bronze/coingecko_api/coins_markets
   üìã Tabla Delta existente detectada, ejecutando merge...
‚úÖ Merge completado exitosamente
‚úÖ Verificaci√≥n: Partici√≥n creada/a

  now = datetime.utcnow()
  now = datetime.utcnow()
  now = datetime.utcnow()
  now = datetime.utcnow()
  now = datetime.utcnow()
  now = datetime.utcnow()


‚úÖ Extracci√≥n completada:
   üìä Total registros unificados: 155
‚úì Directorio ya existe: bronze/coingecko_api/market_chart
üíæ Guardando datos de market chart en: bronze/coingecko_api/market_chart
‚úÖ Merge completado exitosamente
‚úÖ Verificaci√≥n: Partici√≥n creada en bronze/coingecko_api/market_chart/extract_date=2025-06-21
------------------------------------------------------------
üìä RESUMEN FINAL
   üìà Datos est√°ticos extra√≠dos: 17507 monedas
   üí∞ Datos de mercado extra√≠dos: 50 registros
   üíæ Formato: Delta Lake - Capa Bronze
   üìÇ Ubicaci√≥n: ./bronze/coingecko_api/
‚úÖ Proceso completado exitosamente!

üìã MUESTRA DE DATOS EXTRA√çDOS

üè∑Ô∏è  DATOS EST√ÅTICOS (primeras 5 filas):
            id symbol          name
0            _    gib    ‡ºº „Å§ ‚óï_‚óï ‡ºΩ„Å§
1  000-capital    000   000 Capital
2       01coin    zoc        01coin
3       0chain    zcn           Zus
4         0dog   0dog  Bitcoin Dogs

üí∞ DATOS DE MERCADO (primeras 5 filas, 31 columna