In [None]:
!pip install yfinance



In [None]:
# -*- coding: utf-8 -*-

import yfinance as yf
import pandas as pd
from datetime import datetime

# --- Configuración ---
# Lista de Tickers de los ETFs
tickers = ["TECL", "TQQQ", "SOXL", "RETL", "UPRO"]

# Fechas de inicio y fin
# Nota: La fecha de fin (2025-03-01) está en el futuro.
# yfinance obtendrá datos hasta la fecha más reciente disponible antes de esa fecha.
start_date = "2021-11-01"
end_date = "2025-03-01" # Incluirá datos hasta el 2025-02-28 si estuvieran disponibles.
                         # Si quieres incluir el 1 de marzo, pon "2025-03-02" como end_date.

# --- Descarga de Datos ---
print(f"Descargando datos para: {', '.join(tickers)}")
print(f"Rango de fechas: {start_date} a {end_date}")

try:
    # Descargar los datos históricos. yfinance devuelve un DataFrame de Pandas.
    # Por defecto, agrupa los datos por ticker si descargas varios.
    # Obtendremos un DataFrame con MultiIndex en las columnas: (Tipo_Dato, Ticker)
    data = yf.download(tickers, start=start_date, end=end_date, progress=True)

    # Verificar si se descargaron datos
    if data.empty:
        print("\nNo se pudieron descargar datos. Verifica los tickers, las fechas o tu conexión a internet.")
    else:
        # --- Extracción de 'Adj Close' ---
        # Seleccionar solo las columnas de 'Adj Close' (Precio de Cierre Ajustado)
        # Esto nos dará un DataFrame donde cada columna es el 'Adj Close' de un ticker
        adj_close_data = data['Adj Close']

        # Eliminar filas donde *todos* los valores son NaN (si un día no hubo datos para *ningún* ticker)
        adj_close_data = adj_close_data.dropna(how='all')

        # --- Mostrar Resultados ---
        print("\n--- Datos de Precios de Cierre Ajustados ('Adj Close') ---")

        # Mostrar las primeras 5 filas
        print("\nPrimeras filas:")
        print(adj_close_data.head())

        # Mostrar las últimas 5 filas (serán las más recientes disponibles hasta hoy)
        print("\nÚltimas filas disponibles:")
        print(adj_close_data.tail())

        # Información general del DataFrame resultante
        print("\nInformación del DataFrame:")
        adj_close_data.info()

        # Opcional: Guardar los datos en un archivo CSV
        # csv_filename = "etf_adj_close_data.csv"
        # adj_close_data.to_csv(csv_filename)
        # print(f"\nDatos guardados en {csv_filename}")

except Exception as e:
    print(f"\nOcurrió un error durante la descarga o procesamiento: {e}")

print("\n--- Proceso Finalizado ---")

Descargando datos para: TECL, TQQQ, SOXL, RETL, UPRO
Rango de fechas: 2021-11-01 a 2025-03-01
YF.download() has changed argument auto_adjust default to True


[*********************100%***********************]  5 of 5 completed


Ocurrió un error durante la descarga o procesamiento: 'Adj Close'

--- Proceso Finalizado ---





Corregido

In [None]:
import yfinance as yf
import pandas as pd
from datetime import datetime

# --- Configuración ---
# Lista de Tickers de los ETFs
tickers = ['SPY', 'QLD', 'RXL', 'USD', 'ROM', 'UCC', 'TNA', 'TECL', 'MIDU', 'UPRO', 'DRN',
               'UDOW', 'TQQQ', 'UMDD', 'SOXL', 'RETL', 'CURE', 'SMH', 'FRAK', 'AMER']

# Fechas de inicio y fin
start_date = "2021-11-01"
end_date = "2025-03-01"

# --- Descarga de Datos ---
print(f"Descargando datos para: {', '.join(tickers)}")
print(f"Rango de fechas: {start_date} a {end_date}")

data = pd.DataFrame() # Inicializar como DataFrame vacío
try:
    # Descargar los datos históricos
    data = yf.download(tickers, start=start_date, end=end_date, progress=True)

    # --- Verificaciones Robustas ---
    if data.empty:
        print("\nError: No se pudieron descargar datos. El DataFrame está vacío.")
        print("Verifica los tickers, las fechas o tu conexión a internet.")
    # yfinance para múltiples tickers devuelve un MultiIndex en las columnas.

    # Verificamos si 'Adj Close' está en el primer nivel de las columnas.
    elif 'Adj Close' not in data.columns.get_level_values(0):
         print("\nError: La columna 'Adj Close' no se encontró en los datos descargados.")
         print("La estructura de datos devuelta puede ser inesperada.")
         print("Columnas disponibles:", data.columns)
         # Puedes descomentar la siguiente línea para ver todo el dataframe devuelto y depurar
         # print("\nDataFrame completo devuelto por yfinance:\n", data)
    else:
        # --- Extracción de 'Adj Close' ---
        # Ahora es seguro acceder a 'Adj Close'
        adj_close_data = data['Adj Close']

        # Eliminar filas donde *todos* los valores son NaN
        adj_close_data = adj_close_data.dropna(how='all')

        # Verificar si quedó algo después de eliminar NaNs
        if adj_close_data.empty:
            print("\nAdvertencia: Después de eliminar filas sin datos, el DataFrame resultante está vacío.")
        else:
            # --- Mostrar Resultados ---
            print("\n--- Datos de Precios de Cierre Ajustados ('Adj Close') ---")


except Exception as e:
    # Captura otros posibles errores (conexión, etc.)
    print(f"\nOcurrió un error inesperado durante la descarga o procesamiento: {e}")

print("\n--- Proceso Finalizado ---")

[*******************   40%                       ]  2 of 5 completed

Descargando datos para: TECL, TQQQ, SOXL, RETL, UPRO
Rango de fechas: 2021-11-01 a 2025-03-01


[*********************100%***********************]  5 of 5 completed


Error: La columna 'Adj Close' no se encontró en los datos descargados.
La estructura de datos devuelta puede ser inesperada.
Columnas disponibles: MultiIndex([( 'Close', 'RETL'),
            ( 'Close', 'SOXL'),
            ( 'Close', 'TECL'),
            ( 'Close', 'TQQQ'),
            ( 'Close', 'UPRO'),
            (  'High', 'RETL'),
            (  'High', 'SOXL'),
            (  'High', 'TECL'),
            (  'High', 'TQQQ'),
            (  'High', 'UPRO'),
            (   'Low', 'RETL'),
            (   'Low', 'SOXL'),
            (   'Low', 'TECL'),
            (   'Low', 'TQQQ'),
            (   'Low', 'UPRO'),
            (  'Open', 'RETL'),
            (  'Open', 'SOXL'),
            (  'Open', 'TECL'),
            (  'Open', 'TQQQ'),
            (  'Open', 'UPRO'),
            ('Volume', 'RETL'),
            ('Volume', 'SOXL'),
            ('Volume', 'TECL'),
            ('Volume', 'TQQQ'),
            ('Volume', 'UPRO')],
           names=['Price', 'Ticker'])

--- Proceso 




In [None]:
!python get_etf_data.py

python3: can't open file '/content/get_etf_data.py': [Errno 2] No such file or directory


In [None]:
# -*- coding: utf-8 -*-

import yfinance as yf
import pandas as pd
from datetime import datetime

# --- Configuración ---
# Lista de Tickers de los ETFs
tickers = ["TECL", "TQQQ", "SOXL", "RETL", "UPRO"]

# Fechas de inicio y fin
start_date = "2021-11-01"
end_date = "2025-03-01" # Incluirá hasta 2025-02-28 si está disponible

# --- Descarga de Datos ---
print(f"Descargando datos para: {', '.join(tickers)}")
print(f"Rango de fechas: {start_date} a {end_date}")

data = pd.DataFrame() # Inicializar como DataFrame vacío
try:
    # Descargar los datos históricos
    data = yf.download(tickers, start=start_date, end=end_date, progress=True)

    # --- Verificaciones Robustas ---
    if data.empty:
        print("\nError: No se pudieron descargar datos. El DataFrame está vacío.")
        print("Verifica los tickers, las fechas o tu conexión a internet.")
    # ***** CAMBIO AQUÍ: Verificar si 'Close' existe *****
    elif 'Close' not in data.columns.get_level_values(0):
         print("\nError: La columna 'Close' no se encontró en los datos descargados.")
         print("La estructura de datos devuelta es inesperada.")
         print("Columnas disponibles:", data.columns)
    else:
        # --- Extracción de 'Close' ---
        # ***** CAMBIO AQUÍ: Usar 'Close' en lugar de 'Adj Close' *****
        close_data = data['Close']

        # Eliminar filas donde *todos* los valores son NaN
        close_data = close_data.dropna(how='all')

        # Verificar si quedó algo después de eliminar NaNs
        if close_data.empty:
            print("\nAdvertencia: Después de eliminar filas sin datos, el DataFrame resultante ('Close') está vacío.")
        else:
            # --- Mostrar Resultados ---
            # ***** CAMBIO AQUÍ: Actualizar mensajes para reflejar 'Close' *****
            print("\n--- Datos de Precios de Cierre ('Close') ---")

            print("\nPrimeras filas:")
            print(close_data.head())

            print("\nÚltimas filas disponibles:")
            print(close_data.tail())

            print("\nInformación del DataFrame:")
            close_data.info()

            # Opcional: Guardar los datos en un archivo CSV en Colab
            # csv_filename = "etf_close_data.csv" # Nombre de archivo actualizado
            # close_data.to_csv(csv_filename)
            # print(f"\nDatos guardados en {csv_filename} (almacenamiento temporal de Colab)")

            # --- Opcional: Guardar en Google Drive ---
            # (Mismos pasos que antes para montar Drive si lo deseas)
            # drive_path = '/content/drive/MyDrive/Colab Notebooks/etf_close_data.csv' # Ajusta ruta!
            # close_data.to_csv(drive_path)
            # print(f"\nDatos guardados en Google Drive: {drive_path}")


except Exception as e:
    # Captura otros posibles errores (conexión, etc.)
    print(f"\nOcurrió un error inesperado durante la descarga o procesamiento: {e}")
    # import traceback
    # traceback.print_exc()

print("\n--- Proceso Finalizado ---")

# Opcional: mostrar vista previa interactiva si close_data existe
# if 'close_data' in locals() and not close_data.empty:
#    close_data

[**********************60%****                   ]  3 of 5 completed

Descargando datos para: TECL, TQQQ, SOXL, RETL, UPRO
Rango de fechas: 2021-11-01 a 2025-03-01


[*********************100%***********************]  5 of 5 completed


--- Datos de Precios de Cierre ('Close') ---

Primeras filas:
Ticker           RETL       SOXL       TECL       TQQQ       UPRO
Date                                                             
2021-11-01  43.024521  48.638424  69.926437  75.352760  67.905258
2021-11-02  43.810616  50.449226  71.590195  76.357849  68.704361
2021-11-03  48.891502  52.250294  72.840462  78.781601  69.985886
2021-11-04  48.901089  57.517189  76.197487  81.719917  70.926300
2021-11-05  50.425350  59.298771  77.241020  82.022881  71.696190

Últimas filas disponibles:
Ticker          RETL       SOXL       TECL       TQQQ       UPRO
Date                                                            
2025-02-24  8.167053  26.677172  85.340904  80.462608  91.397377
2025-02-25  8.266652  24.992403  82.030952  77.391678  89.950745
2025-02-26  7.967857  26.208628  84.653000  77.890205  90.050507
2025-02-27  7.489786  21.682680  75.570572  71.429260  85.750504
2025-02-28  7.698942  22.659645  78.092911  74.699615  89




In [None]:
# -*- coding: utf-8 -*-

# !pip install yfinance openpyxl # Descomenta y ejecuta esta línea en una celda si quieres guardar en Excel y no tienes openpyxl

import yfinance as yf
import pandas as pd
from datetime import datetime
from google.colab import files # Para la opción de descarga directa
# from google.colab import drive # Descomenta si vas a guardar en Google Drive

# --- Configuración ---
tickers = ["TECL", "TQQQ", "SOXL", "RETL", "UPRO"]
start_date = "2021-11-01"
end_date = "2025-03-01"

# --- Opcional: Montar Google Drive ---
# Si quieres guardar el archivo permanentemente en tu Drive,
# ejecuta esta celda ANTES de ejecutar la celda principal del código.
# Necesitarás autorizar el acceso.
# drive.mount('/content/drive')

# --- Descarga de Datos ---
print(f"Descargando datos para: {', '.join(tickers)}")
print(f"Rango de fechas: {start_date} a {end_date}")

data = pd.DataFrame()
try:
    data = yf.download(tickers, start=start_date, end=end_date, progress=True)

    if data.empty:
        print("\nError: No se pudieron descargar datos. El DataFrame está vacío.")
    elif 'Close' not in data.columns.get_level_values(0):
         print("\nError: La columna 'Close' no se encontró en los datos descargados.")
         print("Columnas disponibles:", data.columns)
    else:
        close_data = data['Close']
        close_data = close_data.dropna(how='all')

        if close_data.empty:
            print("\nAdvertencia: Después de eliminar filas sin datos, el DataFrame resultante ('Close') está vacío.")
        else:
            print("\n--- Datos de Precios de Cierre ('Close') ---")
            print("\nPrimeras filas:")
            print(close_data.head())
            print("\nÚltimas filas disponibles:")
            print(close_data.tail())
            print("\nInformación del DataFrame:")
            close_data.info()

            # --- GUARDAR EL DATAFRAME ---

            # --- Opción 1: Guardar como CSV en Almacenamiento Temporal de Colab ---
            csv_filename_temp = "etf_close_data_temp.csv"
            close_data.to_csv(csv_filename_temp)
            print(f"\n✅ Datos guardados como CSV en Colab: '{csv_filename_temp}'")
            print("   Puedes encontrarlo en el panel izquierdo (icono de carpeta).")
            print("   Este archivo es TEMPORAL y se borrará al cerrar la sesión.")

            # --- Opción 2: Guardar como Excel en Almacenamiento Temporal de Colab ---
            # Requiere tener 'openpyxl' instalado (!pip install openpyxl)
            # excel_filename_temp = "etf_close_data_temp.xlsx"
            # close_data.to_excel(excel_filename_temp)
            # print(f"\n✅ Datos guardados como Excel en Colab: '{excel_filename_temp}'")
            # print("   Este archivo también es TEMPORAL.")

            # --- Opción 3: Guardar como CSV en Google Drive (Recomendado para persistencia) ---
            # Asegúrate de haber montado Google Drive (ver comentario al inicio)
            # y ajusta la ruta si es necesario.
            # drive_csv_path = '/content/drive/MyDrive/Colab Notebooks/etf_close_data_drive.csv' # EJEMPLO DE RUTA - ¡AJUSTA LA TUYA!
            # try:
            #     close_data.to_csv(drive_csv_path)
            #     print(f"\n✅ Datos guardados como CSV en Google Drive: '{drive_csv_path}'")
            # except Exception as e_drive:
            #     print(f"\n❌ Error al guardar en Google Drive: {e_drive}")
            #     print("   Verifica que Google Drive esté montado y la ruta sea correcta.")


            # --- Opción 4: Guardar como Excel en Google Drive ---
            # Requiere 'openpyxl' y haber montado Drive. Ajusta la ruta.
            # drive_excel_path = '/content/drive/MyDrive/Colab Notebooks/etf_close_data_drive.xlsx' # EJEMPLO DE RUTA - ¡AJUSTA LA TUYA!
            # try:
            #     close_data.to_excel(drive_excel_path)
            #     print(f"\n✅ Datos guardados como Excel en Google Drive: '{drive_excel_path}'")
            # except Exception as e_drive_excel:
            #     print(f"\n❌ Error al guardar Excel en Google Drive: {e_drive_excel}")
            #     print("   Verifica Drive, la ruta y que 'openpyxl' esté instalado.")


            # --- Opción 5: Descargar el archivo CSV directamente a tu PC ---
            # (Se basa en el archivo guardado en el almacenamiento temporal - Opción 1)
            # print(f"\n⬇️ Iniciando descarga del archivo: {csv_filename_temp}")
            # files.download(csv_filename_temp)


except Exception as e:
    print(f"\nOcurrió un error inesperado: {e}")
    # import traceback
    # traceback.print_exc()

print("\n--- Proceso Finalizado ---")

[                       0%                       ]

Descargando datos para: TECL, TQQQ, SOXL, RETL, UPRO
Rango de fechas: 2021-11-01 a 2025-03-01


[*********************100%***********************]  5 of 5 completed



--- Datos de Precios de Cierre ('Close') ---

Primeras filas:
Ticker           RETL       SOXL       TECL       TQQQ       UPRO
Date                                                             
2021-11-01  43.024521  48.638424  69.926437  75.352760  67.905258
2021-11-02  43.810616  50.449226  71.590195  76.357849  68.704361
2021-11-03  48.891502  52.250294  72.840462  78.781601  69.985886
2021-11-04  48.901089  57.517189  76.197487  81.719917  70.926300
2021-11-05  50.425350  59.298771  77.241020  82.022881  71.696190

Últimas filas disponibles:
Ticker          RETL       SOXL       TECL       TQQQ       UPRO
Date                                                            
2025-02-24  8.167053  26.677172  85.340904  80.462608  91.397377
2025-02-25  8.266652  24.992403  82.030952  77.391678  89.950745
2025-02-26  7.967857  26.208628  84.653000  77.890205  90.050507
2025-02-27  7.489786  21.682680  75.570572  71.429260  85.750504
2025-02-28  7.698942  22.659645  78.092911  74.699615  89

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import itertools
from statsmodels.tsa.seasonal import seasonal_decompose

df = pd.read_csv('top20_ETFs.csv')
df_top20 = df.copy()

In [None]:
import pandas as pd
import numpy as np # Para usar np.nan

# --- PASO 0: Asegúrate de que 'data' y 'other_df' existan ---
# 'data' es el DataFrame original devuelto por yf.download ANTES de seleccionar solo 'Adj Close' o 'Close'
# 'other_df' es tu DataFrame principal cargado previamente

# --- Verificar que los DataFrames necesarios existen ---
if 'data' not in locals():
    print("❌ Error: El DataFrame 'data' (descarga original de yfinance) no existe.")
    # Aquí podrías añadir el código para volver a descargar 'data' si fuera necesario
elif 'df_top20' not in locals():
    print("❌ Error: El DataFrame 'df_top20' (tu dataset principal) no existe.")
else:
    print("DataFrames 'data' y 'df_top20' encontrados. Procediendo con la transformación...")

    try:
        # --- PASO 1 y 2: Reestructurar (Stack) ---
        # 'data' tiene MultiIndex en columnas: ('Open', 'TECL'), ('Close', 'TECL'), etc.
        # Nivel 0: Tipo de Precio ('Open', 'Close', etc.)
        # Nivel 1: Ticker ('TECL', 'TQQQ', etc.)
        # Queremos mover el Nivel 1 (Ticker) al índice.
        stacked_data = data.stack(level=1) # Mueve el nivel 'Ticker' al índice

        # Ahora el índice es MultiIndex (Date, Ticker)
        # Las columnas son 'Open', 'High', 'Low', 'Close', 'Volume', 'Adj Close' (si existiera)

        # --- PASO 3: Resetear Índice ---
        long_format_data = stacked_data.reset_index()
        # Ahora tenemos columnas: 'Date', 'Ticker', 'Open', 'High', 'Low', 'Close', 'Volume'

        # --- PASO 4: Renombrar Columnas ---
        # Definir el mapeo de nombres de columna
        column_rename_map = {
            'Date': 'price_date',      # Nombre de fecha en tu dataset
            'Ticker': 'fund_symbol',   # Nombre del ticker en tu dataset
            'Open': 'open',
            'High': 'high',
            'Low': 'low',
            'Close': 'close',
            'Volume': 'volume'
            # 'Adj Close' no está presente, lo manejaremos después
        }
        renamed_data = long_format_data.rename(columns=column_rename_map)

        # Convertir 'price_date' a datetime si no lo es ya (reset_index puede cambiarlo)
        renamed_data['price_date'] = pd.to_datetime(renamed_data['price_date'])

        print("\nNuevo dataset después de renombrar:")
        print(renamed_data.head())
        print("\nInformación del nuevo dataset renombrado:")
        renamed_data.info()

        # --- PASO 5: Manejar Columnas Faltantes ---
        # 5a: Añadir 'adj_close' (usando el valor de 'close')
        if 'close' in renamed_data.columns:
             renamed_data['adj_close'] = renamed_data['close']
             print("\nColumna 'adj_close' añadida (copiada de 'close').")
        else:
             print("\nAdvertencia: La columna 'close' no se encontró para crear 'adj_close'. Se omitirá.")


        # 5b: Añadir columnas específicas de tu dataset con NaN
        # Obtener la lista de columnas objetivo de tu DataFrame original
        target_columns = df_top20.columns.tolist()

        for col in target_columns:
            if col not in renamed_data.columns:
                print(f"Añadiendo columna faltante '{col}' con NaN.")
                renamed_data[col] = np.nan # Añade la columna con valores NaN

        # --- PASO 6: Seleccionar y Ordenar Columnas ---
        # Asegurarse de que el nuevo dataset tenga exactamente las mismas columnas y en el mismo orden
        final_new_data = renamed_data[target_columns].copy() # Usar .copy() para evitar SettingWithCopyWarning

        print("\nDataset nuevo final con estructura compatible:")
        print(final_new_data.head())
        print("\nInformación del dataset nuevo final:")
        final_new_data.info()

        # --- Preparar 'df_top20' para concatenar ---
        # Asegurarse de que 'df_top20' también tenga 'price_date' como columna datetime
        # (Si 'price_date' era tu índice, resetealo)
        if isinstance(df_top20.index, pd.DatetimeIndex) or df_top20.index.name == 'price_date':
             print("\nReseteando índice de 'df_top20' para asegurar columna 'price_date'.")
             df_top20_prepared = df_top20.reset_index()
        else:
             df_top20_prepared = df_top20.copy() # Asume que ya tiene 'price_date' como columna

        # Verificar y convertir 'price_date' en df_top20 si es necesario
        if 'price_date' not in df_top20_prepared.columns:
             raise ValueError("La columna 'price_date' no se encuentra en 'df_top20'. Verifica la preparación.")
        if not pd.api.types.is_datetime64_any_dtype(df_top20_prepared['price_date']):
             print("Convirtiendo 'price_date' de 'df_top20' a datetime.")
             df_top20_prepared['price_date'] = pd.to_datetime(df_top20_prepared['price_date'])

        # Asegurarse de que las columnas coincidan exactamente antes de concatenar
        if set(final_new_data.columns) != set(df_top20_prepared.columns):
            print("❌ Error: Las columnas no coinciden exactamente entre los datasets preparados.")
            print("Columnas en 'final_new_data':", sorted(final_new_data.columns))
            print("Columnas en 'df_top20_prepared':", sorted(df_top20_prepared.columns))
        else:
            # Reordenar df_top20_prepared para que coincida con el orden de final_new_data
            df_top20_prepared = df_top20_prepared[final_new_data.columns]

            # --- PASO 7: Concatenar ---
            print("\nConcatenando el dataset original con el nuevo dataset transformado...")
            combined_df = pd.concat([df_top20_prepared, final_new_data], ignore_index=True)

            # Opcional: Eliminar duplicados si pudiera haber solapamiento exacto (poco probable aquí)
            # combined_df = combined_df.drop_duplicates(subset=['price_date', 'fund_symbol'], keep='last')

            # Opcional: Ordenar el dataset final por símbolo y fecha
            combined_df = combined_df.sort_values(by=['fund_symbol', 'price_date']).reset_index(drop=True)

            print("\n--- Concatenación Completada ---")
            print("Primeras filas del dataset combinado:")
            print(combined_df.head())
            print("\nÚltimas filas del dataset combinado:")
            print(combined_df.tail())
            print(f"\nNúmero total de filas en el dataset combinado: {len(combined_df)}")
            print("\nInformación del dataset combinado:")
            combined_df.info()

            # --- Opcional: Guardar el dataset combinado ---
            # combined_csv_path = "/content/drive/MyDrive/Colab Notebooks/combined_etf_data_final.csv" # Ajusta ruta
            # combined_df.to_csv(combined_csv_path, index=False) # index=False es importante si no quieres guardar el índice numérico
            # print(f"\n✅ Dataset combinado guardado en: {combined_csv_path}")

    except KeyError as e:
        print(f"❌ Error de Clave (KeyError): No se encontró la columna '{e}'.")
        print("   Verifica los nombres de las columnas en 'data' y en 'column_rename_map'.")
        print("   Columnas disponibles en 'data' (antes de stack):", data.columns)
        if 'stacked_data' in locals():
             print("   Columnas disponibles en 'stacked_data':", stacked_data.columns)
        if 'long_format_data' in locals():
             print("   Columnas disponibles en 'long_format_data':", long_format_data.columns)

    except Exception as e:
        print(f"❌ Ocurrió un error inesperado durante la transformación o concatenación: {e}")
        # import traceback
        # traceback.print_exc() # Descomenta para detalles técnicos

DataFrames 'data' y 'df_top20' encontrados. Procediendo con la transformación...

Nuevo dataset después de renombrar:
Price price_date fund_symbol      close       high        low       open  \
0     2021-11-01        RETL  43.024521  43.216253  40.474494  40.474494   
1     2021-11-01        SOXL  48.638424  48.638424  46.194822  46.525828   
2     2021-11-01        TECL  69.926437  70.143021  68.597413  70.044576   
3     2021-11-01        TQQQ  75.352760  75.468172  73.664785  74.924757   
4     2021-11-01        UPRO  67.905258  68.187873  67.086649  68.007587   

Price    volume  
0        412000  
1      14647400  
2       1228100  
3      65022800  
4       9087200  

Información del nuevo dataset renombrado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4175 entries, 0 to 4174
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   price_date   4175 non-null   datetime64[ns]
 1   fund_symbol  417

  stacked_data = data.stack(level=1) # Mueve el nivel 'Ticker' al índice


In [None]:
import pandas as pd
from google.colab import files # Para la opción de descarga directa
# from google.colab import drive # Descomenta si vas a guardar en Google Drive
# !pip install openpyxl # Descomenta y ejecuta si vas a guardar en Excel

# --- PASO 0: Asegúrate de que los DataFrames a fusionar existan ---
# Necesitamos 'df_top20_prepared' (tu dataset original, preparado)
# y 'final_new_data' (los datos de Yahoo transformados a formato largo).
# Estos deberían haber sido creados en las celdas anteriores.

if 'df_top20_prepared' not in locals():
    print("❌ Error: El DataFrame 'df_top20_prepared' no existe.")
    print("   Asegúrate de haber ejecutado la celda que carga y prepara tu dataset original.")
elif 'final_new_data' not in locals():
    print("❌ Error: El DataFrame 'final_new_data' no existe.")
    print("   Asegúrate de haber ejecutado la celda que descarga y transforma los datos de Yahoo.")
else:
    print("DataFrames 'df_top20_prepared' y 'final_new_data' encontrados.")
    print("Procediendo con el merge usando 'outer join'...")

    try:
        # --- PASO 1: Realizar el Merge ---
        # Las claves para unir son la fecha y el símbolo del ETF.
        # Ambos DataFrames ya deberían tener estas columnas con los nombres correctos
        # ('price_date', 'fund_symbol') y los tipos de datos correctos (datetime para fecha).
        merge_keys = ['price_date', 'fund_symbol']

        print(f"\nRealizando outer merge sobre las claves: {merge_keys}")

        # Usamos pd.merge con how='outer'
        # suffixes es útil si hubiera columnas con el mismo nombre (aparte de las claves)
        # que no quisiéramos sobreescribir, pero como preparamos las columnas para
        # ser idénticas, no debería añadir sufijos en este caso específico.
        merged_outer_df = pd.merge(
            left=df_top20_prepared,
            right=final_new_data,
            how='outer',
            on=merge_keys,
            suffixes=('_orig', '_new') # Añadido por si acaso, aunque no debería activarse aquí
        )

        print("\n--- Outer Merge Completado ---")

        # --- PASO 2: Ordenar el Resultado ---
        # Es buena práctica ordenar el resultado final, usualmente por símbolo y fecha.
        print("Ordenando el dataset fusionado por símbolo y fecha...")
        merged_outer_df = merged_outer_df.sort_values(by=merge_keys).reset_index(drop=True)

        # --- PASO 3: Mostrar Resultados ---
        print("\nPrimeras filas del dataset fusionado (outer join):")
        print(merged_outer_df.head())
        print("\nÚltimas filas del dataset fusionado (outer join):")
        print(merged_outer_df.tail())
        print(f"\nNúmero total de filas en el dataset fusionado: {len(merged_outer_df)}")
        print("\nInformación del dataset fusionado:")
        merged_outer_df.info()

        # --- PASO 4: Guardar el Dataset Fusionado (Opcional) ---

        # --- Opción 1: Guardar como CSV en Almacenamiento Temporal de Colab ---
        merged_outer_csv_filename_temp = "merged_outer_etf_data_temp.csv"
        merged_outer_df.to_csv(merged_outer_csv_filename_temp, index=False) # index=False para no guardar el índice numérico
        print(f"\n✅ Dataset fusionado (outer) guardado como CSV en Colab: '{merged_outer_csv_filename_temp}'")
        print("   Puedes encontrarlo en el panel izquierdo (icono de carpeta). ¡Es TEMPORAL!")

        # --- Opción 2: Guardar como Excel en Almacenamiento Temporal de Colab ---
        # Requiere 'openpyxl'
        # merged_outer_excel_filename_temp = "merged_outer_etf_data_temp.xlsx"
        # merged_outer_df.to_excel(merged_outer_excel_filename_temp, index=False)
        # print(f"\n✅ Dataset fusionado (outer) guardado como Excel en Colab: '{merged_outer_excel_filename_temp}' (TEMPORAL)")

        # --- Opción 3: Guardar como CSV en Google Drive (Recomendado) ---
        # Monta Drive primero si no lo has hecho. Ajusta la ruta.
        # drive_merged_outer_csv_path = '/content/drive/MyDrive/Colab Notebooks/merged_outer_etf_data_drive.csv' # <-- ¡¡AJUSTA RUTA!!
        # try:
        #     merged_outer_df.to_csv(drive_merged_outer_csv_path, index=False)
        #     print(f"\n✅ Dataset fusionado (outer) guardado como CSV en Google Drive: '{drive_merged_outer_csv_path}'")
        # except Exception as e_drive:
        #     print(f"\n❌ Error al guardar CSV en Google Drive: {e_drive}. Verifica montaje y ruta.")

        # --- Opción 4: Guardar como Excel en Google Drive ---
        # Requiere 'openpyxl' y Drive montado. Ajusta la ruta.
        # drive_merged_outer_excel_path = '/content/drive/MyDrive/Colab Notebooks/merged_outer_etf_data_drive.xlsx' # <-- ¡¡AJUSTA RUTA!!
        # try:
        #     merged_outer_df.to_excel(drive_merged_outer_excel_path, index=False)
        #     print(f"\n✅ Dataset fusionado (outer) guardado como Excel en Google Drive: '{drive_merged_outer_excel_path}'")
        # except Exception as e_drive_excel:
        #      print(f"\n❌ Error al guardar Excel en Google Drive: {e_drive_excel}. Verifica montaje, ruta y openpyxl.")

        # --- Opción 5: Descargar el archivo CSV directamente a tu PC ---
        # print(f"\n⬇️ Iniciando descarga del archivo CSV fusionado (outer): {merged_outer_csv_filename_temp}")
        # files.download(merged_outer_csv_filename_temp)


    except KeyError as e:
        print(f"❌ Error de Clave (KeyError) durante el merge: No se encontró la columna '{e}'.")
        print("   Verifica que las columnas especificadas en 'merge_keys' existan en ambos DataFrames ('df_top20_prepared', 'final_new_data').")
    except Exception as e:
        print(f"❌ Ocurrió un error inesperado durante el merge o guardado: {e}")
        # import traceback
        # traceback.print_exc()

print("\n--- Proceso de Merge (Outer Join) y Guardado (si se seleccionó) Finalizado ---")

DataFrames 'df_top20_prepared' y 'final_new_data' encontrados.
Procediendo con el merge usando 'outer join'...

Realizando outer merge sobre las claves: ['price_date', 'fund_symbol']

--- Outer Merge Completado ---
Ordenando el dataset fusionado por símbolo y fecha...

Primeras filas del dataset fusionado (outer join):
  fund_symbol price_date  open_orig  high_orig  low_orig  close_orig  \
0         SPY 1993-01-29      43.97      43.97     43.75       43.94   
1         SPY 1993-02-01      43.97      44.25     43.97       44.25   
2         SPY 1993-02-02      44.22      44.38     44.12       44.34   
3         SPY 1993-02-03      44.41      44.84     44.38       44.81   
4         SPY 1993-02-04      44.97      45.09     44.47       45.00   

   adj_close_orig  volume_orig  Clasificacion_orig  Rentabilidad_orig  \
0           25.80    1003200.0                13.0          16.657364   
1           25.98     480500.0                13.0          16.657364   
2           26.04     20130

# MERGE 1 ENTRE DATASETS

In [None]:
import pandas as pd
# Asegúrate de que 'close_data' exista de la celda anterior
# Si no, necesitarías volver a ejecutar la celda que lo genera.

# --- 1. Cargar tu otro dataset ---
# Reemplaza 'path/to/your/mi_otro_dataset.csv' con la ruta real a tu archivo.
# Puede estar en el almacenamiento temporal de Colab o en tu Google Drive (si lo montaste).
# Reemplaza 'Fecha' con el nombre EXACTO de tu columna de fecha.

try:
    # --- Carga desde CSV ---
    other_file_path = '/content/top20_ETFs.csv' # <-- ¡¡MODIFICA ESTA RUTA!!
    date_column_name = 'price_date' # <-- ¡¡MODIFICA ESTE NOMBRE DE COLUMNA!!

    other_df = pd.read_csv(
        other_file_path,
        parse_dates=[date_column_name] # Intenta convertir la columna de fecha al cargarla
    )

    # --- Carga desde Excel (alternativa) ---
    # Si tu archivo es Excel (.xlsx):
    # !pip install openpyxl # Asegúrate de tenerlo instalado
    # other_file_path = 'path/to/your/mi_otro_dataset.xlsx' # <-- ¡¡MODIFICA ESTA RUTA!!
    # date_column_name = 'Fecha' # <-- ¡¡MODIFICA ESTE NOMBRE DE COLUMNA!!
    # other_df = pd.read_excel(
    #     other_file_path,
    #     parse_dates=[date_column_name]
    # )

    print(f"Dataset '{other_file_path}' cargado exitosamente.")
    print("Primeras filas del otro dataset:")
    print(other_df.head())
    print("\nInformación del otro dataset (verifica el tipo de la columna de fecha):")
    other_df.info()

    # --- 2. Asegurar tipo de fecha y 3. Establecer Índice ---
    # Verificar si la columna de fecha existe
    if date_column_name not in other_df.columns:
        raise ValueError(f"La columna '{date_column_name}' no se encontró en el archivo '{other_file_path}'. Verifica el nombre.")

    # Asegurar que la columna de fecha es datetime (si parse_dates falló o no se usó)
    # Si no es datetime, intenta convertirla explícitamente
    if not pd.api.types.is_datetime64_any_dtype(other_df[date_column_name]):
        print(f"\nIntentando convertir la columna '{date_column_name}' a datetime...")
        other_df[date_column_name] = pd.to_datetime(other_df[date_column_name])
        print("Conversión exitosa.")
        other_df.info() # Muestra info de nuevo tras la conversión

    # Establecer la columna de fecha como índice
    print(f"\nEstableciendo '{date_column_name}' como índice...")
    other_df = other_df.set_index(date_column_name)

    # IMPORTANTE: Manejo de Zonas Horarias (Timezones)
    # yfinance a menudo devuelve índices con zona horaria (tz-aware).
    # Si tu otro dataset no tiene zona horaria (tz-naive), la unión puede fallar o dar resultados inesperados.
    # Opción 1: Hacer que ambos sean tz-naive (eliminar timezone de close_data)
    # close_data.index = close_data.index.tz_localize(None)
    # Opción 2: Hacer que ambos sean tz-naive (eliminar timezone de other_df si lo tuviera)
    # other_df.index = other_df.index.tz_localize(None)
    # Opción 3: Convertir other_df a la misma timezone que close_data (si other_df es naive)
    # if close_data.index.tz is not None and other_df.index.tz is None:
    #      other_df = other_df.tz_localize(close_data.index.tz) # O especifica la zona, ej 'UTC', 'America/New_York'

    # Por simplicidad, intentaremos eliminar la zona horaria de ambos si existen
    if hasattr(close_data.index, 'tz') and close_data.index.tz is not None:
         print("Eliminando zona horaria del índice de 'close_data' para la unión.")
         close_data.index = close_data.index.tz_localize(None)
    if hasattr(other_df.index, 'tz') and other_df.index.tz is not None:
         print("Eliminando zona horaria del índice de 'other_df' para la unión.")
         other_df.index = other_df.index.tz_localize(None)


    # --- 4. Realizar el Merge (usando join, que es conveniente para índices) ---
    # --- 4. Realizar el Merge (usando join) ---
    print("\nRealizando el merge (outer join) de los datasets...")
    # ***** CAMBIO AQUÍ *****
    merged_df = close_data.join(other_df, how='outer') # Usar 'outer'

    print("\n--- Merge Completado ---")
    print("Primeras filas del dataset fusionado (puede contener NaNs):")
    print(merged_df.head()) # Verás NaNs en columnas de close_data probablemente
    print("\nÚltimas filas del dataset fusionado (puede contener NaNs):")
    print(merged_df.tail()) # Verás NaNs en columnas de other_df probablemente
    print("\nInformación del dataset fusionado:")
    merged_df.info() # Observa el número total de entradas

    # Opcional: Ordenar por índice (fecha) si no estuviera ya ordenado
    # merged_df = merged_df.sort_index()
    # print("\nDataset fusionado ordenado por fecha.")
    # print(merged_df.head())
    # print(merged_df.tail())

    # Opcional: Guardar el dataset fusionado
    # merged_csv_path = "/content/drive/MyDrive/Colab Notebooks/merged_etf_data_outer.csv" # Ajusta ruta
    # merged_df.to_csv(merged_csv_path)
    # print(f"\nDataset fusionado (outer) guardado en: {merged_csv_path}")


except FileNotFoundError:
    print(f"❌ Error: El archivo '{other_file_path}' no fue encontrado.")
    print("   Asegúrate de que la ruta es correcta y que el archivo existe.")
    print("   Si está en Google Drive, asegúrate de haber montado Drive primero.")
except KeyError as e:
    print(f"❌ Error: Problema con una columna: {e}")
    print("   Verifica que el nombre de la columna de fecha ('{date_column_name}') sea correcto.")
except ValueError as e:
     print(f"❌ Error: {e}")
except Exception as e:
    print(f"❌ Ocurrió un error inesperado: {e}")
    # import traceback
    # traceback.print_exc() # Descomenta para ver detalles técnicos del error

Dataset '/content/top20_ETFs.csv' cargado exitosamente.
Primeras filas del otro dataset:
  fund_symbol price_date   open   high    low  close  adj_close   volume  \
0         SPY 1993-01-29  43.97  43.97  43.75  43.94      25.80  1003200   
1         SPY 1993-02-01  43.97  44.25  43.97  44.25      25.98   480500   
2         SPY 1993-02-02  44.22  44.38  44.12  44.34      26.04   201300   
3         SPY 1993-02-03  44.41  44.84  44.38  44.81      26.31   529400   
4         SPY 1993-02-04  44.97  45.09  44.47  45.00      26.42   531500   

   Clasificacion  Rentabilidad  Rentabilidad_Porcentaje  
0             13     16.657364                  1665.74  
1             13     16.657364                  1665.74  
2             13     16.657364                  1665.74  
3             13     16.657364                  1665.74  
4             13     16.657364                  1665.74  

Información del otro dataset (verifica el tipo de la columna de fecha):
<class 'pandas.core.frame.DataFra

In [None]:
# (Asegúrate de que las celdas anteriores, incluyendo la carga de 'other_df'
# y la creación de 'close_data', se hayan ejecutado correctamente)

import pandas as pd
from google.colab import files # Para la opción de descarga directa
# from google.colab import drive # Descomenta si vas a guardar en Google Drive
# !pip install openpyxl # Descomenta y ejecuta si vas a guardar en Excel

# --- Asumiendo que 'close_data' y 'other_df' (con índice de fecha) ya existen ---

try:
    # --- (Opcional) Asegurar que los índices son tz-naive ---
    if hasattr(close_data.index, 'tz') and close_data.index.tz is not None:
         print("Eliminando zona horaria del índice de 'close_data' para la unión.")
         close_data.index = close_data.index.tz_localize(None)
    if hasattr(other_df.index, 'tz') and other_df.index.tz is not None:
         print("Eliminando zona horaria del índice de 'other_df' para la unión.")
         other_df.index = other_df.index.tz_localize(None)

    # --- 4. Realizar el Merge (usando outer join) ---
    print("\nRealizando el merge (outer join) de los datasets...")
    merged_df = close_data.join(other_df, how='outer')

    # Opcional: Ordenar por índice (fecha) después del merge
    merged_df = merged_df.sort_index()

    print("\n--- Merge Completado ---")
    print("Primeras filas del dataset fusionado (ordenado por fecha):")
    print(merged_df.head())
    print("\nÚltimas filas del dataset fusionado (ordenado por fecha):")
    print(merged_df.tail())
    print("\nInformación del dataset fusionado:")
    merged_df.info()


    # --- GUARDAR EL DATAFRAME MERGED_DF ---

    # --- Opción 1: Guardar como CSV en Almacenamiento Temporal de Colab ---
    merged_csv_filename_temp = "merged_etf_data_temp.csv"
    merged_df.to_csv(merged_csv_filename_temp)
    print(f"\n✅ Dataset fusionado guardado como CSV en Colab: '{merged_csv_filename_temp}'")
    print("   Puedes encontrarlo en el panel izquierdo (icono de carpeta).")
    print("   Este archivo es TEMPORAL y se borrará al cerrar la sesión.")

    # --- Opción 2: Guardar como Excel en Almacenamiento Temporal de Colab ---
    # Requiere 'openpyxl' instalado (!pip install openpyxl)
    # merged_excel_filename_temp = "merged_etf_data_temp.xlsx"
    # merged_df.to_excel(merged_excel_filename_temp)
    # print(f"\n✅ Dataset fusionado guardado como Excel en Colab: '{merged_excel_filename_temp}'")
    # print("   Este archivo también es TEMPORAL.")

    # --- Opción 3: Guardar como CSV en Google Drive (Recomendado para persistencia) ---
    # Asegúrate de haber montado Google Drive previamente en otra celda:
    # from google.colab import drive
    # drive.mount('/content/drive')
    # Y ajusta la ruta de guardado según tu estructura en Drive.
    #
    # drive_merged_csv_path = '/content/drive/MyDrive/Colab Notebooks/merged_etf_data_drive.csv' # <-- ¡¡AJUSTA ESTA RUTA!!
    # try:
    #     merged_df.to_csv(drive_merged_csv_path)
    #     print(f"\n✅ Dataset fusionado guardado como CSV en Google Drive: '{drive_merged_csv_path}'")
    # except Exception as e_drive:
    #     print(f"\n❌ Error al guardar CSV en Google Drive: {e_drive}")
    #     print("   Verifica que Google Drive esté montado y la ruta sea correcta.")

    # --- Opción 4: Guardar como Excel en Google Drive ---
    # Requiere 'openpyxl' y haber montado Drive. Ajusta la ruta.
    #
    # drive_merged_excel_path = '/content/drive/MyDrive/Colab Notebooks/merged_etf_data_drive.xlsx' # <-- ¡¡AJUSTA ESTA RUTA!!
    # try:
    #     merged_df.to_excel(drive_merged_excel_path)
    #     print(f"\n✅ Dataset fusionado guardado como Excel en Google Drive: '{drive_merged_excel_path}'")
    # except Exception as e_drive_excel:
    #     print(f"\n❌ Error al guardar Excel en Google Drive: {e_drive_excel}")
    #     print("   Verifica Drive, la ruta y que 'openpyxl' esté instalado.")


    # --- Opción 5: Descargar el archivo CSV directamente a tu PC ---
    # (Se basa en el archivo guardado en el almacenamiento temporal - Opción 1)
    # print(f"\n⬇️ Iniciando descarga del archivo CSV fusionado: {merged_csv_filename_temp}")
    # files.download(merged_csv_filename_temp)


except Exception as e:
    # Captura cualquier error durante el merge o guardado
    print(f"❌ Ocurrió un error inesperado durante el merge o guardado: {e}")
    # import traceback
    # traceback.print_exc() # Descomenta para ver detalles técnicos del error

print("\n--- Proceso de Merge y Guardado (si se seleccionó) Finalizado ---")


Realizando el merge (outer join) de los datasets...

--- Merge Completado ---
Primeras filas del dataset fusionado (ordenado por fecha):
            RETL  SOXL  TECL  TQQQ  UPRO fund_symbol   open   high    low  \
1993-01-29   NaN   NaN   NaN   NaN   NaN         SPY  43.97  43.97  43.75   
1993-02-01   NaN   NaN   NaN   NaN   NaN         SPY  43.97  44.25  43.97   
1993-02-02   NaN   NaN   NaN   NaN   NaN         SPY  44.22  44.38  44.12   
1993-02-03   NaN   NaN   NaN   NaN   NaN         SPY  44.41  44.84  44.38   
1993-02-04   NaN   NaN   NaN   NaN   NaN         SPY  44.97  45.09  44.47   

            close  adj_close     volume  Clasificacion  Rentabilidad  \
1993-01-29  43.94      25.80  1003200.0           13.0     16.657364   
1993-02-01  44.25      25.98   480500.0           13.0     16.657364   
1993-02-02  44.34      26.04   201300.0           13.0     16.657364   
1993-02-03  44.81      26.31   529400.0           13.0     16.657364   
1993-02-04  45.00      26.42   531500.0

# MERGE 2 ENTRE DATASETS

In [None]:
# -*- coding: utf-8 -*-
# Ejecuta esta celda primero si no tienes yfinance instalado en tu sesión actual
# o si necesitas instalar openpyxl para guardar en formato Excel
# !pip install yfinance openpyxl

import yfinance as yf
import pandas as pd
import numpy as np
from datetime import datetime
from google.colab import files # Para la opción de descarga directa
# from google.colab import drive # Descomenta si vas a guardar/cargar desde Google Drive

# --- NUEVA Configuración ---
new_tickers = ['SPY', 'QLD', 'RXL', 'USD', 'ROM', 'UCC', 'TNA', 'TECL', 'MIDU', 'UPRO', 'DRN',
               'UDOW', 'TQQQ', 'UMDD', 'SOXL', 'RETL', 'CURE', 'SMH', 'FRAK', 'AMER']
# ADVERTENCIA: 'USD' probablemente no sea un ticker de ETF válido en Yahoo Finance y podría fallar.
# 'AMER' podría ser ambiguo. yfinance podría generar advertencias o errores para estos.

new_start_date = "2021-11-10"
new_end_date = "2025-03-10" # yfinance obtendrá hasta la última fecha disponible antes de esto

print("Configuración definida para nuevos tickers y fechas.")

Configuración definida para nuevos tickers y fechas.


In [None]:
# --- Descarga de Datos para la nueva lista ---
print(f"Descargando datos para: {', '.join(new_tickers)}")
print(f"Rango de fechas: {new_start_date} a {new_end_date}")

data_new_tickers = pd.DataFrame() # Inicializar
failed_tickers = []

try:
    # Descargar los datos históricos
    # group_by='ticker' puede ser útil si hay errores, pero el default es más fácil para stack
    data_new_tickers = yf.download(new_tickers,
                                   start=new_start_date,
                                   end=new_end_date,
                                   progress=True)

    # Verificar si algún ticker falló (esto es heurístico, yfinance imprime errores usualmente)
    # Una forma más robusta sería descargar uno por uno si esto falla a menudo.
    # Por ahora, confiaremos en que yfinance imprima errores si los hay.

    if data_new_tickers.empty:
        print("\n❌ Error: No se pudieron descargar datos para NINGÚN ticker. El DataFrame está vacío.")
        print("   Verifica los tickers (especialmente 'USD', 'AMER'), las fechas o tu conexión.")
    else:
        print("\n✅ Descarga completada (o parcialmente completada).")
        # yfinance puede devolver NaNs para tickers que fallaron, los manejaremos después.

except Exception as e:
    print(f"\n❌ Ocurrió un error inesperado durante la descarga: {e}")

# Mostrar una pequeña muestra de los datos descargados (formato ancho)
if not data_new_tickers.empty:
    print("\nPrimeras filas de datos descargados (formato ancho):")
    print(data_new_tickers.head())
    print("\nÚltimas filas de datos descargados (formato ancho):")
    print(data_new_tickers.tail())

Descargando datos para: SPY, QLD, RXL, USD, ROM, UCC, TNA, TECL, MIDU, UPRO, DRN, UDOW, TQQQ, UMDD, SOXL, RETL, CURE, SMH, FRAK, AMER
Rango de fechas: 2021-11-10 a 2025-03-10
YF.download() has changed argument auto_adjust default to True


[*********************100%***********************]  20 of 20 completed
ERROR:yfinance:
1 Failed download:
ERROR:yfinance:['FRAK']: YFPricesMissingError('possibly delisted; no price data found  (1d 2021-11-10 -> 2025-03-10)')



✅ Descarga completada (o parcialmente completada).

Primeras filas de datos descargados (formato ancho):
Price      Adj Close      Close                                         \
Ticker          FRAK       AMER        CURE        DRN FRAK       MIDU   
Date                                                                     
2021-11-10       NaN  31.865700  118.429054  23.539118  NaN  70.884666   
2021-11-11       NaN  31.927099  117.543671  23.627878  NaN  72.036865   
2021-11-12       NaN  32.091702  118.996857  23.592375  NaN  72.743675   
2021-11-15       NaN  32.098701  116.908508  24.071676  NaN  73.063202   
2021-11-16       NaN  32.127701  118.246216  23.610123  NaN  73.489227   

Price                                                   ...    Volume  \
Ticker            QLD       RETL        ROM        RXL  ...      SOXL   
Date                                                    ...             
2021-11-10  85.115105  48.373829  60.268429  50.476933  ...  17648300   
2021-11-1

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import itertools
from statsmodels.tsa.seasonal import seasonal_decompose

df = pd.read_csv('top20_ETFs.csv')
df_top20 = df.copy()

In [None]:
# --- PASO 0: Asegúrate de que 'other_df' (tu dataset original) exista ---
# Cárgalo aquí si no está ya en memoria desde una celda anterior
# Ejemplo:
# original_file_path = '/content/drive/MyDrive/Colab Notebooks/tu_dataset_original.csv' # <-- ¡MODIFICA!
# try:
#     other_df = pd.read_csv(original_file_path, parse_dates=['price_date']) # Ajusta el nombre de la columna de fecha
#     print(f"Dataset original '{original_file_path}' cargado.")
# except FileNotFoundError:
#     print(f"❌ Error: Archivo original '{original_file_path}' no encontrado.")
# except Exception as e:
#     print(f"❌ Error cargando archivo original: {e}")


if 'data_new_tickers' not in locals() or data_new_tickers.empty:
    print("❌ Error: No hay datos descargados ('data_new_tickers') para transformar.")
elif 'df_top20' not in locals():
    print("❌ Error: El DataFrame original 'df_top20' no está cargado para obtener la estructura de columnas.")
else:
    print("\nTransformando datos descargados a formato largo...")
    final_new_data_spy_etc = pd.DataFrame() # Inicializar

    try:
        # --- PASO 1 y 2: Reestructurar (Stack) ---
        stacked_data_new = data_new_tickers.stack(level=1)

        # --- PASO 3: Resetear Índice ---
        long_format_data_new = stacked_data_new.reset_index()

        # --- PASO 4: Renombrar Columnas ---
        column_rename_map = {
            'Date': 'price_date', 'Ticker': 'fund_symbol',
            'Open': 'open', 'High': 'high', 'Low': 'low',
            'Close': 'close', 'Volume': 'volume'
        }
        renamed_data_new = long_format_data_new.rename(columns=column_rename_map)
        renamed_data_new['price_date'] = pd.to_datetime(renamed_data_new['price_date'])
        print("  -> Columnas renombradas y fecha convertida a datetime.")

        # --- PASO 5: Manejar Columnas Faltantes (según df_top20) ---
        # 5a: Añadir 'adj_close' (copiando de 'close')
        if 'close' in renamed_data_new.columns:
             renamed_data_new['adj_close'] = renamed_data_new['close']
             print("  -> Columna 'adj_close' añadida (copiada de 'close').")

        # 5b: Añadir otras columnas de 'df_top20' con NaN
        target_columns = df_top20.columns.tolist() # Usar estructura de tu DF original
        for col in target_columns:
            if col not in renamed_data_new.columns:
                print(f"  -> Añadiendo columna faltante '{col}' con NaN.")
                renamed_data_new[col] = np.nan

        # --- PASO 6: Seleccionar y Ordenar Columnas ---
        # Asegurarse de que tenga exactamente las mismas columnas y orden que df_top20
        # Filtrar primero por columnas existentes en renamed_data_new para evitar errores si falta alguna esperada
        available_target_columns = [col for col in target_columns if col in renamed_data_new.columns]
        if set(available_target_columns) != set(target_columns):
             missing_cols_in_new = set(target_columns) - set(available_target_columns)
             print(f"  -> Advertencia: No se pudieron crear/encontrar todas las columnas objetivo en los datos nuevos. Faltan: {missing_cols_in_new}")

        final_new_data_spy_etc = renamed_data_new[available_target_columns].copy()
        print("  -> Columnas seleccionadas y ordenadas para coincidir con la estructura objetivo.")


        print("\nDataset nuevo transformado (formato largo) listo:")
        print(final_new_data_spy_etc.head())
        print("\nInformación del dataset nuevo transformado:")
        final_new_data_spy_etc.info()

    except KeyError as e:
        print(f"❌ Error de Clave (KeyError) durante la transformación: No se encontró la columna '{e}'.")
        print("   Verifica los nombres de columna esperados ('Open', 'Close', etc.) en los datos de yfinance.")
    except Exception as e:
        print(f"❌ Ocurrió un error inesperado durante la transformación: {e}")
        # import traceback
        # traceback.print_exc()


Transformando datos descargados a formato largo...
  -> Columnas renombradas y fecha convertida a datetime.
  -> Columna 'adj_close' añadida (copiada de 'close').
  -> Añadiendo columna faltante 'Clasificacion' con NaN.
  -> Añadiendo columna faltante 'Rentabilidad' con NaN.
  -> Añadiendo columna faltante 'Rentabilidad_Porcentaje' con NaN.
  -> Columnas seleccionadas y ordenadas para coincidir con la estructura objetivo.

Dataset nuevo transformado (formato largo) listo:
Price fund_symbol price_date        open        high         low       close  \
0            AMER 2021-11-10   31.865700   31.865700   31.865700   31.865700   
1            CURE 2021-11-10  117.293459  119.728257  117.293459  118.429054   
2             DRN 2021-11-10   23.583497   24.080552   23.494737   23.539118   
3            MIDU 2021-11-10   72.007825   73.150346   70.042297   70.884666   
4             QLD 2021-11-10   86.392575   87.689855   84.233750   85.115105   

Price   adj_close     volume  Clasificaci

  stacked_data_new = data_new_tickers.stack(level=1)


In [None]:
if 'df_top20' not in locals():
     print("❌ Error: El DataFrame original 'df_top20' no está cargado.")
elif 'final_new_data_spy_etc' not in locals() or final_new_data_spy_etc.empty:
     print("❌ Error: Los nuevos datos transformados ('final_new_data_spy_etc') no están disponibles.")
else:
    print("\nPreparando dataset original y realizando Outer Merge...")
    merged_outer_df_spy_etc = pd.DataFrame() # Inicializar

    try:
        # --- Preparar 'df_top20' ---
        # Asegurarse de que 'price_date' es columna datetime
        df_top20_prepared_spy_etc = df_top20.copy()
        if isinstance(df_top20_prepared_spy_etc.index, pd.DatetimeIndex) or df_top20_prepared_spy_etc.index.name == 'price_date':
             print("  -> Reseteando índice de 'df_top20' para tener 'price_date' como columna.")
             df_top20_prepared_spy_etc = df_top20_prepared_spy_etc.reset_index()

        if 'price_date' not in df_top20_prepared_spy_etc.columns:
             raise ValueError("La columna 'price_date' no existe en 'df_top20_prepared_spy_etc'.")
        if not pd.api.types.is_datetime64_any_dtype(df_top20_prepared_spy_etc['price_date']):
             print("  -> Convirtiendo 'price_date' de 'df_top20' a datetime.")
             df_top20_prepared_spy_etc['price_date'] = pd.to_datetime(df_top20_prepared_spy_etc['price_date'])

        # Verificar compatibilidad de columnas
        target_cols_set = set(final_new_data_spy_etc.columns)
        orig_cols_set = set(df_top20_prepared_spy_etc.columns)
        if target_cols_set != orig_cols_set:
             print("⚠️ Advertencia: Las columnas no coinciden exactamente ANTES del merge.")
             print(f"   Columnas solo en Nuevos Datos: {target_cols_set - orig_cols_set}")
             print(f"   Columnas solo en Datos Originales: {orig_cols_set - target_cols_set}")
             print("   El merge aún puede funcionar, pero revisa las columnas resultantes.")
             # Asegurar que al menos las columnas de los nuevos datos estén presentes en el original para el merge
             common_cols_orig = list(target_cols_set.intersection(orig_cols_set))
             df_top20_prepared_spy_etc = df_top20_prepared_spy_etc[common_cols_orig]


        # --- Realizar el Merge (Outer Join) ---
        merge_keys = ['price_date', 'fund_symbol']
        print(f"  -> Realizando outer merge sobre claves: {merge_keys}")

        merged_outer_df_spy_etc = pd.merge(
            left=df_top20_prepared_spy_etc, # Tu data vieja
            right=final_new_data_spy_etc,  # La data nueva de Yahoo
            how='outer',
            on=merge_keys,
            suffixes=('_orig', '_new') # Importante si las columnas no coincidían perfectamente
        )

        print("\n--- Outer Merge Completado ---")
        print("Información del DataFrame fusionado (antes de consolidar sufijos):")
        merged_outer_df_spy_etc.info()
        # Es útil ver si se crearon columnas _orig/_new
        print("\nColumnas generadas en el merge:")
        print(merged_outer_df_spy_etc.columns.tolist())


    except KeyError as e:
        print(f"❌ Error de Clave (KeyError) durante el merge: No se encontró la columna '{e}'.")
        print("   Verifica que 'price_date' y 'fund_symbol' existan en ambos DataFrames preparados.")
    except ValueError as e:
         print(f"❌ Error de Valor durante la preparación o merge: {e}")
    except Exception as e:
        print(f"❌ Ocurrió un error inesperado durante el merge: {e}")
        # import traceback
        # traceback.print_exc()


Preparando dataset original y realizando Outer Merge...
  -> Convirtiendo 'price_date' de 'df_top20' a datetime.
  -> Realizando outer merge sobre claves: ['price_date', 'fund_symbol']

--- Outer Merge Completado ---
Información del DataFrame fusionado (antes de consolidar sufijos):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79688 entries, 0 to 79687
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   fund_symbol                   79688 non-null  object        
 1   price_date                    79688 non-null  datetime64[ns]
 2   open_orig                     64715 non-null  float64       
 3   high_orig                     64715 non-null  float64       
 4   low_orig                      64715 non-null  float64       
 5   close_orig                    64715 non-null  float64       
 6   adj_close_orig                64715 non-null  float64       
 7   volume_

In [None]:
if 'merged_outer_df_spy_etc' not in locals() or merged_outer_df_spy_etc.empty:
    print("❌ Error: El DataFrame fusionado ('merged_outer_df_spy_etc') no está disponible para consolidar.")
else:
    print("\nConsolidando columnas '_orig' y '_new' (si existen)...")
    consolidated_df_spy_etc = merged_outer_df_spy_etc.copy()
    columns_to_drop_consolidate = []

    # Iterar sobre las columnas para encontrar pares _orig/_new
    orig_cols_consolidate = [col for col in consolidated_df_spy_etc.columns if col.endswith('_orig')]

    if not orig_cols_consolidate:
         print("  -> No se encontraron columnas con sufijo '_orig'. El merge probablemente alineó bien las columnas.")
         # En este caso, consolidated_df_spy_etc ya está listo (salvo por ordenamiento/NA)
    else:
        print(f"  -> Encontradas columnas '_orig': {orig_cols_consolidate}. Procediendo a combinar...")
        for col_orig in orig_cols_consolidate:
            base_name = col_orig[:-5]
            col_new = f"{base_name}_new"

            if col_new in consolidated_df_spy_etc.columns:
                print(f"     -> Combinando '{col_orig}' y '{col_new}' en '{base_name}'")
                # Priorizar datos '_new', rellenar con '_orig' si '_new' es NaN
                consolidated_df_spy_etc[base_name] = consolidated_df_spy_etc[col_new].combine_first(consolidated_df_spy_etc[col_orig])
                columns_to_drop_consolidate.extend([col_orig, col_new])
            else:
                # Si solo existe _orig, la renombramos para quitar el sufijo
                print(f"     -> Solo se encontró '{col_orig}', renombrando a '{base_name}'.")
                consolidated_df_spy_etc = consolidated_df_spy_etc.rename(columns={col_orig: base_name})
                # No añadimos a drop aquí, solo renombramos

        # Eliminar las columnas originales solo si se procesaron pares _new
        if columns_to_drop_consolidate:
             print(f"\n  -> Eliminando columnas originales procesadas: {columns_to_drop_consolidate}")
             consolidated_df_spy_etc = consolidated_df_spy_etc.drop(columns=columns_to_drop_consolidate)

    # --- Ordenar y Comprobar NAs ---
    print("\nOrdenando el DataFrame consolidado final por fecha y símbolo...")
    consolidated_df_spy_etc = consolidated_df_spy_etc.sort_values(by=['price_date', 'fund_symbol']).reset_index(drop=True)

    print("\nComprobando valores NA en el DataFrame consolidado final:")
    na_counts_final = consolidated_df_spy_etc.isna().sum()
    na_report_final = na_counts_final[na_counts_final > 0]
    if not na_report_final.empty:
        print("  -> Columnas con valores NA encontrados:")
        print(na_report_final)
    else:
        print("  -> No se encontraron valores NA.")

    print("\n--- Consolidación Finalizada ---")
    print("Primeras filas del DataFrame final consolidado:")
    print(consolidated_df_spy_etc.head())
    print("\nÚltimas filas del DataFrame final consolidado:")
    print(consolidated_df_spy_etc.tail())
    print("\nInformación del DataFrame final consolidado:")
    consolidated_df_spy_etc.info()


Consolidando columnas '_orig' y '_new' (si existen)...
  -> Encontradas columnas '_orig': ['open_orig', 'high_orig', 'low_orig', 'close_orig', 'adj_close_orig', 'volume_orig', 'Clasificacion_orig', 'Rentabilidad_orig', 'Rentabilidad_Porcentaje_orig']. Procediendo a combinar...
     -> Combinando 'open_orig' y 'open_new' en 'open'
     -> Combinando 'high_orig' y 'high_new' en 'high'
     -> Combinando 'low_orig' y 'low_new' en 'low'
     -> Combinando 'close_orig' y 'close_new' en 'close'
     -> Combinando 'adj_close_orig' y 'adj_close_new' en 'adj_close'
     -> Combinando 'volume_orig' y 'volume_new' en 'volume'
     -> Combinando 'Clasificacion_orig' y 'Clasificacion_new' en 'Clasificacion'
     -> Combinando 'Rentabilidad_orig' y 'Rentabilidad_new' en 'Rentabilidad'
     -> Combinando 'Rentabilidad_Porcentaje_orig' y 'Rentabilidad_Porcentaje_new' en 'Rentabilidad_Porcentaje'

  -> Eliminando columnas originales procesadas: ['open_orig', 'open_new', 'high_orig', 'high_new', 'low_o

In [None]:
if 'consolidated_df_spy_etc' not in locals() or consolidated_df_spy_etc.empty:
    print("❌ Error: El DataFrame final consolidado ('consolidated_df_spy_etc') no está disponible para guardar.")
else:
    print("\nPreparando para guardar el DataFrame final consolidado...")

    # --- Elige UNA de las siguientes opciones para guardar ---

    # --- Opción 1: Guardar como CSV en Almacenamiento Temporal de Colab ---
    final_csv_filename_temp = "final_spy_etc_etf_data_temp.csv"
    try:
        consolidated_df_spy_etc.to_csv(final_csv_filename_temp, index=False, encoding='utf-8')
        print(f"\n✅ DataFrame final guardado como CSV en Colab: '{final_csv_filename_temp}' (TEMPORAL)")
        print("   Encuéntralo en el panel izquierdo (carpeta) para descargarlo.")
    except Exception as e:
        print(f"\n❌ Error al guardar CSV temporalmente en Colab: {e}")

    # --- Opción 2: Guardar como CSV en Google Drive (Recomendado) ---
    # 1. Monta Drive si no lo has hecho:
    #    from google.colab import drive
    #    drive.mount('/content/drive')
    # 2. Descomenta y ajusta la ruta:
    # final_drive_csv_path = '/content/drive/MyDrive/Colab Notebooks/final_spy_etc_etf_data_drive.csv' # <-- ¡¡AJUSTA RUTA!!
    # print(f"\nIntentando guardar DataFrame final en Google Drive: {final_drive_csv_path}...")
    # try:
    #     consolidated_df_spy_etc.to_csv(final_drive_csv_path, index=False, encoding='utf-8')
    #     print(f"✅ DataFrame final guardado exitosamente en Google Drive.")
    # except Exception as e_drive:
    #     print(f"❌ Error al guardar CSV en Google Drive: {e_drive}. Verifica montaje y ruta.")

    # --- Opción 3: Descargar el CSV directamente ---
    # Descomenta si quieres iniciar la descarga en el navegador (usa el archivo de la Opción 1)
    # print(f"\n⬇️ Preparando descarga directa: {final_csv_filename_temp}...")
    # try:
    #     files.download(final_csv_filename_temp)
    # except NameError:
    #     print(f"   Error: Archivo '{final_csv_filename_temp}' no encontrado para descargar.")
    # except Exception as e_download:
    #     print(f"   Error durante descarga: {e_download}")

    print("\n--- Proceso de Guardado Finalizado ---")


Preparando para guardar el DataFrame final consolidado...

✅ DataFrame final guardado como CSV en Colab: 'final_spy_etc_etf_data_temp.csv' (TEMPORAL)
   Encuéntralo en el panel izquierdo (carpeta) para descargarlo.

--- Proceso de Guardado Finalizado ---


In [None]:
consolidated_df_spy_etc = consolidated_df_spy_etc.sort_values(by=['fund_symbol', 'price_date']).reset_index(drop=True)

In [None]:
consolidated_df_spy_etc.head(100000)

Unnamed: 0,fund_symbol,price_date,open,high,low,close,adj_close,volume,Clasificacion,Rentabilidad,Rentabilidad_Porcentaje
0,AMER,2020-10-16,0.680000,0.680000,0.680000,0.680000,0.670000,0.0,6.0,44.522388,4452.24
1,AMER,2020-10-19,24.670000,24.670000,24.670000,24.670000,24.260000,100.0,6.0,44.522388,4452.24
2,AMER,2020-10-20,24.870000,24.870000,24.610000,24.610000,24.200000,100000.0,6.0,44.522388,4452.24
3,AMER,2020-10-21,24.500000,24.500000,24.500000,24.500000,24.090000,0.0,6.0,44.522388,4452.24
4,AMER,2020-10-22,24.640000,24.640000,24.640000,24.640000,24.230000,0.0,6.0,44.522388,4452.24
...,...,...,...,...,...,...,...,...,...,...,...
79683,USD,2025-03-03,53.635491,53.635491,45.154112,46.462780,46.462780,1395900.0,,,
79684,USD,2025-03-04,44.984284,49.969219,43.595695,47.401829,47.401829,1159300.0,,,
79685,USD,2025-03-05,48.480730,49.349850,46.282967,48.790417,48.790417,629600.0,,,
79686,USD,2025-03-06,45.174090,46.972262,43.295998,43.705582,43.705582,1182400.0,,,


In [None]:
# Ejecuta esto en una nueva celda después de crear consolidated_df_spy_etc
min_date_overall = consolidated_df_spy_etc['price_date'].min()
print(f"La fecha mínima en TODO el DataFrame consolidado es: {min_date_overall}")

La fecha mínima en TODO el DataFrame consolidado es: 1993-01-29 00:00:00


In [None]:
# Ejecuta esto en una nueva celda
try:
    min_date_spy = consolidated_df_spy_etc[consolidated_df_spy_etc['fund_symbol'] == 'SPY']['price_date'].min()
    print(f"La fecha mínima para SPY en el DataFrame consolidado es: {min_date_spy}")
except KeyError:
    print("No se encontraron datos para SPY.")
except Exception as e:
    print(f"Error al verificar SPY: {e}")

La fecha mínima para SPY en el DataFrame consolidado es: 1993-01-29 00:00:00


In [None]:
# Ejecuta esto en una nueva celda
first_symbol_alpha = consolidated_df_spy_etc['fund_symbol'].min() # Obtiene el primer símbolo alfabéticamente
min_date_first_symbol = consolidated_df_spy_etc[consolidated_df_spy_etc['fund_symbol'] == first_symbol_alpha]['price_date'].min()
print(f"El primer símbolo alfabético es: '{first_symbol_alpha}'")
print(f"La fecha mínima para '{first_symbol_alpha}' es: {min_date_first_symbol}")

El primer símbolo alfabético es: 'AMER'
La fecha mínima para 'AMER' es: 2020-10-16 00:00:00
