# Notebook 1: Extracción de Datos

Este notebook realiza la extracción de datos históricos de cotizaciones para las empresas definidas en el archivo de configuración. Se utilizará la biblioteca yfinance para descargar los datos y se guardarán en formato CSV para su posterior análisis.

## Objetivos
- Cargar configuración desde `config.yaml`
- Descargar datos históricos de las empresas seleccionadas
- Guardar los datos en `data/raw/` en formato CSV
- Documentar metadatos de la extracción

In [1]:
# Importación de bibliotecas necesarias
import sys
import os
from datetime import datetime
import pandas as pd
import numpy as np
import yaml
import json

# Agregar la carpeta src al path para poder importar los módulos propios
# Corregido: Obtener ruta absoluta al proyecto (un nivel arriba de notebooks)
notebook_path = os.path.abspath(os.path.dirname('__file__'))
project_path = os.path.abspath(os.path.join(notebook_path, '..'))
sys.path.append(project_path)

print(f"Ruta del proyecto: {project_path}")

# Importar funciones del módulo data_loader
from src.data_loader import cargar_configuracion, validar_ticker, descargar_datos_empresa, obtener_tickers_de_config

Ruta del proyecto: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion


## 1. Cargar Configuración

Se carga la configuración desde el archivo `config.yaml` que contiene los parámetros necesarios para la extracción de datos:

In [2]:
# Cargar configuración
# La ruta debe ser relativa a este notebook
config_path = os.path.join(project_path, 'config.yaml')
config = cargar_configuracion(config_path)

# Mostrar información clave de configuración
print("Configuración cargada exitosamente")
print(f"Período de análisis: {config['periodo_analisis']['fecha_inicio']} - {config['periodo_analisis']['fecha_fin']}")
empresas_info = obtener_tickers_de_config(config)
print(f"Total de empresas a procesar: {len(empresas_info)}")

Configuración cargada exitosamente
Período de análisis: 2022-05-09 - 2025-05-09
Total de empresas a procesar: 10


## 2. Extracción de Datos

En esta sección se descargan los datos históricos de todas las empresas definidas en la configuración:

In [3]:
# Configurar fechas de inicio y fin
fecha_inicio = config['periodo_analisis']['fecha_inicio']
fecha_fin = config['periodo_analisis']['fecha_fin']

# Diccionarios para almacenar datos y metadatos
datos_empresas = {}
metadatos = {
    "fecha_extraccion": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "periodo_analisis": {
        "inicio": fecha_inicio,
        "fin": fecha_fin
    },
    "empresas_procesadas": [],
    "errores": []
}

# Recorrido por todas las empresas para extraer datos
for ticker_symbol, nombre_empresa, sector in empresas_info:
    print(f"\nProcesando: {nombre_empresa} ({ticker_symbol}) - Sector: {sector}")
    
    # Descargar datos históricos
    datos = descargar_datos_empresa(ticker_symbol, fecha_inicio, fecha_fin)
    
    empresa_info = {
        "ticker": ticker_symbol,
        "nombre": nombre_empresa,
        "sector": sector
    }
    
    if datos is not None and not datos.empty:
        # Almacenar datos en el diccionario
        datos_empresas[ticker_symbol] = datos
        
        # Añadir información a metadatos
        empresa_info["registros"] = len(datos)
        empresa_info["fecha_primera_observacion"] = datos.index.min().strftime("%Y-%m-%d")
        empresa_info["fecha_ultima_observacion"] = datos.index.max().strftime("%Y-%m-%d")
        empresa_info["columnas"] = list(datos.columns)
        empresa_info["estado"] = "éxito"
        
        # Mostrar resumen de datos
        print(f"Datos descargados exitosamente para {nombre_empresa}:")
        print(f"  - Periodo: {empresa_info['fecha_primera_observacion']} a {empresa_info['fecha_ultima_observacion']}")
        print(f"  - Total registros: {empresa_info['registros']}")
        print("  - Primeras filas:")
        display(datos.head())
        
    else:
        # Registrar error
        empresa_info["estado"] = "error"
        empresa_info["mensaje_error"] = "No se pudieron descargar datos o no hay datos disponibles"
        metadatos["errores"].append({
            "ticker": ticker_symbol,
            "nombre": nombre_empresa,
            "mensaje": empresa_info["mensaje_error"]
        })
        print(f"ERROR: No se pudieron descargar datos para {nombre_empresa} ({ticker_symbol})")
    
    # Añadir a la lista de empresas procesadas
    metadatos["empresas_procesadas"].append(empresa_info)

# Resumen final
total_exitoso = sum(1 for e in metadatos["empresas_procesadas"] if e["estado"] == "éxito")
total_error = len(metadatos["errores"])

print(f"\nResumen de la extracción:")
print(f"  - Total empresas procesadas: {len(metadatos['empresas_procesadas'])}")
print(f"  - Extracciones exitosas: {total_exitoso}")
print(f"  - Extracciones fallidas: {total_error}")


Procesando: Microsoft (MSFT) - Sector: tecnologia
YF.download() has changed argument auto_adjust default to True
Datos descargados para MSFT desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Microsoft:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,MSFT,MSFT,MSFT,MSFT,MSFT
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,257.907654,265.491452,256.679449,263.249467,47726000
2022-05-10,262.703613,266.846435,258.385338,264.838387,39336400
2022-05-11,253.979324,264.516711,252.760847,258.979959,48975900
2022-05-12,248.910461,253.32622,243.714874,251.191447,51033800
2022-05-13,254.534927,256.406521,248.910449,250.860012,34925100



Procesando: Alphabet (GOOG) - Sector: tecnologia
Datos descargados para GOOG desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Alphabet:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,GOOG,GOOG,GOOG,GOOG,GOOG
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,112.550903,115.018114,112.020912,112.769366,34520000
2022-05-10,114.044342,116.140911,112.848802,115.493472,31158000
2022-05-11,113.423775,116.120999,113.114244,113.17446,36502000
2022-05-12,112.627548,114.315051,109.594414,111.410314,41464000
2022-05-13,115.96624,117.528337,113.462595,114.304107,29738000



Procesando: Meta Platforms (META) - Sector: tecnologia
Datos descargados para META desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Meta Platforms:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,META,META,META,META,META
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,195.289597,201.619763,194.662547,198.902558,36303200
2022-05-10,196.722839,202.007943,193.279078,198.574115,34452500
2022-05-11,187.85466,199.728691,187.386864,195.409053,31153400
2022-05-12,190.342926,197.120979,183.913222,186.182526,38262200
2022-05-13,197.688293,198.95234,190.382728,191.676633,24549800



Procesando: Amazon (AMZN) - Sector: tecnologia
Datos descargados para AMZN desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Amazon:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,AMZN,AMZN,AMZN,AMZN,AMZN
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,108.789001,114.0,107.957001,111.3125,128124000
2022-05-10,108.859001,112.642502,107.170998,111.25,105434000
2022-05-11,105.372002,110.155998,104.428497,108.1035,109704000
2022-05-12,106.930496,110.780502,102.405502,102.75,132026000
2022-05-13,113.055,113.183998,107.800003,109.069,93684000



Procesando: NVIDIA (NVDA) - Sector: tecnologia
Datos descargados para NVDA desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para NVIDIA:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,NVDA,NVDA,NVDA,NVDA,NVDA
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,16.923185,18.226119,16.800379,18.00547,644455000
2022-05-10,17.567165,18.169212,16.998067,17.661017,761474000
2022-05-11,16.603689,17.724914,16.541789,17.319556,670167000
2022-05-12,16.14941,16.761441,15.542373,16.193341,708728000
2022-05-13,17.67799,17.899639,16.566752,16.761443,670437000



Procesando: Johnson & Johnson (JNJ) - Sector: salud_farmaceuticas
Datos descargados para JNJ desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Johnson & Johnson:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,JNJ,JNJ,JNJ,JNJ,JNJ
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,162.299271,163.42501,159.791512,160.578618,7855200
2022-05-10,162.079575,163.99242,161.539587,163.122946,8186700
2022-05-11,161.200958,163.205333,160.972149,161.045369,6138900
2022-05-12,162.793503,162.866724,159.901359,161.512174,6898600
2022-05-13,161.859955,163.727035,160.898951,163.553138,7732200



Procesando: Merck & Co. (MRK) - Sector: salud_farmaceuticas
Datos descargados para MRK desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Merck & Co.:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,MRK,MRK,MRK,MRK,MRK
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,80.425117,80.81054,79.755218,80.296643,11901500
2022-05-10,80.581123,81.939287,80.085577,80.865608,12370800
2022-05-11,81.847519,83.334149,80.223229,80.223229,16338600
2022-05-12,83.352501,83.370851,81.08584,82.453175,14210200
2022-05-13,82.967072,83.554383,81.911743,83.233191,10308100



Procesando: Pfizer (PFE) - Sector: salud_farmaceuticas
Datos descargados para PFE desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Pfizer:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,PFE,PFE,PFE,PFE,PFE
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,41.308189,41.758298,40.569331,41.087382,25012300
2022-05-10,42.030071,42.378269,41.350658,41.647902,27335900
2022-05-11,41.996105,42.667025,41.639413,41.673384,29699500
2022-05-12,43.143398,43.177647,41.713563,41.953295,33468400
2022-05-13,42.740986,43.485873,42.535502,43.134836,22423700



Procesando: Bristol Myers Squibb (BMY) - Sector: salud_farmaceuticas
Datos descargados para BMY desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Bristol Myers Squibb:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,BMY,BMY,BMY,BMY,BMY
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,67.603874,68.472525,66.354088,67.089781,19130700
2022-05-10,67.621613,68.250939,67.036601,68.091391,15343400
2022-05-11,67.49752,68.543444,67.426609,67.595022,13678100
2022-05-12,67.63047,67.665919,66.354087,67.435467,16224500
2022-05-13,67.187294,67.887525,66.939103,67.754574,13773100



Procesando: Eli Lilly (LLY) - Sector: salud_farmaceuticas
Datos descargados para LLY desde 2022-05-09 hasta 2025-05-09
Datos descargados exitosamente para Eli Lilly:
  - Periodo: 2022-05-09 a 2025-05-08
  - Total registros: 753
  - Primeras filas:


Price,Close,High,Low,Open,Volume
Ticker,LLY,LLY,LLY,LLY,LLY
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2022-05-09,281.398193,286.94383,278.888038,285.562298,3460500
2022-05-10,277.963715,285.48438,277.282658,284.093109,3140800
2022-05-11,278.92691,286.525426,275.336827,275.988698,2625200
2022-05-12,283.898529,284.083387,275.657881,275.657881,2370000
2022-05-13,284.68924,285.831377,279.6911,285.66544,2337700



Resumen de la extracción:
  - Total empresas procesadas: 10
  - Extracciones exitosas: 10
  - Extracciones fallidas: 0


## 3. Guardado de Datos en Formato CSV

Se guardan los datos descargados en formato CSV en la carpeta `data/raw/`:

In [4]:
# Directorio para guardar los datos crudos
datos_crudos_dir = os.path.join(project_path, config['rutas']['datos_crudos'])

# Asegurarse de que el directorio exista
if not os.path.exists(datos_crudos_dir):
    os.makedirs(datos_crudos_dir)
    print(f"Directorio creado: {datos_crudos_dir}")

# Guardar cada DataFrame como archivo CSV con formato específico
for ticker, datos in datos_empresas.items():
    archivo_csv = os.path.join(datos_crudos_dir, f"{ticker}_datos_historicos.csv")
    
    # Resetear el índice para convertir la fecha en una columna
    datos_con_fecha = datos.reset_index()
    
    # Limpiar cualquier nombre de columna duplicado y asegurarse que sean los correctos
    # Esto eliminará filas con información de ticker que a veces incluye yfinance
    if len(datos_con_fecha) > 0 and isinstance(datos_con_fecha.iloc[0, 0], str) and not pd.to_datetime(datos_con_fecha.iloc[0, 0], errors='coerce'):
        # Eliminar la fila con información del ticker
        datos_con_fecha = datos_con_fecha.iloc[1:].copy()
    
    # Ahora nos aseguramos que las columnas tengan los nombres correctos
    datos_con_fecha.columns = ['Date', 'Close', 'High', 'Low', 'Open', 'Volume']
    
    # Asegurarse de que la fecha esté en el formato correcto
    datos_con_fecha['Date'] = pd.to_datetime(datos_con_fecha['Date'])
    
    # Añadir una columna con el ticker para identificar claramente la empresa
    datos_con_fecha['Ticker'] = ticker
    
    # Reordenar las columnas para tener Date primero, luego Ticker, y después los datos
    datos_con_fecha = datos_con_fecha[['Date', 'Ticker', 'Close', 'High', 'Low', 'Open', 'Volume']]
    
    # Guardar sin incluir el índice numérico
    datos_con_fecha.to_csv(archivo_csv, index=False, date_format='%Y-%m-%d')
    print(f"Datos guardados para {ticker}: {archivo_csv}")

print("\nTodos los datos fueron guardados exitosamente en formato CSV con el encabezado:")
print("Date,Ticker,Close,High,Low,Open,Volume")
print("Donde la columna Ticker identifica claramente a qué empresa corresponden los datos.")

Directorio creado: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/
Datos guardados para MSFT: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/MSFT_datos_historicos.csv
Datos guardados para GOOG: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/GOOG_datos_historicos.csv
Datos guardados para META: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/META_datos_historicos.csv
Datos guardados para AMZN: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/AMZN_datos_historicos.csv
Datos guardados para NVDA: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/NVDA_datos_historicos.csv
Datos guardados para JNJ: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/JNJ_datos_historicos.csv
Datos guardados para MRK: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/MRK_datos_hist

## 4. Documentación de Metadatos de la Extracción

Se guardan los metadatos de la extracción en formato JSON para documentar el proceso:

In [5]:
# Generar metadatos adicionales
metadatos["resumen"] = {
    "total_empresas": len(metadatos["empresas_procesadas"]),
    "extracciones_exitosas": total_exitoso,
    "extracciones_fallidas": total_error
}

# Función para convertir objetos datetime en cadenas
def convertir_datetime(obj):
    if isinstance(obj, datetime):
        return obj.strftime("%Y-%m-%d %H:%M:%S")
    raise TypeError(f"Objeto de tipo {type(obj)} no es serializable como JSON")

# Guardar metadatos en un archivo JSON
archivo_metadatos = os.path.join(datos_crudos_dir, "metadatos_extraccion.json")
with open(archivo_metadatos, 'w', encoding='utf-8') as f:
    json.dump(metadatos, f, indent=2, ensure_ascii=False, default=convertir_datetime)

print(f"Metadatos de la extracción guardados en: {archivo_metadatos}")

Metadatos de la extracción guardados en: c:\Users\Marco\Documents\Quinto Ciclo\Estadistica\analisis-inversion\data/raw/metadatos_extraccion.json


In [6]:
# Mostrar resumen detallado de la extracción
print("\nResumen detallado por empresa:")
resumen_df = pd.DataFrame([
    {"Ticker": e["ticker"], 
     "Nombre": e["nombre"], 
     "Sector": e["sector"], 
     "Estado": e["estado"],
     "Registros": e.get("registros", 0),
     "Primera Obs.": e.get("fecha_primera_observacion", "-"),
     "Última Obs.": e.get("fecha_ultima_observacion", "-")
    } for e in metadatos["empresas_procesadas"]
])
display(resumen_df)


Resumen detallado por empresa:


Unnamed: 0,Ticker,Nombre,Sector,Estado,Registros,Primera Obs.,Última Obs.
0,MSFT,Microsoft,tecnologia,éxito,753,2022-05-09,2025-05-08
1,GOOG,Alphabet,tecnologia,éxito,753,2022-05-09,2025-05-08
2,META,Meta Platforms,tecnologia,éxito,753,2022-05-09,2025-05-08
3,AMZN,Amazon,tecnologia,éxito,753,2022-05-09,2025-05-08
4,NVDA,NVIDIA,tecnologia,éxito,753,2022-05-09,2025-05-08
5,JNJ,Johnson & Johnson,salud_farmaceuticas,éxito,753,2022-05-09,2025-05-08
6,MRK,Merck & Co.,salud_farmaceuticas,éxito,753,2022-05-09,2025-05-08
7,PFE,Pfizer,salud_farmaceuticas,éxito,753,2022-05-09,2025-05-08
8,BMY,Bristol Myers Squibb,salud_farmaceuticas,éxito,753,2022-05-09,2025-05-08
9,LLY,Eli Lilly,salud_farmaceuticas,éxito,753,2022-05-09,2025-05-08


## Conclusiones

- Se extrajeron datos históricos para todas las empresas definidas en la configuración.
- Los datos se almacenaron en archivos CSV individuales en la carpeta `data/raw/`.
- Se generaron metadatos detallados de la extracción para documentar el proceso.
- El siguiente paso será la limpieza y preprocesamiento de estos datos en el notebook 2.