<a href="https://colab.research.google.com/github/afcabre/git-25-09-gh/blob/main/ValoracionEmpresas_USA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PROYECTO FINAL: Valoraci√≥n de Fundamentales de Empresas Estadounidenses que cotizan en Bolsa y Agente SQL con LangChain

**Autor:** Andr√©s Fernando Cabrera - Curso de Fundamentos de LLM y Datos  
**Sesi√≥n:** Preprocesamiento de Datos y Agentes SQL

---
## 1. Introducci√≥n: de Estados Financieros y Precios a Inteligencia de Inversi√≥n Conversacional

El escenario propuesto se plantea bajo el contexto de an√°lisis de inversiones, y la resoluci√≥n de las preguntas recurrentes que se suelen enfrentar antes de hacer o liquidar una inversi√≥n, por ejemplo, se quiere saber si el precio que se est√° pagando o recibiendo es considerado justo, es econ√≥mico o costos, frente a sus pares. O se necesita identificar se√±ales de riesgo financiero antes de comprar, y se debe establecer de manera clara, con argumentos provenientes del an√°lisis fundamental, por qu√© una acci√≥n luce atractiva o costosa en un momento espec√≠fico.
Tradicionalmente, responder estas preguntas implica construir queries SQL distintas, cruzar estados financieros con precios, calcular m√©tricas derivadas (TTM, m√°rgenes, yields, endeudamiento) y luego consolidar hallazgos en reportes. Este flujo es lento, repetitivo y dif√≠cil de escalar cuando las preguntas se multiplican.

Este proyecto final transforma ese proceso manual en un sistema de **an√°lisis conversacional** soportado por un **agente (LLM) conectado a una base de datos SQL**. El pipeline toma datos p√∫blicos de SimFin (estados financieros trimestrales y precios diarios de empresas de USA), los procesa y estructura en un esquema relacional, y habilita un agente capaz de responder preguntas en lenguaje natural. El resultado esperado es una interfaz donde un usuario sin conocimiento de SQL puede explorar, filtrar y explicar oportunidades basadas en fundamentales, con trazabilidad hacia las columnas fuente del dataset.

### Objetivos de aprendizaje (enfoque de apropiaci√≥n)

Se busca demostrar apropiaci√≥n de lo visto en arquitecturas de agentes con SQL, mediante decisiones de dise√±o y pruebas que conectan datos con preguntas reales de an√°lisis financiero:

**Dise√±o de esquema relacional pensando en el agente:**  
Se busca dise√±ar tablas y relaciones que faciliten el razonamiento: dimensiones (empresas, industrias), hechos (balance, income, cashflow, precios), y una capa de m√©tricas derivadas con trazabilidad. El objetivo no es solo normalizar, sino habilitar consultas repetibles y comprensibles para un asistente conversacional.

**Orquestaci√≥n del agente para preguntas en lenguaje natural:**  
EL agente SQL que no solo traduce la preguntas a queries, sino quedebe mantener contexto y usar el lenguaje del dominio. Por ejemplo: ‚Äúbarata vs su industria‚Äù implica comparar percentiles sectoriales; ‚Äúse√±ales de riesgo‚Äù implica revisar deuda, liquidez y cobertura; ‚Äúmejora sostenida‚Äù implica tendencias y estabilidad, no un trimestre aislado. Estas capacidades se prueban con un set de preguntas gu√≠a y casos de prueba.

Al finalizar, el objetivo es contar con un prototipo funcional y, sobre todo, con un entendimiento pr√°ctico de c√≥mo **estructurar datos y m√©tricas para maximizar su utilidad en aplicaciones de IA conversacional** apoyadas en SQL.

---

# 2. Exploraci√≥n inicial de datos

## 2.1 Instalaci√≥n de Dependencias
Instalar librer√≠as base para ingesti√≥n de CSV, SQL (SQLite) y agente conversacional (LangChain + OpenAI).

In [3]:
!pip -q install -U \
  "pandas==2.2.2" \
  "numpy==2.0.2" \
  pyarrow sqlalchemy tabulate \
  langchain langchain-openai langchain-community \
  openai tiktoken

## 2.2 Importaci√≥n de librer√≠as
Cargar librer√≠as de trabajo (pandas/numpy para DataFrames, pathlib para rutas, IPython para visualizaci√≥n).

In [2]:
import os
import io
import pandas as pd
import numpy as np
import sqlite3
from sqlalchemy import create_engine
from pathlib import Path
from IPython.display import display
from datetime import datetime

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 140)

## 2.3 Carga del Dataset Original

Descomprimir us-shareprices-daily.zip en /content/data para obtener us-shareprices-daily.csv. Cargar los 6 CSV (separador ;) desde /content/data en DataFrames y confirmar dimensiones por archivo y mostrar las primeras filas de cada DataFrame para validar que la carga fue correcta.

In [4]:
# 2.3 Carga del Dataset Original (con soporte ZIP para prices)

from pathlib import Path
import zipfile
import pandas as pd

DATA_DIR = Path("/content/data")

# --- 2.3.1: Descomprimir prices si viene como ZIP ---
zip_prices = DATA_DIR / "us-shareprices-daily.zip"
csv_prices = DATA_DIR / "us-shareprices-daily.csv"

if (not csv_prices.exists()) and zip_prices.exists():
    print("üì¶ Encontr√© us-shareprices-daily.zip y no existe el CSV. Descomprimiendo...")
    with zipfile.ZipFile(zip_prices, "r") as z:
        z.extractall(DATA_DIR)
    print("‚úì Zip descomprimido en:", DATA_DIR)

# Verificaci√≥n de existencia del CSV de precios
if not csv_prices.exists():
    print("‚ùå ERROR: No existe us-shareprices-daily.csv en /content/data")
    print("   - Si tienes el zip, aseg√∫rate que se llame: us-shareprices-daily.zip")
    print("   - Archivos presentes (top 20):", [p.name for p in sorted(DATA_DIR.glob("*"))[:20]])
    raise FileNotFoundError("Falta us-shareprices-daily.csv (o zip no descomprimi√≥ correctamente).")

print(f"‚úì prices CSV listo: {csv_prices.name} | size_MB={csv_prices.stat().st_size/(1024**2):.2f}\n")

# --- 2.3.2: Carga de los 6 CSV ---
files = {
    "industries": "industries.csv",
    "companies": "us-companies.csv",
    "balance_q": "us-balance-quarterly.csv",
    "income_q": "us-income-quarterly.csv",
    "cashflow_q": "us-cashflow-quarterly.csv",
    "prices_d": "us-shareprices-daily.csv",
}

dfs = {}
print("üìö Leyendo CSV (sep=';')...\n")

for name, fname in files.items():
    file_path = DATA_DIR / fname
    try:
        df = pd.read_csv(file_path, sep=";", low_memory=False)
        dfs[name] = df
        print(f"‚úì {fname} cargado correctamente")
        print(f"  - {name}: {df.shape[0]:,} registros √ó {df.shape[1]} columnas\n")
    except FileNotFoundError:
        print(f"‚ùå ERROR: No se encuentra el archivo: {fname}")
        print(f"   Ruta esperada: {file_path}")
        raise

# --- 2.3.3: Sanity check m√≠nimo del archivo grande (5 filas) ---
print("üîé Sanity check r√°pido de prices (5 filas):")
df_prices_test = pd.read_csv(csv_prices, sep=";", nrows=5, low_memory=False)
display(df_prices_test)
print("‚úì Columnas prices:", df_prices_test.columns.tolist())

# --- 2.3.4: Validaci√≥n visual del cargue de los archivos ---
for name, df in dfs.items():
    print("\n" + "="*90)
    print(f"{name} | shape: {df.shape[0]:,} √ó {df.shape[1]}")
    display(df.head(5))


üì¶ Encontr√© us-shareprices-daily.zip y no existe el CSV. Descomprimiendo...
‚úì Zip descomprimido en: /content/data
‚úì prices CSV listo: us-shareprices-daily.csv | size_MB=413.49

üìö Leyendo CSV (sep=';')...

‚úì industries.csv cargado correctamente
  - industries: 74 registros √ó 3 columnas

‚úì us-companies.csv cargado correctamente
  - companies: 6,525 registros √ó 11 columnas

‚úì us-balance-quarterly.csv cargado correctamente
  - balance_q: 52,098 registros √ó 30 columnas

‚úì us-income-quarterly.csv cargado correctamente
  - income_q: 52,106 registros √ó 28 columnas

‚úì us-cashflow-quarterly.csv cargado correctamente
  - cashflow_q: 52,103 registros √ó 28 columnas

‚úì us-shareprices-daily.csv cargado correctamente
  - prices_d: 6,210,379 registros √ó 11 columnas

üîé Sanity check r√°pido de prices (5 filas):


Unnamed: 0,Ticker,SimFinId,Date,Open,High,Low,Close,Adj. Close,Volume,Dividend,Shares Outstanding
0,A,45846,2020-03-30,71.06,73.18,71.06,72.67,69.86,1486203,0.18,309651359
1,A,45846,2020-03-31,72.34,72.8,70.5,71.62,68.85,1822122,,309651359
2,A,45846,2020-04-01,69.47,70.23,68.15,68.92,66.26,2173595,,309651359
3,A,45846,2020-04-02,68.27,72.45,68.14,72.29,69.5,1840311,,309651359
4,A,45846,2020-04-03,71.71,72.33,69.66,70.42,67.7,2052642,,309651359


‚úì Columnas prices: ['Ticker', 'SimFinId', 'Date', 'Open', 'High', 'Low', 'Close', 'Adj. Close', 'Volume', 'Dividend', 'Shares Outstanding']

industries | shape: 74 √ó 3


Unnamed: 0,IndustryId,Industry,Sector
0,100001,Industrial Products,Industrials
1,100002,Business Services,Industrials
2,100003,Engineering & Construction,Industrials
3,100004,Waste Management,Industrials
4,100005,Industrial Distribution,Industrials



companies | shape: 6,525 √ó 11


Unnamed: 0,Ticker,SimFinId,Company Name,IndustryId,ISIN,End of financial year (month),Number Employees,Business Summary,Market,CIK,Main Currency
0,,18692750,,,,,,,us,1997711.0,USD
1,,18847915,,,,,,,us,1769731.0,USD
2,,18538670,,,,,,,us,1734107.0,USD
3,,18657366,,,,,,,us,1899830.0,USD
4,,18667300,,,,,,,us,1178819.0,USD



balance_q | shape: 52,098 √ó 30


Unnamed: 0,Ticker,SimFinId,Currency,Fiscal Year,Fiscal Period,Report Date,Publish Date,Restated Date,Shares (Basic),Shares (Diluted),"Cash, Cash Equivalents & Short Term Investments",Accounts & Notes Receivable,Inventories,Total Current Assets,"Property, Plant & Equipment, Net",Long Term Investments & Receivables,Other Long Term Assets,Total Noncurrent Assets,Total Assets,Payables & Accruals,Short Term Debt,Total Current Liabilities,Long Term Debt,Total Noncurrent Liabilities,Total Liabilities,Share Capital & Additional Paid-In Capital,Treasury Stock,Retained Earnings,Total Equity,Total Liabilities & Equity
0,A,45846,USD,2020,Q2,2020-04-30,2020-06-01,2020-06-01,309000000.0,312000000.0,1324000000.0,886000000.0,750000000.0,3171000000.0,836000000.0,141000000.0,5307000000.0,6284000000.0,9455000000,333000000.0,700000000.0,1945000000.0,1788000000.0,2742000000.0,4687000000.0,5291000000.0,,15000000.0,4768000000.0,9455000000
1,A,45846,USD,2020,Q3,2020-07-31,2020-09-01,2020-09-01,309000000.0,312000000.0,1358000000.0,930000000.0,746000000.0,3245000000.0,846000000.0,148000000.0,5307000000.0,6301000000.0,9546000000,311000000.0,40000000.0,1314000000.0,2283000000.0,3251000000.0,4565000000.0,5327000000.0,,130000000.0,4981000000.0,9546000000
2,A,45846,USD,2020,Q4,2020-10-31,2020-12-18,2021-12-17,308000000.0,311000000.0,1441000000.0,1038000000.0,720000000.0,3415000000.0,845000000.0,158000000.0,5209000000.0,6212000000.0,9627000000,639000000.0,75000000.0,1467000000.0,2284000000.0,3287000000.0,4754000000.0,5314000000.0,,81000000.0,4873000000.0,9627000000
3,A,45846,USD,2021,Q1,2021-01-31,2021-03-02,2021-03-02,306000000.0,309000000.0,1329000000.0,1087000000.0,755000000.0,3483000000.0,866000000.0,165000000.0,5160000000.0,6191000000.0,9674000000,656000000.0,314000000.0,1687000000.0,2185000000.0,3183000000.0,4870000000.0,5269000000.0,,4000000.0,4804000000.0,9674000000
4,A,45846,USD,2021,Q2,2021-04-30,2021-06-01,2021-06-01,306000000.0,306000000.0,1380000000.0,1075000000.0,791000000.0,3514000000.0,884000000.0,188000000.0,5812000000.0,6884000000.0,10398000000,738000000.0,205000000.0,1758000000.0,2727000000.0,3830000000.0,5588000000.0,5274000000.0,,-12000000.0,4810000000.0,10398000000



income_q | shape: 52,106 √ó 28


Unnamed: 0,Ticker,SimFinId,Currency,Fiscal Year,Fiscal Period,Report Date,Publish Date,Restated Date,Shares (Basic),Shares (Diluted),Revenue,Cost of Revenue,Gross Profit,Operating Expenses,"Selling, General & Administrative",Research & Development,Depreciation & Amortization,Operating Income (Loss),Non-Operating Income (Loss),"Interest Expense, Net","Pretax Income (Loss), Adj.",Abnormal Gains (Losses),Pretax Income (Loss),"Income Tax (Expense) Benefit, Net",Income (Loss) from Continuing Operations,Net Extraordinary Gains (Losses),Net Income,Net Income (Common)
0,A,45846,USD,2020,Q2,2020-04-30,2020-06-01,2021-06-01,309000000.0,312000000.0,1238000000.0,-581000000.0,657000000.0,-555000000.0,-358000000.0,-197000000.0,,102000000.0,19000000.0,-17000000.0,121000000.0,,121000000,-20000000.0,101000000,,101000000,101000000
1,A,45846,USD,2020,Q3,2020-07-31,2020-09-01,2021-09-01,309000000.0,312000000.0,1261000000.0,-592000000.0,669000000.0,-439000000.0,-347000000.0,-92000000.0,,230000000.0,-11000000.0,-18000000.0,219000000.0,,219000000,-20000000.0,199000000,,199000000,199000000
2,A,45846,USD,2020,Q4,2020-10-31,2020-12-18,2021-09-01,308000000.0,311000000.0,1483000000.0,-695000000.0,788000000.0,-489000000.0,-387000000.0,-102000000.0,,299000000.0,-16000000.0,-18000000.0,283000000.0,,283000000,-61000000.0,222000000,,222000000,222000000
3,A,45846,USD,2021,Q1,2021-01-31,2021-03-02,2022-03-03,306000000.0,309000000.0,1548000000.0,-710000000.0,838000000.0,-510000000.0,-407000000.0,-103000000.0,,328000000.0,-16000000.0,-19000000.0,312000000.0,,312000000,-24000000.0,288000000,,288000000,288000000
4,A,45846,USD,2021,Q2,2021-04-30,2021-06-01,2022-05-31,306000000.0,306000000.0,1525000000.0,-708000000.0,817000000.0,-529000000.0,-420000000.0,-109000000.0,,288000000.0,-15000000.0,-19000000.0,273000000.0,,273000000,-57000000.0,216000000,,216000000,216000000



cashflow_q | shape: 52,103 √ó 28


Unnamed: 0,Ticker,SimFinId,Currency,Fiscal Year,Fiscal Period,Report Date,Publish Date,Restated Date,Shares (Basic),Shares (Diluted),Net Income/Starting Line,Depreciation & Amortization,Non-Cash Items,Change in Working Capital,Change in Accounts Receivable,Change in Inventories,Change in Accounts Payable,Change in Other,Net Cash from Operating Activities,Change in Fixed Assets & Intangibles,Net Change in Long Term Investment,Net Cash from Acquisitions & Divestitures,Net Cash from Investing Activities,Dividends Paid,Cash from (Repayment of) Debt,Cash from (Repurchase of) Equity,Net Cash from Financing Activities,Net Change in Cash
0,A,45846,USD,2020,Q2,2020-04-30,2020-06-01,2021-03-02,309000000.0,312000000.0,101000000.0,76000000.0,98000000.0,38000000.0,65000000.0,-53000000.0,5000000.0,21000000.0,313000000.0,-33000000.0,,,-53000000.0,-55000000.0,25000000.0,-126000000.0,-156000000.0,97000000
1,A,45846,USD,2020,Q3,2020-07-31,2020-09-01,2021-06-01,309000000.0,312000000.0,199000000.0,77000000.0,34000000.0,-20000000.0,-24000000.0,-1000000.0,-25000000.0,30000000.0,290000000.0,-24000000.0,,,-32000000.0,-56000000.0,-161000000.0,-9000000.0,-231000000.0,35000000
2,A,45846,USD,2020,Q4,2020-10-31,2020-12-18,2021-09-01,308000000.0,311000000.0,222000000.0,76000000.0,61000000.0,18000000.0,,,,,377000000.0,-27000000.0,,,-27000000.0,-55000000.0,35000000.0,-246000000.0,-269000000.0,83000000
3,A,45846,USD,2021,Q1,2021-01-31,2021-03-02,2022-03-03,306000000.0,309000000.0,288000000.0,76000000.0,80000000.0,-206000000.0,-31000000.0,-35000000.0,43000000.0,-183000000.0,238000000.0,-41000000.0,,,-42000000.0,-59000000.0,134000000.0,-319000000.0,-316000000.0,-111000000
4,A,45846,USD,2021,Q2,2021-04-30,2021-06-01,2022-03-03,306000000.0,306000000.0,216000000.0,77000000.0,37000000.0,142000000.0,14000000.0,-45000000.0,8000000.0,165000000.0,472000000.0,-31000000.0,,-547000000.0,-587000000.0,-59000000.0,427000000.0,-194000000.0,166000000.0,51000000



prices_d | shape: 6,210,379 √ó 11


Unnamed: 0,Ticker,SimFinId,Date,Open,High,Low,Close,Adj. Close,Volume,Dividend,Shares Outstanding
0,A,45846,2020-03-30,71.06,73.18,71.06,72.67,69.86,1486203,0.18,309651359.0
1,A,45846,2020-03-31,72.34,72.8,70.5,71.62,68.85,1822122,,309651359.0
2,A,45846,2020-04-01,69.47,70.23,68.15,68.92,66.26,2173595,,309651359.0
3,A,45846,2020-04-02,68.27,72.45,68.14,72.29,69.5,1840311,,309651359.0
4,A,45846,2020-04-03,71.71,72.33,69.66,70.42,67.7,2052642,,309651359.0


## 2.4 Exploraci√≥n Estad√≠stica B√°sica

Inspeccionar tipos de datos, valores faltantes y estad√≠sticos descriptivos b√°sicos para cada dataset, como verificaci√≥n inicial antes de limpieza.


In [5]:
# 2.4 Exploraci√≥n Estad√≠stica B√°sica (completa y robusta para prices_d)

SEP_LINE = "\n" + "="*80 + "\n"
SAMPLE_N = 100_000   # muestra para datasets grandes (ej. prices_d)
TOP_NULLS = 20       # top columnas con m√°s nulos
TOP_EXAMPLES = 5     # top valores por categor√≠a

for name, df in dfs.items():
    # Vista a analizar: para prices_d muy grande, usamos muestra (evita uso alto de RAM/tiempo)
    if name == "prices_d" and len(df) > SAMPLE_N:
        df_view = df.sample(SAMPLE_N, random_state=42)
        view_note = f"(vista: muestra aleatoria n={SAMPLE_N:,})"
    else:
        df_view = df
        view_note = "(vista: completo)"

    print("\n" + "#"*90)
    print(f"DATASET: {name} {view_note}")
    print(f"Shape original: {df.shape[0]:,} √ó {df.shape[1]}  |  Shape vista: {df_view.shape[0]:,} √ó {df_view.shape[1]}")
    print("#"*90)

    # 1) Informaci√≥n general sobre el DataFrame
    print("Informaci√≥n del Dataset:")
    buf = io.StringIO()
    df_view.info(buf=buf)
    print(buf.getvalue())
    print(SEP_LINE)

    # 2) Resumen estad√≠stico de columnas num√©ricas
    print("Resumen Estad√≠stico (num√©ricas):")
    df_num = df_view.select_dtypes(include=[np.number])
    if df_num.shape[1] == 0:
        print("‚ÑπÔ∏è No hay columnas num√©ricas para describe().")
    else:
        display(df_num.describe().T)
    print(SEP_LINE)

    # 3) Verifica valores nulos (conteo + % + top-N)
    print("Valores Nulos por Columna (top):")
    null_count = df_view.isnull().sum()
    null_count = null_count[null_count > 0].sort_values(ascending=False)

    if len(null_count) == 0:
        print("‚úì Sin nulos")
    else:
        null_pct = (null_count / len(df_view) * 100).round(2)
        null_summary = pd.DataFrame({"null_count": null_count, "null_pct": null_pct}).head(TOP_NULLS)
        display(null_summary)
    print(SEP_LINE)

    # 4) Para columnas categ√≥ricas: nunique + ejemplos top-N
    print("Valores √önicos en Columnas Categ√≥ricas:")
    obj_cols = df_view.select_dtypes(include=["object"]).columns.tolist()

    if len(obj_cols) == 0:
        print("‚ÑπÔ∏è No hay columnas categ√≥ricas (object).")
    else:
        for col in obj_cols:
            nunq = df_view[col].nunique(dropna=True)
            print(f"\n{col}: {nunq:,} valores √∫nicos")

            examples = df_view[col].value_counts(dropna=True).head(TOP_EXAMPLES).to_dict()
            print(f"Ejemplos (top {TOP_EXAMPLES}): {examples}")


##########################################################################################
DATASET: industries (vista: completo)
Shape original: 74 √ó 3  |  Shape vista: 74 √ó 3
##########################################################################################
Informaci√≥n del Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74 entries, 0 to 73
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IndustryId  74 non-null     int64 
 1   Industry    74 non-null     object
 2   Sector      74 non-null     object
dtypes: int64(1), object(2)
memory usage: 1.9+ KB



Resumen Estad√≠stico (num√©ricas):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
IndustryId,74.0,104329.797297,3293.071327,100001.0,102001.25,104002.5,107002.75,111001.0




Valores Nulos por Columna (top):
‚úì Sin nulos


Valores √önicos en Columnas Categ√≥ricas:

Industry: 74 valores √∫nicos
Ejemplos (top 5): {'Industrial Products': 1, 'Business Services': 1, 'Engineering & Construction': 1, 'Waste Management': 1, 'Industrial Distribution': 1}

Sector: 12 valores √∫nicos
Ejemplos (top 5): {'Industrials': 13, 'Consumer Cyclical': 11, 'Healthcare': 8, 'Financial Services': 8, 'Energy': 7}

##########################################################################################
DATASET: companies (vista: completo)
Shape original: 6,525 √ó 11  |  Shape vista: 6,525 √ó 11
##########################################################################################
Informaci√≥n del Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6525 entries, 0 to 6524
Data columns (total 11 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Ticker                         6488 non-n

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SimFinId,6525.0,6991677.0,6783715.0,18.0,663113.0,6744552.0,12444309.0,19976457.0
IndustryId,6224.0,104050.9,2817.199,100001.0,101004.0,104002.0,106002.0,111001.0
End of financial year (month),6492.0,10.9846,2.656196,1.0,12.0,12.0,12.0,12.0
Number Employees,5700.0,7500.325,31340.1,0.0,136.0,880.5,3700.0,1298000.0
CIK,6513.0,1270512.0,528434.9,0.0,928054.0,1402436.0,1697862.0,2079173.0




Valores Nulos por Columna (top):


Unnamed: 0,null_count,null_pct
ISIN,1182,18.11
Number Employees,825,12.64
IndustryId,301,4.61
Business Summary,294,4.51
Ticker,37,0.57
Company Name,34,0.52
End of financial year (month),33,0.51
CIK,12,0.18




Valores √önicos en Columnas Categ√≥ricas:

Ticker: 6,488 valores √∫nicos
Ejemplos (top 5): {'ZYXI': 1, 'A': 1, 'A21': 1, 'AA': 1, 'AAC': 1}

Company Name: 6,473 valores √∫nicos
Ejemplos (top 5): {'The Liberty Braves Group': 2, 'LifeMD, Inc.': 2, 'CS Disco, Inc.': 2, 'Nicolet Bankshares, Inc.': 2, 'CECO Environmental Corp.': 2}

ISIN: 5,340 valores √∫nicos
Ejemplos (top 5): {'US2941001024': 2, 'US44975P1030': 2, 'US9682232064': 2, 'US68619K2042': 1, 'US68621F1021': 1}

Business Summary: 6,207 valores √∫nicos
Ejemplos (top 5): {'Baker Hughes, a GE Co is a fullstream provider of integrated oilfield products, services, and digital solutions. The company offers the full spectrum of services to oil and gas companies, from upstream to downstream.': 2, 'GGP Inc is a self-administered and self-managed real estate investment trust. It is engaged in owning, managing, leasing, and redeveloping high-quality retail properties throughout the United States.': 2, 'ProFrac Holding Corp., a vertically 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SimFinId,52098.0,4461161.0,5225436.0,18.0,446361.0,1033570.0,10383340.0,19439000.0
Fiscal Year,52098.0,2022.069,1.40883,2019.0,2021.0,2022.0,2023.0,2025.0
Shares (Basic),51777.0,2202123000.0,222309000000.0,1.0,22741000.0,54759000.0,143640000.0,36691290000000.0
Shares (Diluted),51632.0,2034672000.0,170298200000.0,1.0,23369560.0,56058300.0,147100000.0,24463730000000.0
"Cash, Cash Equivalents & Short Term Investments",51909.0,1336755000.0,23328690000.0,0.0,32711000.0,142535000.0,458914000.0,2477360000000.0
Accounts & Notes Receivable,41367.0,790904800.0,3318918000.0,-6152378000.0,19105000.0,101271000.0,463156500.0,103771000000.0
Inventories,28362.0,868222400.0,2792455000.0,0.0,19714840.0,121084500.0,564082500.0,69229000000.0
Total Current Assets,52074.0,3144279000.0,26505310000.0,4.0,103768800.0,377470000.0,1415269000.0,2518935000000.0
"Property, Plant & Equipment, Net",48721.0,2434031000.0,11245550000.0,-4910000000.0,11382000.0,109923000.0,833723000.0,299543000000.0
Long Term Investments & Receivables,11975.0,2125613000.0,18283340000.0,-7236621000.0,13000000.0,67713000.0,345007600.0,829905200000.0




Valores Nulos por Columna (top):


Unnamed: 0,null_count,null_pct
Long Term Investments & Receivables,40123,77.01
Treasury Stock,34481,66.18
Short Term Debt,24366,46.77
Inventories,23736,45.56
Long Term Debt,14467,27.77
Accounts & Notes Receivable,10731,20.6
"Property, Plant & Equipment, Net",3377,6.48
Retained Earnings,2055,3.94
Other Long Term Assets,1725,3.31
Total Noncurrent Liabilities,1515,2.91




Valores √önicos en Columnas Categ√≥ricas:

Ticker: 3,704 valores √∫nicos
Ejemplos (top 5): {'ADBE': 21, 'COST': 21, 'ENSG': 20, 'ENS': 20, 'ENR': 20}

Currency: 1 valores √∫nicos
Ejemplos (top 5): {'USD': 52098}

Fiscal Period: 4 valores √∫nicos
Ejemplos (top 5): {'Q1': 13128, 'Q2': 13063, 'Q3': 13035, 'Q4': 12872}

Report Date: 61 valores √∫nicos
Ejemplos (top 5): {'2022-03-31': 2547, '2022-06-30': 2543, '2023-03-31': 2532, '2022-09-30': 2523, '2023-06-30': 2502}

Publish Date: 1,336 valores √∫nicos
Ejemplos (top 5): {'2024-08-08': 393, '2024-11-07': 375, '2022-08-04': 370, '2020-11-05': 368, '2021-08-05': 366}

Restated Date: 1,423 valores √∫nicos
Ejemplos (top 5): {'2024-08-08': 404, '2024-11-07': 382, '2022-08-04': 373, '2021-08-05': 371, '2022-05-05': 365}

##########################################################################################
DATASET: income_q (vista: completo)
Shape original: 52,106 √ó 28  |  Shape vista: 52,106 √ó 28
#######################################

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SimFinId,52106.0,4459729.0,5224714.0,18.0,446361.0,1033570.0,10383342.0,19439000.0
Fiscal Year,52106.0,2022.068,1.408801,2019.0,2021.0,2022.0,2023.0,2025.0
Shares (Basic),51783.0,2201874000.0,222296100000.0,1.0,22741500.0,54756024.0,143605000.0,36691290000000.0
Shares (Diluted),51638.0,2034442000.0,170288300000.0,1.0,23372750.0,56056301.5,147092027.0,24463730000000.0
Revenue,46459.0,1638471000.0,10569360000.0,-901149000000.0,38374000.0,195766000.0,847068000.0,1065665000000.0
Cost of Revenue,40767.0,-1147415000.0,6260103000.0,-624570000000.0,-540900000.0,-113425000.0,-20542000.0,71826000000.0
Gross Profit,40780.0,660249100.0,3731707000.0,-24353000000.0,22236750.0,96268500.0,360498000.0,441095000000.0
Operating Expenses,52025.0,-473747900.0,24651980000.0,-5576217000000.0,-192996000.0,-58412972.0,-16904000.0,382296600000.0
"Selling, General & Administrative",49827.0,-321765500.0,25009710000.0,-5576217000000.0,-113253000.0,-30232000.0,-7418006.0,90895530000.0
Research & Development,25392.0,-97756810.0,2243379000.0,-83500000000.0,-38398250.0,-14049500.0,-4040000.0,237131400000.0




Valores Nulos por Columna (top):


Unnamed: 0,null_count,null_pct
Net Extraordinary Gains (Losses),48813,93.68
Depreciation & Amortization,31091,59.67
Research & Development,26714,51.27
Abnormal Gains (Losses),23809,45.69
Cost of Revenue,11339,21.76
Gross Profit,11326,21.74
"Income Tax (Expense) Benefit, Net",11200,21.49
"Interest Expense, Net",6771,12.99
Revenue,5647,10.84
"Selling, General & Administrative",2279,4.37




Valores √önicos en Columnas Categ√≥ricas:

Ticker: 3,701 valores √∫nicos
Ejemplos (top 5): {'COST': 21, 'APOG': 21, 'ENTA': 20, 'ENSG': 20, 'ENS': 20}

Currency: 1 valores √∫nicos
Ejemplos (top 5): {'USD': 52106}

Fiscal Period: 4 valores √∫nicos
Ejemplos (top 5): {'Q1': 13131, 'Q2': 13066, 'Q3': 13036, 'Q4': 12873}

Report Date: 62 valores √∫nicos
Ejemplos (top 5): {'2022-03-31': 2547, '2022-06-30': 2542, '2023-03-31': 2532, '2022-09-30': 2523, '2023-06-30': 2502}

Publish Date: 1,376 valores √∫nicos
Ejemplos (top 5): {'2024-08-08': 392, '2024-11-07': 374, '2022-08-04': 368, '2020-11-05': 367, '2021-08-05': 366}

Restated Date: 1,296 valores √∫nicos
Ejemplos (top 5): {'2024-11-07': 715, '2025-11-06': 642, '2022-11-03': 556, '2024-11-12': 528, '2023-11-09': 524}

##########################################################################################
DATASET: cashflow_q (vista: completo)
Shape original: 52,103 √ó 28  |  Shape vista: 52,103 √ó 28
####################################

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SimFinId,52103.0,4460777.0,5225334.0,18.0,446361.0,1033570.0,10383340.0,19439000.0
Fiscal Year,52103.0,2022.068,1.40892,2019.0,2021.0,2022.0,2023.0,2025.0
Shares (Basic),51779.0,2202035000.0,222304700000.0,1.0,22739640.0,54736979.0,143605000.0,36691290000000.0
Shares (Diluted),51634.0,2034590000.0,170294900000.0,1.0,23364680.0,56054000.0,147092000.0,24463730000000.0
Net Income/Starting Line,51624.0,1727580.0,28090960000.0,-6289205000000.0,-13450250.0,900000.0,46292000.0,759225000000.0
Depreciation & Amortization,49476.0,84486540.0,838356800.0,-11674050000.0,1003000.0,8118500.0,38200000.0,161373000000.0
Non-Cash Items,51567.0,104561700.0,15294030000.0,-108493400000.0,287000.0,4221000.0,19943000.0,3459275000000.0
Change in Working Capital,51679.0,-21081250.0,1143478000.0,-100494800000.0,-15781500.0,-547945.0,6604500.0,107602300000.0
Change in Accounts Receivable,721.0,-64109320.0,1010596000.0,-9355000000.0,-89000000.0,-5000000.0,51200000.0,14037000000.0
Change in Inventories,493.0,-34761690.0,416549600.0,-3899000000.0,-77944000.0,-4392000.0,20000000.0,2622000000.0




Valores Nulos por Columna (top):


Unnamed: 0,null_count,null_pct
Change in Inventories,51610,99.05
Change in Accounts Payable,51493,98.83
Change in Accounts Receivable,51382,98.62
Change in Other,51158,98.19
Net Cash from Acquisitions & Divestitures,35258,67.67
Dividends Paid,33962,65.18
Net Change in Long Term Investment,33561,64.41
Cash from (Repayment of) Debt,13313,25.55
Cash from (Repurchase of) Equity,12131,23.28
Change in Fixed Assets & Intangibles,4421,8.49




Valores √önicos en Columnas Categ√≥ricas:

Ticker: 3,704 valores √∫nicos
Ejemplos (top 5): {'APOG': 21, 'COST': 21, 'ENTA': 20, 'ENSG': 20, 'ENS': 20}

Currency: 1 valores √∫nicos
Ejemplos (top 5): {'USD': 52103}

Fiscal Period: 4 valores √∫nicos
Ejemplos (top 5): {'Q1': 13134, 'Q2': 13061, 'Q3': 13033, 'Q4': 12875}

Report Date: 66 valores √∫nicos
Ejemplos (top 5): {'2022-03-31': 2547, '2022-06-30': 2543, '2023-03-31': 2532, '2022-09-30': 2524, '2023-06-30': 2502}

Publish Date: 1,389 valores √∫nicos
Ejemplos (top 5): {'2024-08-08': 390, '2024-11-07': 375, '2021-08-05': 371, '2020-11-05': 371, '2022-08-04': 370}

Restated Date: 1,302 valores √∫nicos
Ejemplos (top 5): {'2024-05-09': 703, '2025-05-08': 653, '2023-05-04': 617, '2023-05-09': 611, '2022-05-05': 536}

##########################################################################################
DATASET: prices_d (vista: muestra aleatoria n=100,000)
Shape original: 6,210,379 √ó 11  |  Shape vista: 100,000 √ó 11
###############

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SimFinId,100000.0,6875920.0,6628685.0,18.0,682408.0,6767429.0,11819770.0,19937590.0
Open,100000.0,35942.03,1710728.0,0.0,7.4,19.47,52.07,100000000.0
High,100000.0,36484.31,1723215.0,0.0,7.6,19.88,53.0225,100000000.0
Low,100000.0,35555.76,1704572.0,0.0,7.19,19.075,51.2,100000000.0
Close,100000.0,35982.27,1713159.0,0.0,7.39,19.48,52.09,100000000.0
Adj. Close,100000.0,35979.91,1713159.0,0.0,6.92,18.1,48.92,100000000.0
Volume,100000.0,1621350.0,16254000.0,0.0,32946.25,239140.5,943464.5,3352070000.0
Dividend,596.0,0.5137081,1.447287,0.0,0.12,0.26,0.49,28.19
Shares Outstanding,91469.0,498173300000.0,56791200000000.0,0.0,17194000.0,50093590.0,141700000.0,6667887000000000.0




Valores Nulos por Columna (top):


Unnamed: 0,null_count,null_pct
Dividend,99404,99.4
Shares Outstanding,8531,8.53
Ticker,13,0.01




Valores √önicos en Columnas Categ√≥ricas:

Ticker: 5,792 valores √∫nicos
Ejemplos (top 5): {'FTNT': 38, 'WRLD': 37, 'RVPH': 34, 'FBIO': 34, 'NMTC': 34}

Date: 1,237 valores √∫nicos
Ejemplos (top 5): {'2023-08-17': 111, '2023-09-20': 111, '2022-06-03': 111, '2022-01-05': 110, '2023-01-25': 110}


# 3. Preprocesamiento y limpieza de datos

3.1 Manejo de valores nulos
Aplicar reglas de manejo de nulos para asegurar llaves completas, definir el universo (empresas con ticker), marcar IndustryId conocido/desconocido y preparar columnas can√≥nicas m√≠nimas para el MVP sin imputar valores financieros.

In [6]:
# 3.1 Manejo de valores nulos (MVP, sin inventar datos)

dfs_proc = {name: df.copy() for name, df in dfs.items()}

print("üßπ 3.1 Manejo de valores nulos \n")

# -------------------------
# 1) COMPANIES: universo + Industry flag + Company Name display
# -------------------------
companies = dfs_proc["companies"].copy()

# Normalizar strings
companies["Ticker"] = companies["Ticker"].astype(str).str.strip()
companies.loc[companies["Ticker"].isin(["", "nan", "None"]), "Ticker"] = np.nan

# Regla: excluir compa√±√≠as sin ticker
before = len(companies)
companies = companies.dropna(subset=["Ticker"])
removed = before - len(companies)
print(f"companies: removidas sin Ticker -> {removed:,}")

# Industry flag (no elimina)
if "IndustryId" in companies.columns:
    companies["has_industry"] = companies["IndustryId"].notna()
else:
    companies["has_industry"] = False
    print("‚ö†Ô∏è companies: no encontr√© IndustryId, se marca has_industry=False")

# Company Name: imputaci√≥n SOLO para display
if "Company Name" in companies.columns:
    companies["Company Name"] = companies["Company Name"].fillna("Unknown")

dfs_proc["companies"] = companies

# -------------------------
# 2) INDUSTRIES: sin cambios (0 nulos en tu data)
# -------------------------
# (Opcional) validar que IndustryId no sea nulo
industries = dfs_proc["industries"].copy()
industries = industries.dropna(subset=["IndustryId"])
dfs_proc["industries"] = industries

# -------------------------
# 3) FACTS Q: drop filas con llaves nulas (para joins)
# -------------------------
fact_q_keys = ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date"]

for t in ["balance_q", "income_q", "cashflow_q"]:
    dfq = dfs_proc[t].copy()

    missing = [c for c in fact_q_keys if c not in dfq.columns]
    if missing:
        raise KeyError(f"{t}: faltan columnas llave {missing}. Columnas: {dfq.columns.tolist()}")

    before = len(dfq)
    dfq = dfq.dropna(subset=fact_q_keys)
    print(f"{t}: removidas filas con NULL en llaves -> {before - len(dfq):,}")

    dfs_proc[t] = dfq

# -------------------------
# 4) PRICES D: drop filas sin llaves (SimFinId, Date)
# -------------------------
prices = dfs_proc["prices_d"].copy()
req_prices_keys = ["SimFinId", "Date"]
missing = [c for c in req_prices_keys if c not in prices.columns]
if missing:
    raise KeyError(f"prices_d: faltan columnas llave {missing}. Columnas: {prices.columns.tolist()}")

before = len(prices)
prices = prices.dropna(subset=req_prices_keys)
print(f"prices_d: removidas filas con NULL en llaves -> {before - len(prices):,}")

# Nota: NO exigimos Ticker en prices_d (join por SimFinId)
dfs_proc["prices_d"] = prices

# -------------------------
# 5) Preparar columnas can√≥nicas m√≠nimas (sin calcular a√∫n ratios TTMs)
#    Solo creamos alias can√≥nicos para MVP (√∫til para trazabilidad)
# -------------------------

# BALANCE can√≥nicas m√≠nimas para MVP
bal = dfs_proc["balance_q"].copy()
bal["TCA"] = bal["Total Current Assets"]
bal["TCL"] = bal["Total Current Liabilities"]
bal["CASH"] = bal["Cash, Cash Equivalents & Short Term Investments"]
bal["STD"] = bal["Short Term Debt"]
bal["LTD"] = bal["Long Term Debt"]
bal["TE"]  = bal["Total Equity"]

# TotalDebt: solo si STD y LTD presentes (regla conservadora)
bal["TotalDebt"] = np.where(bal["STD"].notna() & bal["LTD"].notna(), bal["STD"] + bal["LTD"], np.nan)

# NetDebt: solo si TotalDebt y CASH presentes
bal["NetDebt"] = np.where(bal["TotalDebt"].notna() & bal["CASH"].notna(), bal["TotalDebt"] - bal["CASH"], np.nan)

dfs_proc["balance_q"] = bal

# INCOME can√≥nicas m√≠nimas para MVP
inc = dfs_proc["income_q"].copy()
inc["Revenue_Q"] = inc["Revenue"]
inc["EBIT_Q"] = inc["Operating Income (Loss)"]
inc["NetIncomeCommon_Q"] = inc["Net Income (Common)"]
dfs_proc["income_q"] = inc

# CASHFLOW can√≥nicas m√≠nimas para MVP
cf = dfs_proc["cashflow_q"].copy()
cf["CFO_Q"] = cf["Net Cash from Operating Activities"]
cf["ChangeFixedAssets_Q"] = cf["Change in Fixed Assets & Intangibles"]
cf["CapexProxy_Q"] = np.where(cf["ChangeFixedAssets_Q"].notna(), -cf["ChangeFixedAssets_Q"], np.nan)
cf["FCF_Q"] = np.where(cf["CFO_Q"].notna() & cf["CapexProxy_Q"].notna(), cf["CFO_Q"] - cf["CapexProxy_Q"], np.nan)
dfs_proc["cashflow_q"] = cf

# PRICES can√≥nicas m√≠nimas para MVP
pr = dfs_proc["prices_d"].copy()
pr["Price_D"] = pr["Adj. Close"]
pr["SharesOut_D"] = pr["Shares Outstanding"]  # ffill lo haremos al cargar a SQL
dfs_proc["prices_d"] = pr

# -------------------------
# 6) Verificaci√≥n de nulos despu√©s de "limpieza estructural"
# -------------------------
print("\nüìå Valores nulos despu√©s de limpieza (top 10 por dataset):")
TOP = 10
for name, df in dfs_proc.items():
    print("\n" + "-"*90)
    print(f"{name} | shape: {df.shape[0]:,} √ó {df.shape[1]}")
    nulls = df.isnull().sum()
    nulls = nulls[nulls > 0].sort_values(ascending=False).head(TOP)
    if len(nulls) == 0:
        print("‚úì Sin nulos")
    else:
        display(pd.DataFrame({"null_count": nulls, "null_pct": (nulls/len(df)*100).round(2)}))

üßπ 3.1 Manejo de valores nulos (MVP)

companies: removidas sin Ticker -> 37
balance_q: removidas filas con NULL en llaves -> 0
income_q: removidas filas con NULL en llaves -> 0
cashflow_q: removidas filas con NULL en llaves -> 0
prices_d: removidas filas con NULL en llaves -> 0

üìå Valores nulos despu√©s de limpieza (top 10 por dataset):

------------------------------------------------------------------------------------------
industries | shape: 74 √ó 3
‚úì Sin nulos

------------------------------------------------------------------------------------------
companies | shape: 6,488 √ó 12


Unnamed: 0,null_count,null_pct
ISIN,1145,17.65
Number Employees,789,12.16
IndustryId,265,4.08
Business Summary,258,3.98
CIK,11,0.17



------------------------------------------------------------------------------------------
balance_q | shape: 52,098 √ó 38


Unnamed: 0,null_count,null_pct
Long Term Investments & Receivables,40123,77.01
Treasury Stock,34481,66.18
NetDebt,26875,51.59
TotalDebt,26811,51.46
STD,24366,46.77
Short Term Debt,24366,46.77
Inventories,23736,45.56
LTD,14467,27.77
Long Term Debt,14467,27.77
Accounts & Notes Receivable,10731,20.6



------------------------------------------------------------------------------------------
income_q | shape: 52,106 √ó 31


Unnamed: 0,null_count,null_pct
Net Extraordinary Gains (Losses),48813,93.68
Depreciation & Amortization,31091,59.67
Research & Development,26714,51.27
Abnormal Gains (Losses),23809,45.69
Cost of Revenue,11339,21.76
Gross Profit,11326,21.74
"Income Tax (Expense) Benefit, Net",11200,21.49
"Interest Expense, Net",6771,12.99
Revenue_Q,5647,10.84
Revenue,5647,10.84



------------------------------------------------------------------------------------------
cashflow_q | shape: 52,103 √ó 32


Unnamed: 0,null_count,null_pct
Change in Inventories,51610,99.05
Change in Accounts Payable,51493,98.83
Change in Accounts Receivable,51382,98.62
Change in Other,51158,98.19
Net Cash from Acquisitions & Divestitures,35258,67.67
Dividends Paid,33962,65.18
Net Change in Long Term Investment,33561,64.41
Cash from (Repayment of) Debt,13313,25.55
Cash from (Repurchase of) Equity,12131,23.28
FCF_Q,4422,8.49



------------------------------------------------------------------------------------------
prices_d | shape: 6,210,379 √ó 13


Unnamed: 0,null_count,null_pct
Dividend,6174011,99.41
Shares Outstanding,528541,8.51
SharesOut_D,528541,8.51
Ticker,662,0.01


# 3.2 Correcci√≥n de tipos de datos

MD (una l√≠nea para 3.2): Estandarizar tipos de datos (fechas, periodos y num√©ricos) para asegurar joins temporales correctos, c√°lculos robustos y carga consistente en SQLite.



In [7]:
# 3.2 Conversi√≥n de tipos

dfs_proc2 = {name: df.copy() for name, df in dfs_proc.items()}

def to_date(df, col):
    df[col] = pd.to_datetime(df[col], errors="coerce")

def to_num(df, cols):
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors="coerce")

# companies
comp = dfs_proc2["companies"].copy()
if "IndustryId" in comp.columns:
    comp["IndustryId"] = pd.to_numeric(comp["IndustryId"], errors="coerce").astype("Int64")
dfs_proc2["companies"] = comp

# facts trimestrales
for t in ["balance_q", "income_q", "cashflow_q"]:
    dfq = dfs_proc2[t].copy()

    for c in ["Report Date", "Publish Date", "Restated Date"]:
        if c in dfq.columns:
            to_date(dfq, c)

    if "Fiscal Year" in dfq.columns:
        dfq["Fiscal Year"] = pd.to_numeric(dfq["Fiscal Year"], errors="coerce").astype("Int64")
    if "Fiscal Period" in dfq.columns:
        dfq["Fiscal Period"] = dfq["Fiscal Period"].astype("category")

    dfs_proc2[t] = dfq

# prices
pr = dfs_proc2["prices_d"].copy()
if "Date" in pr.columns:
    to_date(pr, "Date")
dfs_proc2["prices_d"] = pr

# num√©ricos clave (indicadores seleccionados)
bal = dfs_proc2["balance_q"].copy()
to_num(bal, [
    "Total Current Assets", "Total Current Liabilities",
    "Cash, Cash Equivalents & Short Term Investments",
    "Short Term Debt", "Long Term Debt", "Total Equity",
    "Total Assets", "Total Liabilities & Equity"
])
dfs_proc2["balance_q"] = bal

inc = dfs_proc2["income_q"].copy()
to_num(inc, ["Revenue", "Operating Income (Loss)", "Net Income (Common)"])
dfs_proc2["income_q"] = inc

cf = dfs_proc2["cashflow_q"].copy()
to_num(cf, ["Net Cash from Operating Activities", "Change in Fixed Assets & Intangibles"])
dfs_proc2["cashflow_q"] = cf

pr = dfs_proc2["prices_d"].copy()
to_num(pr, ["Adj. Close", "Shares Outstanding"])
dfs_proc2["prices_d"] = pr

print("Tipos de datos despu√©s de conversi√≥n:\n")

check_cols = {
    "companies": ["SimFinId", "Ticker", "IndustryId", "has_industry", "Company Name"],
    "balance_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date",
                  "Total Current Assets", "Total Current Liabilities",
                  "Cash, Cash Equivalents & Short Term Investments",
                  "Short Term Debt", "Long Term Debt", "Total Equity"],
    "income_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date",
                 "Revenue", "Operating Income (Loss)", "Net Income (Common)"],
    "cashflow_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date",
                   "Net Cash from Operating Activities", "Change in Fixed Assets & Intangibles"],
    "prices_d": ["SimFinId", "Date", "Adj. Close", "Shares Outstanding"],
}

for name, cols in check_cols.items():
    df = dfs_proc2[name]
    cols_present = [c for c in cols if c in df.columns]
    print("\n" + "-"*90)
    print(name, "| columnas revisadas:", cols_present)
    print(df[cols_present].dtypes)

dfs_proc = dfs_proc2

Tipos de datos despu√©s de conversi√≥n:


------------------------------------------------------------------------------------------
companies | columnas revisadas: ['SimFinId', 'Ticker', 'IndustryId', 'has_industry', 'Company Name']
SimFinId         int64
Ticker          object
IndustryId       Int64
has_industry      bool
Company Name    object
dtype: object

------------------------------------------------------------------------------------------
balance_q | columnas revisadas: ['SimFinId', 'Fiscal Year', 'Fiscal Period', 'Report Date', 'Total Current Assets', 'Total Current Liabilities', 'Cash, Cash Equivalents & Short Term Investments', 'Short Term Debt', 'Long Term Debt', 'Total Equity']
SimFinId                                                    int64
Fiscal Year                                                 Int64
Fiscal Period                                            category
Report Date                                        datetime64[ns]
Total Current Assets            

# 3.3 Normalizaci√≥n y estandarizaci√≥n

Normalizar campos categ√≥ricos y de texto (may√∫sculas/min√∫sculas, espacios, valores vac√≠os) para evitar duplicidades l√≥gicas y mejorar consistencia en joins, filtros y consultas del agente.

In [8]:
# 3.3 Normalizaciones (categ√≥ricas/texto)

dfs_proc3 = {name: df.copy() for name, df in dfs_proc.items()}

def normalize_text_series(s: pd.Series) -> pd.Series:
    # Normaliza: trim, colapsa espacios, estandariza vac√≠o -> NA
    s2 = s.astype(str).str.strip().str.replace(r"\s+", " ", regex=True)
    s2 = s2.replace({"": pd.NA, "nan": pd.NA, "None": pd.NA, "NaN": pd.NA})
    return s2

# -------------------------
# companies: Ticker, Market, Main Currency, Company Name
# -------------------------
comp = dfs_proc3["companies"].copy()

if "Ticker" in comp.columns:
    comp["Ticker"] = normalize_text_series(comp["Ticker"]).str.upper()

if "Market" in comp.columns:
    comp["Market"] = normalize_text_series(comp["Market"]).str.lower()

if "Main Currency" in comp.columns:
    comp["Main Currency"] = normalize_text_series(comp["Main Currency"]).str.upper()

if "Company Name" in comp.columns:
    comp["Company Name"] = normalize_text_series(comp["Company Name"])

dfs_proc3["companies"] = comp

# -------------------------
# facts trimestrales: Ticker, Currency, Fiscal Period
# -------------------------
for t in ["balance_q", "income_q", "cashflow_q"]:
    dfq = dfs_proc3[t].copy()

    if "Ticker" in dfq.columns:
        dfq["Ticker"] = normalize_text_series(dfq["Ticker"]).str.upper()

    if "Currency" in dfq.columns:
        dfq["Currency"] = normalize_text_series(dfq["Currency"]).str.upper()

    if "Fiscal Period" in dfq.columns:
        dfq["Fiscal Period"] = normalize_text_series(dfq["Fiscal Period"]).str.upper()
        # opcional: asegurar valores esperados Q1-Q4 (sin borrar, solo normaliza)

    dfs_proc3[t] = dfq

# -------------------------
# prices: Ticker
# -------------------------
pr = dfs_proc3["prices_d"].copy()
if "Ticker" in pr.columns:
    pr["Ticker"] = normalize_text_series(pr["Ticker"]).str.upper()
dfs_proc3["prices_d"] = pr

# -------------------------
# Verificaci√≥n: cardinalidad + top values por dataset
# -------------------------
print("Valores √∫nicos despu√©s de normalizaci√≥n (top 10 valores por columna):\n")

for name, df in dfs_proc3.items():
    print("\n" + "="*110)
    print(f"DATASET: {name} | shape: {df.shape[0]:,} √ó {df.shape[1]}")

    cat_cols = df.select_dtypes(include=["object", "category"]).columns.tolist()
    if len(cat_cols) == 0:
        print("‚ÑπÔ∏è No hay columnas object/category.")
        continue

    for col in cat_cols:
        nunq = df[col].nunique(dropna=True)
        print(f"\n{col}: {nunq:,} valores √∫nicos")
        display(df[col].value_counts(dropna=True).head(10))

dfs_proc = dfs_proc3

Valores √∫nicos despu√©s de normalizaci√≥n (top 10 valores por columna):


DATASET: industries | shape: 74 √ó 3

Industry: 74 valores √∫nicos


Unnamed: 0_level_0,count
Industry,Unnamed: 1_level_1
Industrial Products,1
Business Services,1
Engineering & Construction,1
Waste Management,1
Industrial Distribution,1
Airlines,1
Consulting & Outsourcing,1
Aerospace & Defense,1
Farm & Construction Machinery,1
Transportation & Logistics,1



Sector: 12 valores √∫nicos


Unnamed: 0_level_0,count
Sector,Unnamed: 1_level_1
Industrials,13
Consumer Cyclical,11
Healthcare,8
Financial Services,8
Energy,7
Basic Materials,7
Consumer Defensive,6
Technology,5
Business Services,4
Utilities,2



DATASET: companies | shape: 6,488 √ó 12

Ticker: 6,488 valores √∫nicos


Unnamed: 0_level_0,count
Ticker,Unnamed: 1_level_1
ZYXI,1
A,1
A21,1
AA,1
AAC,1
AACB,1
AACG,1
AACI,1
ZOM,1
ZNTL,1



Company Name: 6,470 valores √∫nicos


Unnamed: 0_level_0,count
Company Name,Unnamed: 1_level_1
"LifeMD, Inc.",2
CECO Environmental Corp.,2
The Liberty Braves Group,2
"CS Disco, Inc.",2
Bel Fuse Inc.,2
"Nicolet Bankshares, Inc.",2
"Selecta Biosciences, Inc.",2
"Jasper Therapeutics, Inc.",2
"Origin Bancorp, Inc.",2
"Ramaco Resources, Inc.",2



ISIN: 5,340 valores √∫nicos


Unnamed: 0_level_0,count
ISIN,Unnamed: 1_level_1
US2941001024,2
US44975P1030,2
US9682232064,2
US68619K2042,1
US68621F1021,1
US68622D1063,1
US68389X1054,1
US69121K1043,1
US68571X1037,1
US68555P1003,1



Business Summary: 6,206 valores √∫nicos


Unnamed: 0_level_0,count
Business Summary,Unnamed: 1_level_1
"Baker Hughes, a GE Co is a fullstream provider of integrated oilfield products, services, and digital solutions. The company offers the full spectrum of services to oil and gas companies, from upstream to downstream.",2
"The Liberty Braves Group, through its subsidiary, Braves Holdings, LLC, owns the Atlanta Braves Major League Baseball Club, various assets and liabilities associated with ANLBC's stadium, and mixed-use development project. The company is based in Englewood, Colorado. The Liberty Braves Group is a subsidiary of Liberty Media Corporation.",2
"Mylan NV is a generic pharmaceutical manufacturer which develops, licenses, manufactures, markets and distributes generic, over-the-counter (OTC) products in a variety of dosage forms and therapeutic categories.",2
"Weatherford International PLC together with its subsidiaries is a multinational oilfield service company. The company provides equipment and services used in the drilling, evaluation, completion, production and intervention of oil and natural gas wells.",2
"Life Storage Inc is a fully integrated, self-administered and self-managed real estate investment trust engaged in acquiring and managing self-storage properties.",2
"Allergan PLC is a specialty pharmaceutical company engaged in the development, manufacturing, marketing, and distribution of brand name pharmaceutical products, medical aesthetics, biosimilar and OTC pharmaceutical products.",2
"WisdomTree, Inc., through its subsidiaries, operates as an exchange-traded funds (ETFs) sponsor and asset manager. It offers ETFs in equities, currency, fixed income, and alternatives asset classes. The company also licenses its indexes to third parties for proprietary products, as well as offers a platform to promote the use of WisdomTree ETFs in 401(k) plans. It develops index using its fundamentally weighted index methodology. In addition, the company provides investment advisory services. The company was founded in 1985 and is based in New York, New York.",2
"Liberty Latin America Ltd., together with its subsidiaries, provides fixed, mobile, and subsea telecommunications services. The company operates through C&W Caribbean and Networks, C&W Panama, Liberty Puerto Rico, VTR, and Costa Rica segments. It offers communications and entertainment services, including video, broadband internet, fixed-line telephony, and mobile services to residential and business customers; and business products and services that include enterprise-grade connectivity, data center, hosting, and managed solutions, as well as information technology solutions for small and medium enterprises, international companies, and governmental agencies. The company also operates a sub-sea and terrestrial fiber optic cable network that connects approximately 40 markets. It provides its services in approximately 20 countries in Latin America, the Caribbean, Chile, and Costa Rica under the brands of C&W, VTR, Liberty Puerto Rico, Cabletica, BTC, UTS, Flow, and M√≥vil. The company was incorporated in 2017 and is based in Hamilton, Bermuda.",2
"GGP Inc is a self-administered and self-managed real estate investment trust. It is engaged in owning, managing, leasing, and redeveloping high-quality retail properties throughout the United States.",2
"Lawson Products, Inc. sells and distributes specialty products to the industrial, commercial, institutional, and government maintenance, repair, and operations market. It sells its products to customers in the United States, Puerto Rico, Canada, Mexico, and the Caribbean. The company was founded in 1952 and is headquartered in Chicago, Illinois.",2



Market: 1 valores √∫nicos


Unnamed: 0_level_0,count
Market,Unnamed: 1_level_1
us,6488



Main Currency: 1 valores √∫nicos


Unnamed: 0_level_0,count
Main Currency,Unnamed: 1_level_1
USD,6488



DATASET: balance_q | shape: 52,098 √ó 38

Ticker: 3,704 valores √∫nicos


Unnamed: 0_level_0,count
Ticker,Unnamed: 1_level_1
ADBE,21
COST,21
ENSG,20
ENS,20
ENR,20
ENPH,20
NEO,20
NEM,20
NEE,20
NDSN,20



Currency: 1 valores √∫nicos


Unnamed: 0_level_0,count
Currency,Unnamed: 1_level_1
USD,52098



Fiscal Period: 4 valores √∫nicos


Unnamed: 0_level_0,count
Fiscal Period,Unnamed: 1_level_1
Q1,13128
Q2,13063
Q3,13035
Q4,12872



DATASET: income_q | shape: 52,106 √ó 31

Ticker: 3,701 valores √∫nicos


Unnamed: 0_level_0,count
Ticker,Unnamed: 1_level_1
COST,21
APOG,21
ENTA,20
ENSG,20
ENS,20
ENR,20
ENPH,20
NEOG,20
NEO,20
NEM,20



Currency: 1 valores √∫nicos


Unnamed: 0_level_0,count
Currency,Unnamed: 1_level_1
USD,52106



Fiscal Period: 4 valores √∫nicos


Unnamed: 0_level_0,count
Fiscal Period,Unnamed: 1_level_1
Q1,13131
Q2,13066
Q3,13036
Q4,12873



DATASET: cashflow_q | shape: 52,103 √ó 32

Ticker: 3,704 valores √∫nicos


Unnamed: 0_level_0,count
Ticker,Unnamed: 1_level_1
APOG,21
COST,21
ENTA,20
ENSG,20
ENS,20
ENR,20
ENPH,20
NEO,20
NEM,20
NEE,20



Currency: 1 valores √∫nicos


Unnamed: 0_level_0,count
Currency,Unnamed: 1_level_1
USD,52103



Fiscal Period: 4 valores √∫nicos


Unnamed: 0_level_0,count
Fiscal Period,Unnamed: 1_level_1
Q1,13134
Q2,13061
Q3,13033
Q4,12875



DATASET: prices_d | shape: 6,210,379 √ó 13

Ticker: 5,868 valores √∫nicos


Unnamed: 0_level_0,count
Ticker,Unnamed: 1_level_1
ZYME,1237
A,1237
AA,1237
ZWS,1237
ZVRA,1237
ZIVO,1237
ZION,1237
ZEUS,1237
ABR,1237
ABM,1237


# 3.4 Eliminaci√≥n de duplicados

Detectar y gestionar duplicados seg√∫n el grano de cada tabla (dimensiones y hechos), preservando la versi√≥n m√°s reciente cuando existan reexpresiones o m√∫ltiples publicaciones.

In [9]:
# 3.4 Eliminaci√≥n de duplicados (por grano)

dfs_proc4 = {name: df.copy() for name, df in dfs_proc.items()}

print("üßΩ 3.4 Eliminaci√≥n de duplicados\n")

# Definici√≥n de llaves por tabla (grano)
keys = {
    "industries": ["IndustryId"],
    "companies": ["SimFinId"],  # se asume 1 fila por SimFinId
    "balance_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date"],
    "income_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date"],
    "cashflow_q": ["SimFinId", "Fiscal Year", "Fiscal Period", "Report Date"],
    "prices_d": ["SimFinId", "Date"],
}

# Orden de preferencia para conservar filas (si existe)
# En trimestrales, preferimos la fila con Restated Date m√°s reciente; si no, Publish Date m√°s reciente
order_cols_q = ["Restated Date", "Publish Date"]

# En prices no hay restatement; si hay duplicados, conservamos la √∫ltima fila por orden natural (estable)
# (si existiera alg√∫n timestamp adicional se usar√≠a aqu√≠)

def dedup_table(name: str):
    df = dfs_proc4[name]
    k = keys[name]
    missing = [c for c in k if c not in df.columns]
    if missing:
        raise KeyError(f"{name}: faltan columnas llave {missing}")

    dup_count = df.duplicated(subset=k, keep=False).sum()
    print(f"{name}: duplicados por llave {k} -> {dup_count:,}")

    if dup_count == 0:
        return df

    # Hechos trimestrales: ordenar por Restated/Publish asc y quedarnos con la √∫ltima (m√°s reciente)
    if name in ["balance_q", "income_q", "cashflow_q"]:
        # Asegurar que columnas de orden existan; si no existen, se omiten
        sort_cols = [c for c in order_cols_q if c in df.columns]
        if len(sort_cols) > 0:
            df_sorted = df.sort_values(sort_cols)
            df_dedup = df_sorted.drop_duplicates(subset=k, keep="last")
        else:
            df_dedup = df.drop_duplicates(subset=k, keep="last")

    # Dimensiones y prices: mantener una fila por llave (√∫ltima)
    else:
        df_dedup = df.drop_duplicates(subset=k, keep="last")

    print(f"{name}: filas despu√©s de dedup -> {len(df_dedup):,} (removidas {len(df)-len(df_dedup):,})")
    return df_dedup

for name in ["industries", "companies", "balance_q", "income_q", "cashflow_q", "prices_d"]:
    dfs_proc4[name] = dedup_table(name)

dfs_proc = dfs_proc4

üßΩ 3.4 Eliminaci√≥n de duplicados

industries: duplicados por llave ['IndustryId'] -> 0
companies: duplicados por llave ['SimFinId'] -> 0
balance_q: duplicados por llave ['SimFinId', 'Fiscal Year', 'Fiscal Period', 'Report Date'] -> 0
income_q: duplicados por llave ['SimFinId', 'Fiscal Year', 'Fiscal Period', 'Report Date'] -> 0
cashflow_q: duplicados por llave ['SimFinId', 'Fiscal Year', 'Fiscal Period', 'Report Date'] -> 0
prices_d: duplicados por llave ['SimFinId', 'Date'] -> 0


## 4. Feature engineering
# 4.1 Feature 1 | CurrentRatio_Q
Construir un dataset trimestral integrado y derivar CurrentRatio_Q para evaluar liquidez de corto plazo y fragilidad financiera.

Estad√≠sticas de la nueva feature (CurrentRatio_Q):
count    5.191100e+04
mean     1.933547e+01
std      2.267698e+03
min      8.905806e-07
25%      1.200087e+00
50%      2.036414e+00
75%      4.075795e+00
max      5.022542e+05
Name: CurrentRatio_Q, dtype: float64


# 4.2 Feature 2 | DebtToEquity_Q
Derivar DebtToEquity_Q para capturar apalancamiento financiero, clave en an√°lisis de downside y detecci√≥n de fragilidad.

In [None]:
# 4.2 Feature 2: DebtToEquity_Q

# Columnas requeridas desde balance
for c in ["Short Term Debt", "Long Term Debt", "Total Equity"]:
    if c not in dfs_proc["balance_q"].columns:
        raise KeyError(f"Falta columna requerida en balance_q: {c}")

# Traer columnas a df_procesado (ya integrado por keys_q)
df_procesado = df_procesado.merge(
    dfs_proc["balance_q"][keys_q + ["Short Term Debt", "Long Term Debt", "Total Equity"]],
    on=keys_q, how="left"
)

STD = pd.to_numeric(df_procesado["Short Term Debt"], errors="coerce")
LTD = pd.to_numeric(df_procesado["Long Term Debt"], errors="coerce")
TE  = pd.to_numeric(df_procesado["Total Equity"], errors="coerce")

# Regla conservadora acordada: TotalDebt solo si ambas deudas existen
df_procesado["TotalDebt_Q"] = np.where(STD.notna() & LTD.notna(), STD + LTD, np.nan)

df_procesado["DebtToEquity_Q"] = np.where(
    df_procesado["TotalDebt_Q"].notna() & TE.notna() & (TE > 0),
    df_procesado["TotalDebt_Q"] / TE,
    np.nan
)

print("Estad√≠sticas de la nueva feature (DebtToEquity_Q):")
print(df_procesado["DebtToEquity_Q"].describe())

### Imports + configuracion base

El acceso a los modelos de lenguaje de OpenAI requiere autenticaci√≥n mediante una API key. En entornos de producci√≥n, estas credenciales se gestionan mediante sistemas especializados de gesti√≥n de secretos (como AWS Secrets Manager, Google Cloud Secret Manager, o HashiCorp Vault), pero para desarrollo y educaci√≥n utilizamos `getpass` que solicita la clave de forma interactiva sin almacenarla permanentemente en el c√≥digo fuente del notebook. Esta pr√°ctica es fundamental en seguridad: las API keys expuestas accidentalmente en repositorios p√∫blicos son detectadas autom√°ticamente por bots y pueden generar cargos fraudulentos en cuesti√≥n de minutos.

Una vez configurada la variable de entorno `OPENAI_API_KEY`, todas las llamadas posteriores a la API de OpenAI en esta sesi√≥n de Python usar√°n autom√°ticamente esta credencial, sin necesidad de pasarla expl√≠citamente en cada invocaci√≥n. Este patr√≥n mantiene el c√≥digo limpio y centraliza la gesti√≥n de autenticaci√≥n.

In [None]:
import os
import pandas as pd
import numpy as np
from pathlib import Path
from IPython.display import display

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 140)

DATA_DIR = "/content/data"

print("üìÅ DATA_DIR =", DATA_DIR)

# 4.2 Feature derivada
Derivar DebtToEquity_Q para capturar apalancamiento financiero, clave en an√°lisis de downside y detecci√≥n de fragilidad.

## 3. Carga y Exploraci√≥n Inicial del Dataset (EDA)

El primer paso cr√≠tico en cualquier pipeline de datos es entender profundamente la materia prima con la que trabajaremos. Esta fase de An√°lisis Exploratorio de Datos (EDA) no es mera curiosidad estad√≠stica, sino una pr√°ctica esencial de ingenier√≠a que informa todas las decisiones posteriores de transformaci√≥n y modelado. Al entender la distribuci√≥n de precios, podemos decidir c√≥mo segmentar el mercado en categor√≠as. Al analizar la cardinalidad de modelos y regiones, podemos estimar el tama√±o de nuestras futuras tablas de lookup. Al inspeccionar el rango temporal de los datos, podemos dise√±ar estrategias apropiadas de an√°lisis de tendencias.

Este dataset contiene registros de ventas de veh√≠culos BMW desde 2010 hasta 2024, abarcando m√∫ltiples modelos, regiones geogr√°ficas, configuraciones de veh√≠culos y segmentos de precio. Cada registro representa una transacci√≥n de venta con sus caracter√≠sticas asociadas. La riqueza de este dataset nos permitir√° construir un sistema de inteligencia de negocio que puede responder desde preguntas simples ("¬øcu√°l es el precio promedio por regi√≥n?") hasta an√°lisis sofisticados ("¬øc√≥mo ha evolucionado la adopci√≥n de veh√≠culos el√©ctricos en mercados premium europeos entre 2020-2024?").

**Nota importante:** Aseg√∫rate de subir el archivo `BMW sales data (2010-2024) (1) (1).csv` a la secci√≥n de archivos de Colab (icono de carpeta en el panel izquierdo) antes de ejecutar la siguiente celda.

In [None]:
import pandas as pd
import numpy as np

# Cargamos el dataset de ventas BMW
# Ajusta la ruta si el nombre del archivo es diferente al subirlo
file_path = "BMW sales data (2010-2024) (1) (1).csv"

try:
    df = pd.read_csv(file_path)
    print("‚úì Dataset cargado correctamente")
    print(f"  Dimensiones: {df.shape[0]:,} registros √ó {df.shape[1]} columnas")
except FileNotFoundError:
    print("ERROR: No se encuentra el archivo.")
    print("Por favor, sube el archivo CSV al entorno de Colab usando el panel de archivos.")
    raise

# Inspecci√≥n inicial de la estructura
print("\n--- Primeras filas del dataset ---")
display(df.head(10))

In [None]:
# An√°lisis de tipos de datos y valores faltantes
print("=== INFORMACI√ìN DEL DATASET ===")
df.info()

print("\n=== ESTAD√çSTICAS DESCRIPTIVAS NUM√âRICAS ===")
display(df.describe())

In [None]:
# Exploraci√≥n de variables categ√≥ricas clave
print("=== AN√ÅLISIS EXPLORATORIO DE VARIABLES CATEG√ìRICAS ===")

print("\n--- Distribuci√≥n de Modelos BMW ---")
model_dist = df['Model'].value_counts()
print(model_dist)
print(f"\nModelos √∫nicos: {df['Model'].nunique()}")

print("\n--- Distribuci√≥n Geogr√°fica de Ventas ---")
region_dist = df['Region'].value_counts()
print(region_dist)

print("\n--- Distribuci√≥n de Tipos de Combustible ---")
fuel_dist = df['Fuel_Type'].value_counts()
print(fuel_dist)
print(f"\nPorcentaje de veh√≠culos el√©ctricos: {(df['Fuel_Type'] == 'Electric').sum() / len(df) * 100:.2f}%")

print("\n--- Distribuci√≥n de Transmisi√≥n ---")
transmission_dist = df['Transmission'].value_counts()
print(transmission_dist)

print("\n--- Distribuci√≥n Temporal ---")
year_dist = df['Year'].value_counts().sort_index()
print(f"Rango temporal: {df['Year'].min()} - {df['Year'].max()}")
print(f"A√±o con m√°s ventas: {year_dist.idxmax()} ({year_dist.max():,} registros)")

In [None]:
from google.colab import drive
drive.mount('/content/drive')

### Identificaci√≥n de Oportunidades de Feature Engineering

A partir de esta exploraci√≥n inicial, podemos identificar varias oportunidades para crear features que amplificar√°n la capacidad del agente SQL para responder preguntas de negocio. Observa que tenemos el a√±o del veh√≠culo pero no la antig√ºedad relativa, tenemos precio absoluto pero no segmentaci√≥n de mercado, tenemos kilometraje y precio por separado pero no eficiencia de valor. Estas son las transformaciones que implementaremos en la siguiente secci√≥n.

Tambi√©n notamos que los modelos BMW tienen jerarqu√≠as impl√≠citas: las series num√©ricas (3, 5, 7) representan segmentos de sed√°n progresivamente m√°s premium, los modelos X representan SUVs, los modelos M son versiones de alto rendimiento, y los modelos i son la l√≠nea de veh√≠culos el√©ctricos e h√≠bridos. Hacer estas jerarqu√≠as expl√≠citas en nuestro esquema de base de datos facilitar√° queries como "analiza la evoluci√≥n de ventas en el segmento SUV" o "compara el rendimiento de modelos de alto rendimiento versus modelos est√°ndar".

## 4. Pipeline de Preprocesamiento y Feature Engineering

Esta es la fase donde aplicamos transformaciones inteligentes que convierten datos crudos en informaci√≥n estructurada para an√°lisis. El objetivo no es solo limpiar datos (este dataset ya est√° razonablemente limpio), sino enriquecer la representaci√≥n con features derivadas que hacen expl√≠cito conocimiento impl√≠cito del dominio. Cada feature que creamos es una decisi√≥n de dise√±o que balancea complejidad de implementaci√≥n versus utilidad anal√≠tica.

Construiremos nuestro pipeline como una serie de funciones modulares y componibles, donde cada funci√≥n tiene una responsabilidad clara y puede testearse independientemente. Este enfoque no solo es buena pr√°ctica de ingenier√≠a de software, sino que facilita enormemente el debugging cuando el agente SQL genera queries incorrectas debido a problemas en los datos subyacentes.

### Fase 1: C√°lculo de Antig√ºedad del Veh√≠culo

El a√±o de manufactura es un dato factual, pero lo que realmente importa para an√°lisis de pricing, demanda y depreciaci√≥n es la antig√ºedad relativa del veh√≠culo. Un auto de 2015 en el a√±o 2024 tiene 9 a√±os de antig√ºedad, lo cual afecta dram√°ticamente su valor de mercado. Esta feature tambi√©n facilita queries temporales como "analiza veh√≠culos con menos de 3 a√±os de antig√ºedad" que de otro modo requerir√≠an aritm√©tica compleja en SQL con la fecha actual.

In [None]:
from datetime import datetime

def calculate_vehicle_age(df: pd.DataFrame) -> pd.DataFrame:
    """
    Calcula la antig√ºedad del veh√≠culo basado en el a√±o actual.

    Args:
        df: DataFrame con columna 'Year'

    Returns:
        DataFrame con nueva columna 'Vehicle_Age'
    """
    df_processed = df.copy()
    current_year = datetime.now().year

    # Calculamos antig√ºedad
    df_processed['Vehicle_Age'] = current_year - df_processed['Year']

    # Aseguramos que no haya valores negativos (errores de datos futuros)
    df_processed['Vehicle_Age'] = df_processed['Vehicle_Age'].clip(lower=0)

    return df_processed

# Aplicamos la transformaci√≥n
df_processed = calculate_vehicle_age(df)

print("‚úì Feature 'Vehicle_Age' calculada")
print("\n--- Distribuci√≥n de Antig√ºedad de Veh√≠culos ---")
print(df_processed['Vehicle_Age'].describe())
print(f"\nRango: {df_processed['Vehicle_Age'].min()} - {df_processed['Vehicle_Age'].max()} a√±os")

### Fase 2: Segmentaci√≥n de Mercado por Precio

Los precios absolutos en USD son √∫tiles para comparaciones num√©ricas, pero para an√°lisis estrat√©gico de mercado necesitamos categor√≠as que representen segmentos de consumidores. Un veh√≠culo de $30,000 USD compite en un segmento fundamentalmente diferente al de uno de $150,000 USD. Crearemos cuatro categor√≠as de segmentaci√≥n: Budget (econ√≥mico), Mid-range (rango medio), Premium (premium) y Luxury (lujo). Estos umbrales se basan en conocimiento de la industria automotriz sobre c√≥mo BMW posiciona sus modelos.

Esta categorizaci√≥n permite queries sem√°nticas como "analiza la adopci√≥n de veh√≠culos el√©ctricos en el segmento premium" que ser√≠an extremadamente verbosas si tuvi√©ramos que especificar rangos de precio en cada query.

In [None]:
def create_price_segments(df: pd.DataFrame) -> pd.DataFrame:
    """
    Crea categor√≠as de segmentaci√≥n de mercado basadas en precio.

    Args:
        df: DataFrame con columna 'Price_USD'

    Returns:
        DataFrame con nueva columna 'Price_Segment'
    """
    df_processed = df.copy()

    # Definimos umbrales basados en la estructura de mercado BMW
    def categorize_price(price):
        if price < 50000:
            return 'Budget'
        elif price < 80000:
            return 'Mid-range'
        elif price < 110000:
            return 'Premium'
        else:
            return 'Luxury'

    df_processed['Price_Segment'] = df_processed['Price_USD'].apply(categorize_price)

    return df_processed

# Aplicamos segmentaci√≥n
df_processed = create_price_segments(df_processed)

print("‚úì Feature 'Price_Segment' creada")
print("\n--- Distribuci√≥n de Segmentos de Precio ---")
segment_dist = df_processed['Price_Segment'].value_counts()
print(segment_dist)
print("\n--- Precio Promedio por Segmento ---")
avg_by_segment = df_processed.groupby('Price_Segment')['Price_USD'].mean().sort_values()
print(avg_by_segment)

### Fase 3: M√©tricas de Eficiencia y Valor Relativo

El precio absoluto y el kilometraje son datos importantes individualmente, pero su ratio captura una dimensi√≥n cr√≠tica de valor: ¬øcu√°nto cuesta este veh√≠culo por cada kil√≥metro ya recorrido? Esta m√©trica es fundamental para an√°lisis de valor relativo en el mercado de autos usados. Un veh√≠culo de $100,000 con 10,000 km tiene un precio por kil√≥metro muy diferente al de uno de $50,000 con 150,000 km.

Tambi√©n calcularemos una estimaci√≥n simplificada de depreciaci√≥n anual. En el mercado automotriz, los veh√≠culos t√≠picamente deprecian m√°s agresivamente en los primeros a√±os. Crearemos una m√©trica que capture esta tendencia de forma aproximada, √∫til para an√°lisis comparativo aunque no pretende ser un modelo preciso de valuaci√≥n.

In [None]:
def calculate_value_metrics(df: pd.DataFrame) -> pd.DataFrame:
    """
    Calcula m√©tricas derivadas de valor y eficiencia.

    Args:
        df: DataFrame con columnas 'Price_USD', 'Mileage_KM', 'Vehicle_Age'

    Returns:
        DataFrame con nuevas columnas de m√©tricas
    """
    df_processed = df.copy()

    # M√©trica 1: Precio por Kil√≥metro (evitando divisi√≥n por cero)
    df_processed['Price_per_KM'] = np.where(
        df_processed['Mileage_KM'] > 0,
        df_processed['Price_USD'] / df_processed['Mileage_KM'],
        df_processed['Price_USD']  # Si kilometraje es 0, usamos precio directamente
    )
    df_processed['Price_per_KM'] = df_processed['Price_per_KM'].round(2)

    # M√©trica 2: Depreciaci√≥n Anual Estimada
    # Asumimos un precio de lista promedio y calculamos depreciaci√≥n
    # F√≥rmula simplificada: (Precio Estimado Nuevo - Precio Actual) / A√±os
    estimated_new_price = df_processed.groupby('Model')['Price_USD'].transform('max')
    df_processed['Annual_Depreciation'] = np.where(
        df_processed['Vehicle_Age'] > 0,
        (estimated_new_price - df_processed['Price_USD']) / df_processed['Vehicle_Age'],
        0
    )
    df_processed['Annual_Depreciation'] = df_processed['Annual_Depreciation'].clip(lower=0).round(2)

    # M√©trica 3: Kilometraje Anual Promedio
    df_processed['Annual_Mileage'] = np.where(
        df_processed['Vehicle_Age'] > 0,
        df_processed['Mileage_KM'] / df_processed['Vehicle_Age'],
        df_processed['Mileage_KM']
    )
    df_processed['Annual_Mileage'] = df_processed['Annual_Mileage'].round(0).astype(int)

    return df_processed

# Aplicamos c√°lculo de m√©tricas
df_processed = calculate_value_metrics(df_processed)

print("‚úì M√©tricas de valor calculadas: Price_per_KM, Annual_Depreciation, Annual_Mileage")
print("\n--- Estad√≠sticas de Nuevas M√©tricas ---")
display(df_processed[['Price_per_KM', 'Annual_Depreciation', 'Annual_Mileage']].describe())

### Fase 4: Jerarqu√≠a de Modelos y L√≠neas de Producto

Los modelos BMW tienen una estructura jer√°rquica impl√≠cita que es fundamental para an√°lisis estrat√©gico. Las series num√©ricas (3, 5, 7) representan sedanes de lujo progresivamente m√°s premium, con la Serie 3 siendo el modelo de entrada y la Serie 7 el flagship. Los modelos X (X1, X3, X5, X7) son SUVs con numeraci√≥n similar indicando tama√±o y posicionamiento. Los modelos M son versiones de alto rendimiento de los modelos est√°ndar. Los modelos i (i3, i8, iX) representan la l√≠nea de veh√≠culos el√©ctricos e h√≠bridos de BMW.

Hacer estas jerarqu√≠as expl√≠citas mediante una columna `Product_Line` permitir√° al agente responder preguntas como "compara el rendimiento de ventas entre sedanes y SUVs" o "analiza la adopci√≥n de la l√≠nea el√©ctrica i versus modelos tradicionales". Sin esta categorizaci√≥n, el agente tendr√≠a que hacer pattern matching complejo sobre nombres de modelos, lo cual es propenso a errores.

In [None]:
def categorize_product_line(df: pd.DataFrame) -> pd.DataFrame:
    """
    Categoriza modelos en l√≠neas de producto basadas en nomenclatura BMW.

    Args:
        df: DataFrame con columna 'Model'

    Returns:
        DataFrame con nueva columna 'Product_Line'
    """
    df_processed = df.copy()

    def classify_model(model):
        model = str(model)
        if model.startswith('X'):
            return 'SUV'
        elif model.startswith('M'):
            return 'Performance'
        elif model.startswith('i') or model.startswith('I'):
            return 'Electric/Hybrid'
        elif 'Series' in model:
            return 'Sedan'
        else:
            return 'Other'

    df_processed['Product_Line'] = df_processed['Model'].apply(classify_model)

    return df_processed

# Aplicamos categorizaci√≥n
df_processed = categorize_product_line(df_processed)

print("‚úì Feature 'Product_Line' creada")
print("\n--- Distribuci√≥n de L√≠neas de Producto ---")
product_line_dist = df_processed['Product_Line'].value_counts()
print(product_line_dist)

print("\n--- Precio Promedio por L√≠nea de Producto ---")
avg_price_by_line = df_processed.groupby('Product_Line')['Price_USD'].mean().sort_values(ascending=False)
print(avg_price_by_line)

### Fase 5: Normalizaci√≥n de Nombres de Columnas para SQL

Las convenciones de nomenclatura de columnas en el dataset original usan PascalCase con guiones bajos (por ejemplo, `Fuel_Type`, `Engine_Size_L`). Aunque t√©cnicamente SQL puede manejar estos nombres, la convenci√≥n est√°ndar en bases de datos es usar lowercase con guiones bajos (snake_case). Esta normalizaci√≥n previene problemas de case sensitivity entre diferentes sistemas de bases de datos y hace que las queries generadas por el agente sean m√°s idiom√°ticas y f√°ciles de leer.

In [None]:
def normalize_column_names(df: pd.DataFrame) -> pd.DataFrame:
    """
    Normaliza nombres de columnas a snake_case lowercase (convenci√≥n SQL).

    Args:
        df: DataFrame con nombres de columnas a normalizar

    Returns:
        DataFrame con nombres de columnas normalizados
    """
    df_processed = df.copy()

    # Convertimos a lowercase y reemplazamos espacios
    df_processed.columns = [col.lower().replace(' ', '_') for col in df_processed.columns]

    return df_processed

# Aplicamos normalizaci√≥n
df_final = normalize_column_names(df_processed)

print("‚úì Nombres de columnas normalizados a snake_case")
print("\n--- Columnas Finales del Dataset ---")
print(df_final.columns.tolist())

print("\n--- Vista Final del Dataset Procesado ---")
display(df_final.head(10))

### Resumen del Pipeline de Preprocesamiento

En esta fase hemos transformado nuestro dataset crudo en una representaci√≥n enriquecida que maximiza la utilidad para an√°lisis de negocio. Creamos cinco nuevas features que amplifican la capacidad del agente SQL para razonar sobre los datos: antig√ºedad de veh√≠culo (facilita an√°lisis temporal), segmentaci√≥n de precio (permite an√°lisis de mercado), m√©tricas de valor (habilitan comparaciones de eficiencia), l√≠nea de producto (estructura jerarqu√≠a de modelos) y normalizaci√≥n de nombres (mejora idiomaticidad de SQL).

Cada una de estas transformaciones fue una decisi√≥n de dise√±o informada por comprensi√≥n del dominio automotriz. No simplemente aplicamos transformaciones est√°ndar, sino que pensamos profundamente sobre qu√© preguntas de negocio son importantes y c√≥mo estructurar los datos para facilitarlas. Esta es la esencia del feature engineering efectivo: traducir conocimiento de dominio en representaciones de datos que amplifican el razonamiento de m√°quinas.

## 5. Dise√±o del Esquema Relacional: Normalizaci√≥n Estrat√©gica

Ahora enfrentamos decisiones arquitect√≥nicas fundamentales sobre c√≥mo estructurar nuestros datos en una base de datos relacional. Para un dataset de este tipo, tenemos dos opciones principales: mantener todo en una tabla desnormalizada (flat) que es simple pero redundante, o normalizar en m√∫ltiples tablas relacionadas que es m√°s complejo pero m√°s eficiente y expresivo.

Tomaremos un enfoque h√≠brido pragm√°tico: crearemos una tabla principal de transacciones (`sales_transactions`) que contendr√° la mayor√≠a de los datos, junto con tablas de lookup para entidades que tienen alta cardinalidad y metadata asociada. Este dise√±o balancea simplicidad (menos JOINs necesarios para queries comunes) con eficiencia (no repetir strings largos millones de veces).

Nuestro esquema consistir√° en:

**Tabla `sales_transactions`:** La tabla central que contiene cada transacci√≥n de venta con todas las features calculadas. Esta ser√° el punto de entrada natural para la mayor√≠a de las queries del agente.

**Tabla `models`:** Cat√°logo de modelos BMW con metadata adicional como l√≠nea de producto y segmento t√≠pico. Esta separaci√≥n permite agregar informaci√≥n futura (como a√±o de lanzamiento del modelo, si est√° discontinuado, etc.) sin tocar las transacciones.

**Tabla `regions`:** Aunque solo tenemos el nombre de la regi√≥n en el dataset original, crearemos esta tabla para facilitar futuras extensiones (como agrupar regiones en continentes o zonas econ√≥micas).

**Vista `sales_summary`:** Una vista materializada que pre-calcula estad√≠sticas agregadas frecuentemente consultadas. Las vistas son como "queries guardadas" que simplifican dram√°ticamente la generaci√≥n de SQL por parte del agente.

Una nota importante sobre este dise√±o: en un sistema de producci√≥n real con millones de registros y m√∫ltiples fuentes de datos, normalizar√≠amos m√°s agresivamente y tendr√≠amos esquemas de dimensiones (star schema o snowflake schema). Para este ejercicio educativo, priorizamos claridad y facilidad de uso para el agente sobre optimizaci√≥n extrema.

In [None]:
from sqlalchemy import create_engine, text

# Creamos el motor de base de datos SQLite
db_path = "bmw_sales_intelligence.db"
engine = create_engine(f"sqlite:///{db_path}")

print(f"‚úì Motor de base de datos creado: {db_path}")

# Tabla principal: sales_transactions
# Esta contiene todas las transacciones con sus features calculadas
df_final.to_sql('sales_transactions', engine, if_exists='replace', index=False)
print("  ‚úì Tabla 'sales_transactions' creada")
print(f"    Registros: {len(df_final):,}")

### Creaci√≥n de Tablas de Lookup y Cat√°logos

Ahora crearemos tablas auxiliares que proporcionan metadata estructurada sobre entidades clave. Estas tablas son relativamente peque√±as pero mejoran significativamente la expresividad de queries al permitir JOINs informativos y proporcionar puntos de extensi√≥n para metadata futura.

In [None]:
# Tabla de cat√°logo de modelos
models_catalog = df_final[['model', 'product_line']].drop_duplicates()
models_catalog = models_catalog.reset_index(drop=True)
models_catalog.insert(0, 'model_id', range(1, len(models_catalog) + 1))

models_catalog.to_sql('models', engine, if_exists='replace', index=False)
print("  ‚úì Tabla 'models' creada")
print(f"    Modelos √∫nicos: {len(models_catalog)}")

# Tabla de regiones
regions_catalog = pd.DataFrame({
    'region_id': range(1, df_final['region'].nunique() + 1),
    'region_name': sorted(df_final['region'].unique())
})

regions_catalog.to_sql('regions', engine, if_exists='replace', index=False)
print("  ‚úì Tabla 'regions' creada")
print(f"    Regiones √∫nicas: {len(regions_catalog)}")

print("\n--- Cat√°logo de Modelos ---")
display(models_catalog)

print("\n--- Cat√°logo de Regiones ---")
display(regions_catalog)

### Creaci√≥n de Vista Agregada para An√°lisis R√°pido

Las vistas SQL son una herramienta poderosa para simplificar el trabajo del agente. Una vista es esencialmente una query guardada que puede ser consultada como si fuera una tabla. Crearemos una vista `sales_summary` que pre-calcula estad√≠sticas agregadas comunes. Esto tiene dos beneficios: primero, queries que necesitan estas agregaciones se vuelven mucho m√°s simples (el agente puede simplemente SELECT FROM la vista); segundo, para el LLM es m√°s f√°cil razonar sobre una vista con nombre sem√°ntico que construir agregaciones complejas desde cero.

Nuestra vista agregar√° datos por modelo, regi√≥n y a√±o, calculando m√©tricas como volumen total de ventas, precio promedio, kilometraje promedio y distribuci√≥n de tipos de combustible. Estas son precisamente las dimensiones sobre las que stakeholders de negocio t√≠picamente quieren analizar rendimiento.

In [None]:
# Definimos la vista SQL de resumen de ventas
create_view_sql = """
CREATE VIEW IF NOT EXISTS sales_summary AS
SELECT
    model,
    product_line,
    region,
    year,
    price_segment,
    fuel_type,
    COUNT(*) as transaction_count,
    SUM(sales_volume) as total_volume,
    AVG(price_usd) as avg_price,
    AVG(mileage_km) as avg_mileage,
    AVG(vehicle_age) as avg_vehicle_age,
    AVG(price_per_km) as avg_price_per_km,
    AVG(annual_depreciation) as avg_annual_depreciation,
    AVG(engine_size_l) as avg_engine_size
FROM sales_transactions
GROUP BY model, product_line, region, year, price_segment, fuel_type
;
"""

# Ejecutamos la creaci√≥n de la vista
with engine.connect() as conn:
    conn.execute(text(create_view_sql))
    conn.commit()

print("‚úì Vista 'sales_summary' creada exitosamente")

# Verificamos la vista consult√°ndola
test_query = """
SELECT model, region, year, total_volume, avg_price
FROM sales_summary
WHERE year >= 2020
ORDER BY total_volume DESC
LIMIT 10
"""
df_view_test = pd.read_sql_query(test_query, engine)
print("\n--- Top 10 Combinaciones Modelo-Regi√≥n por Volumen (2020+) ---")
display(df_view_test)

### Verificaci√≥n de Integridad del Esquema

Antes de entregar nuestra base de datos al agente SQL, ejecutamos una serie de tests de integridad para confirmar que el esquema funciona correctamente y que no hay inconsistencias en los datos. Esta verificaci√≥n proactiva previene que el agente genere queries sobre estructuras defectuosas que producir√≠an resultados incorrectos o errores cr√≠pticos.

In [None]:
print("=== VERIFICACI√ìN DE INTEGRIDAD DEL ESQUEMA ===")

# Test 1: Conteo de registros en cada tabla
with engine.connect() as conn:
    tables = ['sales_transactions', 'models', 'regions']
    for table in tables:
        result = conn.execute(text(f"SELECT COUNT(*) as count FROM {table}")).fetchone()
        print(f"  Tabla '{table}': {result[0]:,} registros")

# Test 2: Verificar que todos los modelos en transactions existen en cat√°logo
query_model_check = """
SELECT COUNT(DISTINCT st.model) as models_in_transactions,
       (SELECT COUNT(*) FROM models) as models_in_catalog
FROM sales_transactions st
"""
result = pd.read_sql_query(query_model_check, engine)
print(f"\n  Modelos en transacciones: {result['models_in_transactions'].values[0]}")
print(f"  Modelos en cat√°logo: {result['models_in_catalog'].values[0]}")

# Test 3: Verificar distribuci√≥n de price_segment
query_segment_dist = """
SELECT price_segment, COUNT(*) as count
FROM sales_transactions
GROUP BY price_segment
ORDER BY
    CASE price_segment
        WHEN 'Budget' THEN 1
        WHEN 'Mid-range' THEN 2
        WHEN 'Premium' THEN 3
        WHEN 'Luxury' THEN 4
    END
"""
segment_dist = pd.read_sql_query(query_segment_dist, engine)
print("\n--- Distribuci√≥n de Segmentos de Precio ---")
display(segment_dist)

# Test 4: Verificar integridad de vista sales_summary
query_view_check = "SELECT COUNT(*) as rows FROM sales_summary"
view_rows = pd.read_sql_query(query_view_check, engine)
print(f"\n  Filas en vista sales_summary: {view_rows['rows'].values[0]:,}")

print("\n‚úì Verificaciones de integridad completadas. La base de datos est√° lista para consultas.")

## 6. Configuraci√≥n del Agente SQL con LangChain

Llegamos al momento culminante: conectar nuestra base de datos cuidadosamente dise√±ada con un agente de lenguaje natural que puede razonar sobre ella. El agente SQL de LangChain es una pieza sofisticada de ingenier√≠a que combina varias capacidades cr√≠ticas. Primero, inspecciona autom√°ticamente el esquema de la base de datos para entender qu√© tablas, columnas y relaciones est√°n disponibles. Segundo, usa el modelo de lenguaje para interpretar preguntas en lenguaje natural y razonar sobre qu√© informaci√≥n necesita. Tercero, genera queries SQL sint√°cticamente correctas y sem√°nticamente apropiadas. Cuarto, ejecuta esas queries y obtiene resultados. Finalmente, interpreta los resultados y formula respuestas en lenguaje natural que son comprensibles para usuarios no t√©cnicos.

Este pipeline completo es invisible para el usuario final, quien simplemente hace preguntas como si estuviera hablando con un analista de datos humano experto. La magia est√° en que el agente no est√° pre-programado con queries espec√≠ficas, sino que genera din√°micamente el SQL apropiado para cada pregunta √∫nica. Esta flexibilidad es lo que diferencia un sistema de reportes tradicional (respuestas predefinidas a preguntas predefinidas) de un asistente de inteligencia de negocio verdaderamente conversacional.

La configuraci√≥n del agente requiere dos componentes principales: el objeto `SQLDatabase` de LangChain que act√∫a como interfaz con nuestra base SQLite, y el `ChatOpenAI` que proporciona las capacidades de razonamiento del modelo de lenguaje. Un par√°metro cr√≠tico es `temperature=0`, que configura el modelo para que sea completamente determinista. Para generaci√≥n de c√≥digo SQL, no queremos creatividad o variaci√≥n aleatoria; queremos precisi√≥n y consistencia. Cada vez que se hace la misma pregunta, deber√≠amos obtener la misma query SQL.

In [None]:
import os
import sys

# Forzar codificaci√≥n UTF-8 en todo el entorno
os.environ['PYTHONIOENCODING'] = 'utf-8'
os.environ['LANG'] = 'C.UTF-8'

# Para Colab espec√≠ficamente
if 'google.colab' in sys.modules:
    import locale
    locale.getpreferredencoding = lambda: "UTF-8"

In [None]:
from langchain_community.utilities import SQLDatabase
from langchain_community.agent_toolkits import create_sql_agent
from langchain_openai import ChatOpenAI

# Conectamos LangChain a nuestra base de datos
db = SQLDatabase.from_uri(f"sqlite:///{db_path}")

print("Base de datos conectada. Tablas disponibles:")
print(db.get_usable_table_names())

print("\n--- Schema de la tabla principal ---")
print(db.get_table_info(['sales_transactions']))

# Recreamos el LLM con la API key correcta
llm = ChatOpenAI(
    model="gpt-5.1",

)

# Recreamos el agente
agent_executor = create_sql_agent(
    llm,
    db=db,
    agent_type="openai-tools",
    verbose=True,
    handle_parsing_errors=True
)

print("‚úì Agente SQL configurado exitosamente")

## 7. Demostraci√≥n: Preguntas de Negocio en Lenguaje Natural

Es hora de poner a prueba nuestro sistema con una serie de preguntas de negocio de complejidad creciente. Estas preguntas est√°n dise√±adas para demostrar diferentes capacidades del agente y, crucialmente, para evidenciar c√≥mo el dise√±o de nuestra base de datos facilita o dificulta ciertos tipos de an√°lisis.

Observa cuidadosamente el output verbose de cada query. Ver√°s el proceso de razonamiento completo del agente: c√≥mo examina el esquema, formula una estrategia, genera SQL (que a veces necesita iterar si hay errores de sintaxis o l√≥gica), ejecuta la query, obtiene resultados y finalmente formula una respuesta en lenguaje natural. Esta transparencia es invaluable para debugging y para entender c√≥mo decisiones de dise√±o del esquema impactan la eficiencia del agente.

### Pregunta 1: An√°lisis B√°sico de Agregaci√≥n por Regi√≥n

In [None]:
query1 = "Cual es el volumen total de ventas por region"  # Sin tildes

print(f"PREGUNTA: {query1}\n")
print("="*80)
response1 = agent_executor.invoke({"input": query1})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response1['output']}")

### Pregunta 2: Uso de Features Calculadas - Segmentaci√≥n de Mercado

Esta pregunta demuestra el valor del feature engineering. Sin la columna `price_segment` que creamos, el agente tendr√≠a que generar CASE statements complejos con rangos num√©ricos. Con la feature pre-calculada, la query es simple y sem√°nticamente clara.

In [None]:
query2 = "¬øCu√°l es la distribuci√≥n de ventas por segmento de precio (Budget, Mid-range, Premium, Luxury)?"

print(f"PREGUNTA: {query2}\n")
print("="*80)
response2 = agent_executor.invoke({"input": query2})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response2['output']}")

### Pregunta 3: An√°lisis de Tendencias Temporales

Esta pregunta requiere agrupaci√≥n temporal y c√°lculo de m√©tricas agregadas. Demuestra c√≥mo el agente puede razonar sobre evoluci√≥n de mercado a lo largo del tiempo.

In [None]:
query3 = "¬øC√≥mo ha evolucionado el precio promedio de  los modelos de veh√≠culos la base de datos (todos son de la marca BMW) desglosalo por modelo entre 2020 y 2024?"

print(f"PREGUNTA: {query3}\n")
print("="*80)
response3 = agent_executor.invoke({"input": query3})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response3['output']}")

### Pregunta 4: Uso de Jerarqu√≠a de L√≠neas de Producto

Esta pregunta aprovecha la columna `product_line` que categoriz√≥ modelos en SUV, Sedan, Performance, etc. Sin esta categorizaci√≥n, el agente tendr√≠a dificultades para entender qu√© constituye un "SUV" versus otros tipos de veh√≠culos.

In [None]:
query4 = "Compara el volumen de ventas entre SUVs y sedanes. ¬øQu√© l√≠nea de producto tiene mejor rendimiento?"

print(f"PREGUNTA: {query4}\n")
print("="*80)
response4 = agent_executor.invoke({"input": query4})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response4['output']}")

### Pregunta 5: An√°lisis de Adopci√≥n de Tecnolog√≠as Limpias

Esta pregunta sobre veh√≠culos el√©ctricos y tipos de combustible es relevante para estrategia de sostenibilidad corporativa. Demuestra c√≥mo el agente puede filtrar por caracter√≠sticas espec√≠ficas y calcular proporciones.

In [None]:
query5 = "¬øCu√°l es el porcentaje de veh√≠culos el√©ctricos en el total de ventas? ¬øY c√≥mo se distribuyen los tipos de combustible?"

print(f"PREGUNTA: {query5}\n")
print("="*80)
response5 = agent_executor.invoke({"input": query5})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response5['output']}")

### Pregunta 6: An√°lisis Complejo Multi-Dimensional

Esta pregunta requiere filtrado por m√∫ltiples dimensiones (regi√≥n, tipo de combustible, segmento de precio) y c√°lculo de m√©tricas agregadas. Es el tipo de an√°lisis que tradicionalmente requerir√≠a m√∫ltiples queries iterativas o una query SQL muy compleja escrita por un experto.

In [None]:
query6 = "En Europa, ¬øcu√°les son los 5 modelos m√°s vendidos de veh√≠culos el√©ctricos en el segmento Premium?"

print(f"PREGUNTA: {query6}\n")
print("="*80)
response6 = agent_executor.invoke({"input": query6})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response6['output']}")

### Pregunta 7: Uso de M√©tricas Derivadas - An√°lisis de Valor

Esta pregunta usa la m√©trica `price_per_km` que calculamos en el feature engineering. Demuestra c√≥mo features num√©ricas permiten an√°lisis sofisticados de valor relativo.

In [None]:
query7 = "¬øCu√°les son los modelos con mejor relaci√≥n precio-kilometraje (price_per_km m√°s bajo) en el segmento Luxury?"

print(f"PREGUNTA: {query7}\n")
print("="*80)
response7 = agent_executor.invoke({"input": query7})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response7['output']}")

### Pregunta 8: Uso de la Vista sales_summary

Esta pregunta aprovecha la vista `sales_summary` que pre-calcula agregaciones. El agente puede consultar esta vista directamente en lugar de tener que construir agregaciones complejas desde la tabla base.

In [None]:
query8 = "Usando la vista sales_summary, ¬øcu√°l fue el modelo con mayor volumen total de ventas en 2023?"

print(f"PREGUNTA: {query8}\n")
print("="*80)
response8 = agent_executor.invoke({"input": query8})
print("="*80)
print(f"\nüìä RESPUESTA FINAL:\n{response8['output']}")

## 8. An√°lisis Reflexivo: Lecciones de Dise√±o para Sistemas de IA

Ahora que hemos visto el agente en acci√≥n respondiendo diversas preguntas de negocio, es momento de reflexionar cr√≠ticamente sobre qu√© aspectos de nuestro dise√±o funcionaron bien y d√≥nde hay oportunidades de mejora. Esta metacognici√≥n es lo que distingue entre simplemente "hacer que funcione" y desarrollar intuici√≥n profunda sobre dise√±o de sistemas de IA.

### Decisiones de Dise√±o que Amplificaron las Capacidades del Agente

**Feature engineering expl√≠cito versus c√°lculos din√°micos:** Al pre-calcular features como `price_segment`, `product_line` y `vehicle_age`, permitimos que el agente genere queries simples y legibles. Sin estas features, el agente tendr√≠a que generar expresiones CASE complejas o aritm√©tica en cada query, lo cual es propenso a errores y m√°s dif√≠cil de optimizar para el motor de base de datos.

**Normalizaci√≥n de nombres a snake_case:** Esta decisi√≥n aparentemente cosm√©tica tiene impacto real. Los nombres consistentes y sin case sensitivity reducen errores de sintaxis en el SQL generado. El agente no tiene que recordar si una columna es `Fuel_Type` o `fuel_type` o `fuelType`; todas siguen la misma convenci√≥n.

**Vista sales_summary como abstracci√≥n:** Esta vista pre-calcula agregaciones comunes, transformando queries potencialmente complejas en simples SELECTs. Para el LLM, es m√°s f√°cil razonar sobre "consulta la vista sales_summary" que construir GROUP BYs anidados con m√∫ltiples agregaciones.

**M√©tricas de valor relativo:** Columnas como `price_per_km` y `annual_depreciation` permiten comparaciones sofisticadas usando operadores SQL est√°ndar. Sin estas m√©tricas, preguntas sobre "mejor valor" o "depreciaci√≥n r√°pida" ser√≠an ambiguas o imposibles de responder con SQL puro.

### Limitaciones y Oportunidades de Mejora

**Ausencia de √≠ndices optimizados:** Para un dataset de 50,000+ registros, columnas frecuentemente filtradas como `region`, `year`, `model` y `price_segment` deber√≠an tener √≠ndices. Sin √≠ndices, queries con filtros complejos pueden ser lentas. SQLite crea algunos √≠ndices autom√°ticamente, pero no de forma √≥ptima.

**Falta de metadata temporal granular:** El dataset contiene a√±os pero no fechas espec√≠ficas de venta. Esto limita an√°lisis de estacionalidad o tendencias mensuales. En un sistema de producci√≥n, tendr√≠amos timestamps completos.

**Jerarqu√≠a de regiones no desarrollada:** Actualmente `region` es un string plano. En producci√≥n, tendr√≠amos una jerarqu√≠a (regi√≥n -> pa√≠s -> continente) que permitir√≠a agregaciones multi-nivel como "analiza Europa como conjunto" o "compara rendimiento de pa√≠ses dentro de Asia".

**Sin modelado de clientes o dealers:** Este dataset representa transacciones an√≥nimas. Un sistema real tendr√≠a informaci√≥n sobre qui√©n compr√≥ (segmento de cliente) y d√≥nde (dealer espec√≠fico), permitiendo an√°lisis mucho m√°s ricos sobre comportamiento de compra y rendimiento de canales.

### Limitaciones Fundamentales de Agentes SQL

Incluso con el mejor dise√±o de base de datos posible, hay ciertos tipos de preguntas que los agentes SQL no pueden responder bien:

**An√°lisis causal:** SQL puede decir "qu√© pas√≥" pero no "por qu√© pas√≥". Preguntas como "¬øpor qu√© cayeron las ventas de sedanes en 2022?" requieren razonamiento causal que va m√°s all√° de correlaciones estad√≠sticas que SQL puede calcular.

**Forecasting:** Preguntas sobre el futuro ("¬øcu√°les ser√°n las ventas de veh√≠culos el√©ctricos en 2025?") requieren modelos predictivos que no son parte de SQL est√°ndar. Necesitar√≠as integrar con librer√≠as de machine learning.

**An√°lisis de texto no estructurado:** Si tuvi√©ramos campos de texto libre como "comentarios de clientes" o "notas de ventas", SQL no puede hacer an√°lisis sem√°ntico profundo. Para eso necesitar√≠as t√©cnicas de NLP o embeddings vectoriales.

**Comparaciones cross-dataset:** Si quisieras comparar ventas de BMW con datos de competidores que viven en otra base de datos o formato, el agente SQL tendr√≠a dificultades. Necesitar√≠as un orquestador de nivel superior.

Entender estas limitaciones es tan importante como entender las capacidades. El dise√±o efectivo de sistemas de IA requiere saber cu√°ndo SQL es la herramienta correcta y cu√°ndo necesitas aproximaciones complementarias.

## 9. Conclusiones y Extensiones Avanzadas

Has completado un ejercicio completo que simula un proyecto real de ingenier√≠a de IA aplicada a inteligencia de negocio. Transformaste datos crudos de ventas de veh√≠culos en un sistema conversacional que permite a stakeholders no t√©cnicos obtener insights sofisticados mediante preguntas en lenguaje natural. Este tipo de sistema es exactamente lo que empresas de todos los tama√±os necesitan para democratizar el acceso a datos y acelerar la toma de decisiones informadas.

### Competencias Desarrolladas

Has dominado el pipeline completo de preprocesamiento de datos orientado a IA, desde identificar oportunidades de feature engineering hasta implementar transformaciones que amplifican capacidades de razonamiento. Has aprendido a dise√±ar esquemas relacionales con empat√≠a hacia agentes LLM, considerando expl√≠citamente qu√© queries ser√°n comunes y c√≥mo facilitarlas mediante estructuras apropiadas. Has configurado y probado un agente SQL con LangChain, entendiendo tanto sus capacidades como sus limitaciones. Y has desarrollado intuici√≥n sobre el balance entre normalizaci√≥n, desnormalizaci√≥n y agregaci√≥n pre-calculada.

### Extensiones Avanzadas para Profundizar

Si quieres llevar este proyecto m√°s all√° como ejercicio de aprendizaje o como base para un proyecto profesional, considera estas direcciones:

**Integraci√≥n con embeddings vectoriales para b√∫squeda h√≠brida:** Agrega una columna con embeddings de descripciones de modelos (generados con text-embedding-3-small de OpenAI). Esto permitir√≠a queries sem√°nticas como "encuentra modelos similares al X5 en caracter√≠sticas y posicionamiento" que van m√°s all√° de lo que SQL estructural puede hacer.

**Dashboard interactivo con Streamlit:** Conecta la base de datos a un dashboard web usando Streamlit o Plotly Dash. El agente SQL podr√≠a alimentar visualizaciones din√°micas que se actualizan bas√°ndose en preguntas del usuario, combinando la potencia de SQL con la claridad de gr√°ficos.

**Sistema de alertas autom√°ticas:** Implementa queries programadas que detecten anomal√≠as (por ejemplo, "ventas de un modelo cayeron m√°s de 20% mes a mes") y generen alertas autom√°ticas. El agente podr√≠a incluso generar explicaciones textuales de qu√© cambi√≥.

**Modelo de predicci√≥n de precios:** Entrena un modelo de machine learning (Random Forest o XGBoost) para predecir precio de veh√≠culos bas√°ndose en caracter√≠sticas. Integra este modelo con el agente SQL para responder preguntas como "¬øqu√© precio deber√≠a tener un X3 del 2023 con 50,000 km?"

**An√°lisis competitivo con m√∫ltiples marcas:** Extiende el dataset para incluir ventas de Mercedes, Audi y otros competidores. Modifica el esquema para soportar comparaciones cross-brand y an√°lisis de market share.

**Pipeline de actualizaci√≥n automatizada:** Implementa un sistema que ingiere nuevos datos de ventas peri√≥dicamente, los procesa autom√°ticamente a trav√©s de tu pipeline de feature engineering, y actualiza la base de datos sin intervenci√≥n manual.

**Sistema de permisos y seguridad:** En producci√≥n, diferentes usuarios deber√≠an tener acceso a diferentes niveles de detalle. Implementa Row-Level Security (RLS) para filtrar autom√°ticamente datos seg√∫n el rol del usuario.

### Reflexi√≥n Final: Dise√±o Centrado en IA como Competencia Emergente

Lo que has aprendido aqu√≠ trasciende esta implementaci√≥n espec√≠fica. Has desarrollado una forma de pensar sobre estructuraci√≥n de datos que considera expl√≠citamente las capacidades y limitaciones de sistemas de IA. Este "dise√±o centrado en IA" es una competencia emergente cada vez m√°s valiosa en la industria.

No basta con organizar datos de forma l√≥gicamente correcta seg√∫n principios tradicionales de normalizaci√≥n de bases de datos. Debemos dise√±ar infraestructuras de datos pensando en c√≥mo ser√°n consumidas por agentes de IA, qu√© abstracciones facilitan su razonamiento, qu√© features ampl√≠fican sus capacidades, y qu√© estructuras minimizan la complejidad de las tareas que deben realizar.

A medida que los sistemas de IA se vuelven m√°s capaces y omnipresentes, esta habilidad de dise√±ar datos "AI-ready" se convertir√° en una ventaja competitiva fundamental. Has dado un paso s√≥lido en esa direcci√≥n.

---

**Fin del Ejercicio Pr√°ctico - Pipeline de Datos BMW con Agente SQL**