In [None]:
import pandas as pd
import json
import sqlite3
from datetime import datetime
from sqlalchemy import create_engine
from sqlalchemy.dialects.postgresql import insert

In [None]:
# CONFIGURACI√ìN
INPUT_FILE = '../data/raw/kavak_raw_data.jsonl'
DB_NAME = '../data/processed/kavak_market_v3.db'

In [None]:
data = []

with open(INPUT_FILE, 'r', encoding='utf-8') as f:
    for line in f:
        try:
            data.append(json.loads(line))
        except:
            continue
    print(f"üì• Registros crudos le√≠dos: {len(data)}")

In [None]:
# Tracci√≥n: Viene como URL "https://schema.org/FrontWheelDriveConfiguration"
# Tomamos lo que est√° despu√©s de la √∫ltima barra y quitamos "Configuration"
def get_traccion(car):
    raw_drive = car.get('driveWheelConfiguration', 'Desconocido')
    traccion = raw_drive.split('/')[-1].replace('Configuration', '') if raw_drive else 'Desconocido'
    return traccion


def get_vin(car):
    vin = car.get('vehicleIdentificationNumber')
    return vin or None


# Motor: A veces es un objeto, a veces texto. Aseguramos que sea dict.
def get_engine_name(car):
    return car.get('vehicleEngine', {})  


# --- PROCESAR IMAGENES (Tabla Hija) ---
def extraer_images(car, vin):
    images_list = []
    # Recorremos todas las im√°genes del auto
    lista_imgs = car.get('image', [])
    if isinstance(lista_imgs, list):
        for img_url in lista_imgs:
            images_list.append({
                'auto_vin': vin, # Clave for√°nea al auto necesaria para conectar tablas
                'url_imagen': img_url
            })
    return images_list  


def get_data(car, entry, vin, engine_data, traccion):
    return {
                    'vin': vin,
                    'url': entry['source_url'],
                    'marca': car.get('brand', {}).get('name', 'Desconocido'),
                    'modelo': car.get('model', 'Desconocido'),
                    'version': car.get('vehicleConfiguration', 'N/A'),
                    'anio': int(car.get('vehicleModelDate', 0) or 0),
                    'precio_mxn': int(car.get('offers', {}).get('price', 0) or 0),
                    'km': int(car.get('mileageFromOdometer', {}).get('value', 0) or 0),
                    'transmision': car.get('vehicleTransmission', 'N/A'),
                    'ciudad': 'Mexico',
                    'fecha_extraccion': pd.to_datetime(entry['extracted_at'], unit='s').date(),
                    
                    # --- NUEVOS CAMPOS ---
                    'color': car.get('color', 'Desconocido'),
                    'tipo_cuerpo': car.get('bodyType', 'Desconocido'), # Ej: SUV
                    'combustible': engine_data.get('fuelType', 'N/A'), # Ej: Gasolina
                    'motor': engine_data.get('name', 'N/A'),           # Ej: Motor 2.0 SEL
                    'traccion': traccion,                              # Ej: FrontWheelDrive
                }

In [None]:
images_list = []
processed_data = []

for entry in data:
    try:
        raw = entry['raw_data']
        car = next((item for item in raw.get('@graph',[]) if item.get('@type') == 'Car'), None)
        
        if car:
                vin = get_vin(car)
                if not vin:
                     print(f"‚ö†Ô∏è Auto sin VIN, se omite: {entry['source_url']}")
                     continue

                traccion = get_traccion(car)
                images_list.append(extraer_images(car, vin))
                engine_data = get_engine_name(car)
                processed_data.append(get_data(car, entry, vin, engine_data, traccion))
                
    except Exception as e:
        continue

In [None]:
df = pd.DataFrame(processed_data)
df = df.drop_duplicates(subset=['vin'])
print(f"üìä Registros procesados: {len(df)}")

In [None]:
df_images = pd.DataFrame([img for sublist in images_list for img in sublist])
df_images = df_images.drop_duplicates(subset=['url_imagen'])
print(f"üì∏ Im√°genes procesadas: {len(df_images)}")

In [None]:
# --- LIMPIEZA DE TIPOS (TYPE CASTING) ---
df['anio'] = pd.to_numeric(df['anio'], errors='coerce').fillna(0).astype(int)
df['km'] = pd.to_numeric(df['km'], errors='coerce').fillna(0).astype(int)
df['precio_mxn'] = pd.to_numeric(df['precio_mxn'], errors='coerce').fillna(0).astype(int)

print(f"   ‚ú® Registros limpios listos para SQL: {len(df)}")
print(df.dtypes) 

In [None]:
# CONFIGURACI√ìN
# user:password@host:port/dbname
# Nota: Si se corre desde WSL/Windows (fuera de la red Docker), el host es 'localhost'.
# Si corre DESDE otro contenedor, el host es 'warehouse'.
DB_URL = "postgresql://admin_data:root_password_seguro@localhost:5432/kavak_db"
INPUT_FILE = "../data/raw/kavak_raw_data.jsonl" # Ajusta la ruta seg√∫n desde donde ejecutes

def get_db_connection():
    return create_engine(DB_URL)


def load_data_to_postgres(df_autos, df_images):
    """
    Carga los DataFrames limpios a PostgreSQL manteniendo la integridad referencial.
    """
    print("üöÄ Iniciando carga a Base de Datos...")    
    engine = get_db_connection()
    
    try:
        # 1. CARGA DE AUTOS (Tabla Padre - autos_silver)
        # Es CR√çTICO cargar esta primero porque contiene las Primary Keys (VIN)
        print(f"üîÑ Cargando {len(df_autos)} autos...")
        df_autos.to_sql('autos_silver', engine, if_exists='append', index=False, method='multi', chunksize=1000)
        print("‚úÖ Autos cargados correctamente.")

        # 2. CARGA DE IM√ÅGENES (Tabla Hija - autos_imagenes)
        # Solo cargamos si el padre fue exitoso
        print(f"üîÑ Cargando {len(df_images)} im√°genes...")
        df_images.to_sql('autos_imagenes', engine, if_exists='append', index=False, method='multi', chunksize=1000)
        print("‚úÖ Im√°genes cargadas correctamente.")

    except Exception as e:
        print(f"‚ö†Ô∏è Error en carga (probablemente IDs repetidos en DB): {e}")
        print("üí° Tip: En producci√≥n usar√≠amos INSERT ON CONFLICT DO UPDATE.")

In [None]:
load_data_to_postgres(df, df_images)

In [None]:
# # 3. CARGAR (Load to SQL)
# conn = sqlite3.connect(DB_NAME)

# df.to_sql('autos', conn, if_exists='replace', index=False)

# conn.close()
# print(f"üíæ Datos guardados exitosamente en {DB_NAME}")