___
___
# **Proyecto Final Data Science**
## **Extracción - Transformación y Carga de datos ETL**

Equipo: 2 - Quantum Insights
Integrantes:
- Felipe Varela - Product Owner
- Freddy Yaquive - Data Scientist
- Ivan Martinez - Data Scientist
- Sebastian Moya - Data Scientist
- Nicolás Lazarte - Scrum Master

Cohorte: DSFT01

Descripción: Este script toma los datos crudos, los limpia, estandariza IDs
y los sube a la Base de Datos en la Nube (Supabase).


___
___

In [12]:
# Librerias
import pandas as pd
import os
from sqlalchemy import create_engine

In [13]:
# --- 1. CONFIGURACIÓN DE RUTAS ---
# Detectamos dinámicamente dónde estamos para ubicar la carpeta 'databases'
ruta_actual = os.getcwd()
if os.path.exists(os.path.join(ruta_actual, "databases")):
    ruta_bases = os.path.join(ruta_actual, "databases")
else:
    # Si estamos en una subcarpeta, subimos un nivel
    ruta_bases = os.path.join(os.path.dirname(ruta_actual), "databases")

print(f"Directorio de base de datos: \n{ruta_bases}\n")

# --- 2. EXTRACCIÓN (Lectura de CSVs crudos) ---
try:
    # Cargamos productos
    ruta_prods = os.path.join(ruta_bases, "products.csv")
    df_products = pd.read_csv(ruta_prods)
    print("Products.csv cargado correctamente.")
    
    # Aquí podrías cargar orders.csv y otros si fuera necesario limpiarlos también
except FileNotFoundError as e:
    print(f"Error: No se encontró el archivo. {e}")

# --- 3. TRANSFORMACIÓN (Limpieza y Feature Engineering) ---
print(f'---'*30)
print("Iniciando limpieza de datos...")

# A. Estandarización de Nombres de Columnas
# Para evitar el problema de 'ProductId' vs 'product_id', lo forzamos a minúsculas
df_products.columns = [c.lower() for c in df_products.columns] 
# Ahora las columnas son: 'product_id', 'productname', 'brand', etc.

# B. Manejo de Nulos
# Rellenamos vacíos con texto vacío para evitar errores al concatenar
cols_texto = ['productname', 'brand', 'category', 'subcategory']
for col in cols_texto:
    if col in df_products.columns:
        df_products[col] = df_products[col].fillna('')

# C. Creación del "Perfil de Texto" (Feature para NLP)
# Creamos la columna aquí para no tener que hacerlo cada vez que entrenamos
def crear_sopa(fila):
    # Unimos Marca + Categoría + Subcategoría + Nombre
    return f"{fila.get('brand','')} {fila.get('category','')} {fila.get('subcategory','')} {fila.get('productname','')}"

df_products['perfil_texto'] = df_products.apply(crear_sopa, axis=1)
df_products['perfil_texto'] = df_products['perfil_texto'].str.lower().str.strip()

print(f"   Tamaño final del catálogo: {df_products.shape}")
print(f"   Columnas finales: {df_products.columns.tolist()}")

# --- 4. GUARDADO LOCAL (Para uso de los Pipelines de Entrenamiento) ---
ruta_clean = os.path.join(ruta_bases, "lista_productos_completa.csv")
df_products.to_csv(ruta_clean, index=False)
print(f"Archivo limpio guardado en: \n{ruta_clean}\n")

# --- 5. CARGA A LA NUBE (Supabase) ---

# Configuración de conexión (Puerto 6543 - Modo Transacción/Túnel)
# Nota: Usamos la URL que ya validamos que funciona
URI_SUPABASE = "postgresql://postgres.yolftbsmdognqlwfeaon:ProyectoFinal2025@aws-0-us-west-2.pooler.supabase.com:6543/postgres"

print(f'---'*30)
print("Iniciando subida a Supabase...")

try:
    engine = create_engine(URI_SUPABASE)
    
    # Subimos el DataFrame a la tabla 'productos'
    # if_exists='replace': Borra la tabla vieja y crea una nueva (Ideal para desarrollo/ETL completo)
    # chunksize: Sube los datos de a poco para no saturar la red
    df_products.to_sql('productos', engine, if_exists='replace', index=False, chunksize=500)
    
    print("¡Carga a la Nube COMPLETADA con éxito!")
    print("Tabla actualizada: 'productos'")
    
except Exception as e:
    print(f"Hubo un error subiendo a la nube: {e}")
    print("(Pero el archivo local sí se generó, así que puedes entrenar modelos)")

Directorio de base de datos: 
e:\_Cursos\Tareas_Proyectos_y_Notas\Soy Henry\ProyectoFinal\PF-Quantum_Insights\databases

Products.csv cargado correctamente.
------------------------------------------------------------------------------------------
Iniciando limpieza de datos...
   Tamaño final del catálogo: (2000, 10)
   Columnas finales: ['unnamed: 0', 'product_id', 'rating', 'productname', 'brand', 'price', 'image_url', 'category', 'subcategory', 'perfil_texto']
Archivo limpio guardado en: 
e:\_Cursos\Tareas_Proyectos_y_Notas\Soy Henry\ProyectoFinal\PF-Quantum_Insights\databases\lista_productos_completa.csv

------------------------------------------------------------------------------------------
Iniciando subida a Supabase...
¡Carga a la Nube COMPLETADA con éxito!
Tabla actualizada: 'productos'
