___
___
# **Proyecto Final Data Science**
## **Extracci√≥n - Transformaci√≥n y Carga de datos ETL**

Equipo: 2 - Quantum Insights
Integrantes:
- Felipe Varela - Product Owner
- Freddy Yaquive - Data Scientist
- Ivan Martinez - Data Scientist
- Sebastian Moya - Data Scientist
- Nicol√°s Lazarte - Scrum Master

Cohorte: DSFT01

Descripci√≥n: Este script toma los datos crudos, los limpia, estandariza IDs
y los sube a la Base de Datos en la Nube (Supabase).


___
___

In [1]:
import pandas as pd
import os
from sqlalchemy import create_engine

# --- 1. CONFIGURACI√ìN DE RUTAS ---
ruta_actual = os.getcwd()
if os.path.exists(os.path.join(ruta_actual, "databases")):
    ruta_bases = os.path.join(ruta_actual, "databases")
else:
    ruta_bases = os.path.join(os.path.dirname(ruta_actual), "databases")

print(f"Directorio de base de datos: \n{ruta_bases}\n")

# --- 2. EXTRACCI√ìN ---
try:
    ruta_prods = os.path.join(ruta_bases, "products.csv")
    df_products = pd.read_csv(ruta_prods)
    print("‚úÖ Products.csv cargado correctamente.")
except FileNotFoundError as e:
    print(f"‚ùå Error: No se encontr√≥ el archivo. {e}")
    # Detenemos si no hay datos, para no generar archivos corruptos
    exit() 

# --- 3. TRANSFORMACI√ìN (Limpieza y Feature Engineering) ---
print(f'---'*30)
print("üßπ Iniciando limpieza de datos...")

# A. Estandarizaci√≥n de Nombres de Columnas (CORRECCI√ìN CLAVE)
# Primero limpiamos espacios y pasamos a min√∫sculas para normalizar la entrada
df_products.columns = [c.strip().lower() for c in df_products.columns]

# Definimos el mapeo exacto que necesita Streamlit y los Modelos
mapeo_columnas = {
    'productname': 'ProductName',  # La App busca 'ProductName'
    'category': 'Category',        # La App busca 'Category'
    'brand': 'Brand',              # La App busca 'Brand'
    'productid': 'product_id',     # Normalizamos el ID
    'product_id': 'product_id'     # Por si ya ven√≠a as√≠
}

df_products.rename(columns=mapeo_columnas, inplace=True)

# B. Manejo de Nulos
cols_texto = ['ProductName', 'Brand', 'Category', 'subcategory'] # Usamos los nombres nuevos
for col in cols_texto:
    if col in df_products.columns:
        df_products[col] = df_products[col].fillna('')

# C. Asegurar Tipos de Datos (CR√çTICO PARA CRUCES)
# Convertimos el ID a string para evitar problemas de cruce (101 vs "101")
if 'product_id' in df_products.columns:
    df_products['product_id'] = df_products['product_id'].astype(str)

# D. Creaci√≥n del "Perfil de Texto" (Feature para NLP)
def crear_sopa(fila):
    # Usamos los nombres corregidos
    return f"{fila.get('Brand','')} {fila.get('Category','')} {fila.get('subcategory','')} {fila.get('ProductName','')}"

df_products['perfil_texto'] = df_products.apply(crear_sopa, axis=1)
df_products['perfil_texto'] = df_products['perfil_texto'].str.lower().str.strip()

print(f"üìä Tama√±o final del cat√°logo: {df_products.shape}")
print(f"üìù Columnas finales: {df_products.columns.tolist()}")

# --- 4. GUARDADO LOCAL ---
ruta_clean = os.path.join(ruta_bases, "lista_productos_completa.csv")
df_products.to_csv(ruta_clean, index=False)
print(f"üíæ Archivo limpio guardado en: \n{ruta_clean}\n")

# --- 5. CARGA A LA NUBE (Supabase) ---
URI_SUPABASE = "postgresql://postgres.yolftbsmdognqlwfeaon:ProyectoFinal2025@aws-0-us-west-2.pooler.supabase.com:6543/postgres"

print(f'---'*30)
print("‚òÅÔ∏è Iniciando subida a Supabase...")

try:
    engine = create_engine(URI_SUPABASE)
    
    # Para la BD SQL, a veces es mejor tener todo en min√∫sculas, 
    # pero Pandas lo manejar√°. Si Supabase es sensible a may√∫sculas, 
    # las columnas se crear√°n con comillas "ProductName".
    # Lo m√°s est√°ndar en SQL es min√∫sculas, pero tu App lee el CSV local.
    
    df_products.to_sql('productos', engine, if_exists='replace', index=False, chunksize=500)
    
    print("‚úÖ ¬°Carga a la Nube COMPLETADA con √©xito!")
    
except Exception as e:
    print(f"‚ö†Ô∏è Hubo un error subiendo a la nube: {e}")
    print("(El archivo local CSV s√≠ se gener√≥ correctamente, tu App funcionar√°)")

Directorio de base de datos: 
e:\_Cursos\Tareas_Proyectos_y_Notas\Soy Henry\ProyectoFinal\PF-Quantum_Insights\databases

‚úÖ Products.csv cargado correctamente.
------------------------------------------------------------------------------------------
üßπ Iniciando limpieza de datos...
üìä Tama√±o final del cat√°logo: (2000, 10)
üìù Columnas finales: ['unnamed: 0', 'product_id', 'rating', 'ProductName', 'Brand', 'price', 'image_url', 'Category', 'subcategory', 'perfil_texto']
üíæ Archivo limpio guardado en: 
e:\_Cursos\Tareas_Proyectos_y_Notas\Soy Henry\ProyectoFinal\PF-Quantum_Insights\databases\lista_productos_completa.csv

------------------------------------------------------------------------------------------
‚òÅÔ∏è Iniciando subida a Supabase...
‚úÖ ¬°Carga a la Nube COMPLETADA con √©xito!
