✅ Vamos a crear un nuevo notebook para preparar tu dataset traducido

Lo llamaremos por ejemplo:
📓 build_translated_dataset.ipynb

Y seguiremos estos pasos ordenados:

◯ Paso 1: Crear el notebook

    Abrí tu carpeta /notebooks/

    Creá un nuevo archivo llamado build_translated_dataset.ipynb

◯ Paso 2: Cargar el archivo CSV original

In [1]:
import pandas as pd

# Ruta absoluta (asegurate que sea correcta)
ruta_csv = "/workspaces/Final_Project_MBA/data/raw/online_retail_II.csv"

# Cargar los datos
df = pd.read_csv(ruta_csv)

# Mostrar 5 filas para confirmar
df[['Invoice', 'Description']].head()

Unnamed: 0,Invoice,Description
0,489434,15CM CHRISTMAS GLASS BALL 20 LIGHTS
1,489434,PINK CHERRY LIGHTS
2,489434,WHITE CHERRY LIGHTS
3,489434,"RECORD FRAME 7"" SINGLE SIZE"
4,489434,STRAWBERRY CERAMIC TRINKET BOX


◯ Paso 3: Renombrar columna original a description_en

In [2]:
df.rename(columns={'Description': 'description_en'}, inplace=True)

◯ Paso 4: Crear una columna description en español (vacía por ahora)

In [3]:
# Base para traducir: dejar vacía por ahora
df['description'] = df['description_en']


# Alternativamente: podés empezar a llenar la columna description a mano o con ayuda de un diccionario que preparemos juntos.

In [4]:
df.head()

Unnamed: 0,Invoice,StockCode,description_en,Quantity,InvoiceDate,Price,Customer ID,Country,description
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,7.0,13085.0,United Kingdom,15CM CHRISTMAS GLASS BALL 20 LIGHTS
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.8,13085.0,United Kingdom,PINK CHERRY LIGHTS
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.8,13085.0,United Kingdom,WHITE CHERRY LIGHTS
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085.0,United Kingdom,"RECORD FRAME 7"" SINGLE SIZE"
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.2,13085.0,United Kingdom,STRAWBERRY CERAMIC TRINKET BOX


In [5]:
# ◯ Paso 4.1: Generar base de traducción a partir de descripciones únicas

# Extraer valores únicos para traducir
unique_english = df['description_en'].dropna().unique()

# Crear diccionario base (por ahora con valores vacíos)
translation_dict = {desc: "" for desc in unique_english}

# Convertir a DataFrame para facilitar edición manual o exportación
df_translations = pd.DataFrame.from_dict(translation_dict, orient='index', columns=['description_es'])
df_translations.index.name = 'description_en'

# Guardar archivo para edición manual si se desea
df_translations.to_csv("/workspaces/Final_Project_MBA/data/processed/descriptions_to_translate.csv")


In [6]:
df_translations

Unnamed: 0_level_0,description_es
description_en,Unnamed: 1_level_1
15CM CHRISTMAS GLASS BALL 20 LIGHTS,
PINK CHERRY LIGHTS,
WHITE CHERRY LIGHTS,
"RECORD FRAME 7"" SINGLE SIZE",
STRAWBERRY CERAMIC TRINKET BOX,
...,...
wet boxes,
????damages????,
mixed up,
CREAM HANGING HEART T-LIGHT HOLDER,


◯ Paso 6: Cargar las traducciones completas y unirlas al dataset original

In [7]:
# 🧠 Importante:
# Este paso asume que ya tenés un archivo CSV llamado 'descriptions_translated.csv'
# con dos columnas: 'description_en' y 'description_es'
# El archivo fue editado manualmente a partir de 'descriptions_to_translate.csv' en excel usando la formula translate.
# Por defecto el excel debio guardarse como UTF-8 (CSV UTF-8 (delimitado por comas) (*.csv)), 
    # Alternativa de prueba:
    # Si ya guardaste el archivo como ISO-8859-1 (Windows habitualmente hace esto),
    # lo que provoca ver símbolos raros como 'Ã±' o '�, 
    # podés forzar la lectura así:
    # df_traducciones = pd.read_csv(ruta_traducciones, encoding="ISO-8859-1")
    # Pero lo ideal es re-guardar en UTF-8 para mantener consistencia en toda la app.
    # Usar encoding="ISO-8859-1" fue una buena jugada rápida y efectiva.
    # A futuro, si vas a mover ese CSV entre plataformas o integrarlo en tu app de Streamlit, 
    # te recomiendo considerar guardarlo como UTF-8 para evitar problemas de compatibilidad más adelante 
    # (por ejemplo, en Render o con navegadores).


import pandas as pd

# ✓ Ruta del archivo de traducciones ya completado (¡NO se debe volver a sobrescribir!)
ruta_traducciones = "/workspaces/Final_Project_MBA/data/processed/descriptions_translated.csv"

# ✓ Cargar traducciones
df_traducciones = pd.read_csv(ruta_traducciones
                              
                              
                              
                              )

# ✓ Verificar que se haya cargado correctamente
print("📄 Traducciones cargadas:")
display(df_traducciones.head())

# ✓ Unir el dataset original (df) con las traducciones
# Asegurate que df ya tenga la columna 'description_en' generada previamente
df = df.merge(df_traducciones, how='left', on='description_en')

# ✓ Sobrescribir la columna 'description' con su versión en español (si no hay traducción, se conserva en inglés)
df['description'] = df['description_es'].fillna(df['description_en'])

# ✓ Muestra de resultado final
print("📌 Dataset con columna 'description' en español:")
display(df[['description_en', 'description']].sample(10, random_state=42))


📄 Traducciones cargadas:


Unnamed: 0,description_en,description_es
0,15CM CHRISTMAS GLASS BALL 20 LIGHTS,BOLA DE CRISTAL DE NAVIDAD DE 15CM 20 LUCES
1,PINK CHERRY LIGHTS,LUCES DE CEREZA ROSA
2,WHITE CHERRY LIGHTS,LUCES DE CEREZA BLANCA
3,"RECORD FRAME 7"" SINGLE SIZE","MARCO DE GRABACIÓN DE 7"" TAMAÑO INDIVIDUAL"
4,STRAWBERRY CERAMIC TRINKET BOX,CAJA DE BARATIJAS DE CERÁMICA DE FRESA


📌 Dataset con columna 'description' en español:


Unnamed: 0,description_en,description
455941,SMALL GLASS HEART TRINKET POT,OLLA PEQUEÑA DE BARATIJAS DE CORAZÓN DE VIDRIO
826291,LUNCH BAG SUKI DESIGN,BOLSA DE ALMUERZO SUKI DESIGN
191636,WOODEN SCHOOL COLOURING SET,JUEGO DE COLOREAR ESCOLAR DE MADERA
25864,RETRO SPOT GIANT TUBE MATCHES,RETRO SPOT GIANT TUBE FÓSFOROS
73233,SET/3 RUSSIAN DOLL STACKING TINS,SET/3 LATAS APILABLES DE MUÑECAS RUSAS
557542,CHOCOLATE CALCULATOR,CALCULADORA DE CHOCOLATE
985772,PAPER BUNTING VINTAGE PAISLEY,BANDERINES DE PAPEL VINTAGE PAISLEY
568585,GIN & TONIC DIET GREETING CARD,TARJETA DE FELICITACIÓN DE GIN & TONIC DIET
530265,SOLDIERS EGG CUP,HUEVERA DE SOLDADOS
649024,WOODLAND CHARLOTTE BAG,BOLSO WOODLAND CHARLOTTE


◯ Paso Final: Guardar como nuevo CSV

In [8]:
# ◯ Paso 7: Guardar el dataset final con traducciones como CSV para análisis principal

# 🧠 Este archivo fue generado a partir del dataset original 'online_retail_II.csv'
# Se renombró la columna original 'Description' como 'description_en'
# Y se agregó la columna 'description' en español, a partir del archivo 'descriptions_translated.csv'
# Esto permite mantener la lógica original del código sin modificar las llamadas a 'description'

# ✓ Seleccionar columnas a guardar
columnas_finales = df.columns.tolist()  # o bien especificar manualmente si querés limitar

# 🧼 Eliminar la columna innecesaria (solo se mantiene 'description')
# la columna description_es ya no es necesaria, porque su contenido fue copiado correctamente a description
df.drop(columns=['description_es'], inplace=True, errors='ignore')

# 🔁 Renombrar 'description' a 'Description' para mantener compatibilidad con el notebook principal
df.rename(columns={'description': 'Description'}, inplace=True)


# ✓ Guardar el archivo en la carpeta 'processed'
ruta_salida = "/workspaces/Final_Project_MBA/data/processed/online_retail_II_translated.csv"
df.to_csv(ruta_salida, index=False )

print(f"✅ CSV guardado exitosamente en: {ruta_salida}")
df.info()


✅ CSV guardado exitosamente en: /workspaces/Final_Project_MBA/data/processed/online_retail_II_translated.csv
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 9 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   Invoice         1067371 non-null  object 
 1   StockCode       1067371 non-null  object 
 2   description_en  1062989 non-null  object 
 3   Quantity        1067371 non-null  int64  
 4   InvoiceDate     1067371 non-null  object 
 5   Price           1067371 non-null  float64
 6   Customer ID     824364 non-null   float64
 7   Country         1067371 non-null  object 
 8   Description     1062989 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 73.3+ MB
