In [None]:
# Instalar las bibliotecas necesarias de Hugging Face
!pip install transformers datasets accelerate sentencepiece



In [None]:
from google.colab import files
import pandas as pd
from datasets import Dataset

# Subir el archivo CSV
print("Por favor, sube tu archivo odami_corpus.csv")
uploaded = files.upload()

# Cargar los datos en un DataFrame de pandas
file_name = list(uploaded.keys())[0]
df = pd.read_csv(file_name)

# --- INICIA EL NUEVO PASO DE LIMPIEZA DE DATOS ---

df.dropna(subset=['Frase_Español', 'Traduccion_Ódami'], inplace=True)

df['Frase_Español'] = df['Frase_Español'].astype(str)
df['Traduccion_Ódami'] = df['Traduccion_Ódami'].astype(str)

# --- TERMINA EL PASO DE LIMPIEZA ---

# Crear un "Dataset" a partir de los datos ya limpios
raw_dataset = Dataset.from_pandas(df)

print("\n¡Datos cargados y limpiados con éxito!")
print("Los nombres de las columnas son:", df.columns.tolist())
print(f"Total de ejemplos después de la limpieza: {len(raw_dataset)}")
print(f"Ejemplo: {raw_dataset[0]}")

Por favor, sube tu archivo odami_corpus.csv


Saving odami_corpus.csv.csv to odami_corpus.csv.csv

¡Datos cargados y limpiados con éxito!
Los nombres de las columnas son: ['Frase_Español', 'Traduccion_Ódami']
Total de ejemplos después de la limpieza: 1089
Ejemplo: {'Frase_Español': 'hola', 'Traduccion_Ódami': 'xiórai', '__index_level_0__': 0}


In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainingArguments, Seq2SeqTrainer

# Modelo base que vamos a re-entrenar (un modelo de español a inglés muy bueno)
checkpoint = "Helsinki-NLP/opus-mt-es-en"

# El "tokenizador" descompone las frases en piezas que el modelo entiende
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

# Función para preprocesar los datos
def preprocess_function(examples):
    inputs = [ex for ex in examples["Frase_Español"]]
    targets = [ex for ex in examples["Traduccion_Ódami"]]
    model_inputs = tokenizer(inputs, text_target=targets, max_length=128, truncation=True)
    return model_inputs

# Aplicamos la función a todo nuestro dataset
tokenized_dataset = raw_dataset.map(preprocess_function, batched=True)

# Esto prepara los datos para el entrenamiento
data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)

print("\n¡Modelo y datos listos para el entrenamiento!")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]



pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

Map:   0%|          | 0/1089 [00:00<?, ? examples/s]


¡Modelo y datos listos para el entrenamiento!


In [None]:
# Definir los parámetros del entrenamiento
training_args = Seq2SeqTrainingArguments(
    output_dir="./odami_translator_v0.1",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=15,
    predict_with_generate=True,
    push_to_hub=False,
    report_to="none", # AÑADIMOS ESTA LÍNEA para desactivar wandb
)

# Crear el "Entrenador"
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
)

# ¡Iniciar el entrenamiento!
print("\nIniciando el entrenamiento... 🧠🔥")
trainer.train()
print("\n¡Entrenamiento completado!")

  trainer = Seq2SeqTrainer(
The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None}.



Iniciando el entrenamiento... 🧠🔥


Step,Training Loss
500,3.4546
1000,2.066
1500,1.3706
2000,1.0435





¡Entrenamiento completado!


In [None]:
from transformers import pipeline

# Frase que quieres traducir
frase_a_traducir = "como estas hoy" # Cambia esta frase por la que quieras probar

# Crear un "pipeline" de traducción con nuestro modelo recién entrenado
translator = pipeline("translation", model=model, tokenizer=tokenizer)

# Obtener la traducción
resultado = translator(frase_a_traducir)

print(f"Frase en Español: {frase_a_traducir}")
print(f"Traducción a Ódami (v0.1): {resultado[0]['translation_text']}")

Device set to use cuda:0


Frase en Español: como estas hoy
Traducción a Ódami (v0.1): dukági


In [None]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
# Define un nombre único para tu modelo en el Hub
Traduccion_a_Odami = "robotix123/odami-ia-final"

# Este comando empaqueta y sube todo a tu perfil
trainer.push_to_hub(Traduccion_a_Odami)

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

  ...ranslator_v0.1/source.spm: 100%|##########|  826kB /  826kB            

  ...ranslator_v0.1/target.spm: 100%|##########|  802kB /  802kB            

  ...or_v0.1/model.safetensors:   0%|          |  234kB /  310MB            

  ...or_v0.1/training_args.bin:   2%|2         |   133B / 5.97kB            

CommitInfo(commit_url='https://huggingface.co/robotix123/odami_translator_v0.1/commit/54fcb20db1ebec47c8213dfb0cf726c2fc9f51b3', commit_message='robotix123/odami-ia-final', commit_description='', oid='54fcb20db1ebec47c8213dfb0cf726c2fc9f51b3', pr_url=None, repo_url=RepoUrl('https://huggingface.co/robotix123/odami_translator_v0.1', endpoint='https://huggingface.co', repo_type='model', repo_id='robotix123/odami_translator_v0.1'), pr_revision=None, pr_num=None)

In [None]:
# --- PRUEBA FINAL: USAMOS EL ALIAS DE REPOSITORIO ---
# Token generado recientemente
HF_TOKEN = "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"

# El alias de repositorio (este es el nombre más probable que falta)
MODEL_ID = "robotix123/odami_translator_v0.1"

# Comando para probar la API
!curl -X POST -i -H "Authorization: Bearer $HF_TOKEN" \
-H "Content-Type: application/json" \
-d '{"inputs": "prueba"}' \
"https://router.huggingface.co/models/$MODEL_ID"

HTTP/2 404 
[1mcontent-type[0m: text/plain; charset=utf-8
[1mcontent-length[0m: 9
[1mdate[0m: Tue, 25 Nov 2025 05:06:28 GMT
[1metag[0m: W/"9-0gXL1ngzMqISxa6S1zx3F4wtLyg"
[1mx-powered-by[0m: huggingface-moon
[1mvary[0m: Origin
[1maccess-control-allow-origin[0m: *
[1maccess-control-expose-headers[0m: X-Repo-Commit,X-Request-Id,X-Error-Code,X-Error-Message,X-Total-Count,ETag,Link,Accept-Ranges,Content-Range,X-Linked-Size,X-Linked-ETag,X-Xet-Hash
[1mx-robots-tag[0m: none
[1mx-request-id[0m: Root=1-69253954-73edce39103e501664c382a8
[1mcross-origin-opener-policy[0m: same-origin
[1mreferrer-policy[0m: strict-origin-when-cross-origin
[1mx-cache[0m: Error from cloudfront
[1mvia[0m: 1.1 8becb0bb482d043d1d5e869b34ad5226.cloudfront.net (CloudFront)
[1mx-amz-cf-pop[0m: BOG51-P2
[1mx-amz-cf-id[0m: Lh_RnjFC19OkmbLv4F5NioFUXRkmwZ_Sder9gBt3hIa1vR4d8ZQffA==

Not Found