#Relimpieza de paquetes si llega a ser necesario

In [1]:
!pip uninstall -y gradio diffusers sentence-transformers peft
# ¡Limpieza y reinstalación!
!pip uninstall -y transformers accelerate huggingface_hub

[0mFound existing installation: transformers 4.41.1
Uninstalling transformers-4.41.1:
  Successfully uninstalled transformers-4.41.1
Found existing installation: accelerate 1.7.0
Uninstalling accelerate-1.7.0:
  Successfully uninstalled accelerate-1.7.0
Found existing installation: huggingface-hub 0.28.1
Uninstalling huggingface-hub-0.28.1:
  Successfully uninstalled huggingface-hub-0.28.1


# Instalación de dependencias

In [2]:
# Instalar versiones compatibles y recientes (evita conflictos con gradio, peft, etc.)
!pip install --upgrade transformers==4.41.1 accelerate pyngrok huggingface_hub==0.28.1 --quiet

# Importaciones
from pyngrok import ngrok
from fastapi import FastAPI
from pydantic import BaseModel
import uvicorn
import threading


#Login y descarga del modelo conversacional

In [3]:
from huggingface_hub import login
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Paso 1: Autenticarse con HuggingFace
login("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")  # tu token

# Paso 2: Cargar modelo
MODEL_NAME = "google/gemma-2b-it"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_auth_token=True)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    device_map="auto",
    use_auth_token=True
)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
`config.hidden_act` is ignored, you should use `config.hidden_activation` instead.
Gemma's activation function will be set to `gelu_pytorch_tanh`. Please, use
`config.hidden_activation` if you want to override this behaviour.
See https://github.com/huggingface/transformers/pull/29402 for more details.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

#Tunear la personalidad y proposito del agente

In [15]:
def responder(prompt):
    # Instrucción incluida directamente como parte del mensaje para Gemma
    system_instruction = "Eres un agente de atención al cliente amable, claro y eficiente. Responde solo una vez y no continúes la conversación."

    # Unimos todo en un solo prompt plano, como requiere Gemma
    chat_prompt = f"{system_instruction}\nCliente: {prompt}\nAgente:"

    # Tokenizar y preparar entrada
    inputs = tokenizer(chat_prompt, return_tensors="pt").to(model.device)

    # Generación
    outputs = model.generate(
        **inputs,
        max_new_tokens=120,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id
    )

    # Decodificar sin repetir el prompt original
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
    respuesta = decoded[len(chat_prompt):].strip()

    # Recorte simple si el modelo intenta seguir el diálogo
    respuesta = respuesta.split("Cliente:")[0].strip()
    respuesta = respuesta.split("Agente:")[-1].strip() if "Agente:" in respuesta else respuesta

    return respuesta



#Plantillas para casos especificos

In [5]:
def generar_prompt(usuario_input):
    return f"""
Eres un asistente de servicio al cliente en una tienda de tecnología.
Responde con amabilidad, usa un lenguaje sencillo y ofrece soluciones claras.

Cliente: {usuario_input}
Asistente:
""".strip()


#Configuración y despliegue de la API

In [6]:
from fastapi import FastAPI
from pydantic import BaseModel
import uvicorn

app = FastAPI()

class PromptInput(BaseModel):
    message: str

@app.post("/chat")
def generate_response(prompt: PromptInput):
    answer = responder(prompt.message)
    return {"response": answer}


# Ejecutar el servidor en segundo plano (Colab-friendly)
def run_api():
    uvicorn.run(app, host="0.0.0.0", port=8000)

thread = threading.Thread(target=run_api)
thread.start()


In [7]:
#Configuro el token
!ngrok config add-authtoken 2yKhiwVeJUvh3xPBj4nOBq8Tuz8_5N4xXNW2823PF4w1si89w
# Abre el túnel a tu servidor local en el puerto 8000
public_url = ngrok.connect(8000)
print(f"Tu API pública: {public_url}")

INFO:     Started server process [23929]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)


Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
Tu API pública: NgrokTunnel: "https://b06b-34-23-164-137.ngrok-free.app" -> "http://localhost:8000"


#Probando la API

In [18]:
import requests

data = {"message": "Hola, me interesa una camisa"}

url = f"{public_url.public_url}/chat"  # Usa directamente la variable public_url

response = requests.post(url, json=data)

print(response.status_code)
print(response.json())

INFO:     34.23.164.137:0 - "POST /chat HTTP/1.1" 200 OK
200
{'response': 'Hola! Soy su agente de atención. ¿Qué puedo hacer para usted hoy?\n\n**Pregunta adicional:** ¿Qué tipo de camisa está buscando?'}
