# 🦴🌿 Chatbot "Tribu Salud" – Salud Evolutiva con IA 🏋️‍♂️🔥

## 🎯 Objetivo  
Desarrollar un **chatbot especializado en salud evolutiva** llamado **Tribu Salud**, utilizando **Mistral-7B-Instruct-v0.2**, con capacidades de comprensión y generación de respuestas basadas en principios ancestrales de alimentación, entrenamiento y bienestar.

---

## 🛠️ Tecnologías y Metodología  

### 🔹 1. Modelo de Lenguaje  
Se utiliza el modelo **Mistral-7B-Instruct-v0.2**, optimizado para respuestas conversacionales en español y otras lenguas.

### 🔹 2. Entrenamiento y Fine-Tuning  
- Se usa el dataset **MLQA** (*MultiLingual Question Answering*) para entrenamiento inicial.  
- Se aplica **fine-tuning** con datos específicos de salud evolutiva.  

### 🔹 3. RAG (Retrieval-Augmented Generation)  
Para mejorar la precisión de las respuestas, se implementa **RAG**, combinando el modelo generativo con una base de conocimiento extraída de:  
- **Documentos PDF** relevantes.  
- **Transcripciones de YouTube** de **Fitness Revolucionario**, obtenidas con `youtube-transcript-api`.  

### 🔹 4. Indexado con FAISS  
- Se mejora el **índice FAISS** para permitir **búsquedas rápidas y eficientes** en la base de conocimiento.  
- Esto permite respuestas basadas en información real y verificada.  

### 🔹 5. Despliegue con Gradio  
- Se utiliza **Gradio** para desplegar el chatbot con una interfaz accesible y fácil de usar.  

---

## 🚀 Estado y Próximos Pasos  
✅ Modelo Mixtral-8x22B cargado y configurado.  
✅ Dataset MLQA procesado y adaptado.  
✅ Implementación de Fine-Tuning.  
✅ Extracción de información de PDFs y YouTube.  
✅ Optimización de FAISS para búsqueda rápida.  
🔜 Despliegue final y pruebas en Gradio.  

---

## 📌 Conclusión  
**Tribu Salud** será un chatbot avanzado que proporcionará información precisa y confiable sobre **salud evolutiva, alimentación y entrenamiento funcional**, integrando un **modelo de IA con recuperación de información relevante**.  

📢 **¡Pronto estará disponible para consulta y uso!** 🚀🔥  


In [1]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m61.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [2]:
!pip install -U langchain-community

Collecting langchain-community
  Downloading langchain_community-0.3.16-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.0-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB

In [3]:
!pip install youtube_transcript_api

Collecting youtube_transcript_api
  Downloading youtube_transcript_api-0.6.3-py3-none-any.whl.metadata (17 kB)
Downloading youtube_transcript_api-0.6.3-py3-none-any.whl (622 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m622.3/622.3 kB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: youtube_transcript_api
Successfully installed youtube_transcript_api-0.6.3


In [4]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.2.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m15.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl 

In [5]:
!pip install gradio

Collecting gradio
  Downloading gradio-5.14.0-py3-none-any.whl.metadata (16 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.8-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.5.0-py3-none-any.whl.metadata (3.0 kB)
Collecting gradio-client==1.7.0 (from gradio)
  Downloading gradio_client-1.7.0-py3-none-any.whl.metadata (7.1 kB)
Collecting markupsafe~=2.0 (from gradio)
  Downloading MarkupSafe-2.1.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.0 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.18 (from gradio)
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)
Collecting ruff>=0.9.3 (from gradio)
  Downloading ruff-0.9.4-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.meta

In [6]:
!pip uninstall -y bitsandbytes
!pip install --no-cache-dir -U bitsandbytes

[0mCollecting bitsandbytes
  Downloading bitsandbytes-0.45.1-py3-none-manylinux_2_24_x86_64.whl.metadata (5.8 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch~=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch~=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch~=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch~=2.0->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch~=2.0->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12=

In [7]:
!pip install -U peft



In [8]:
!pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [9]:
!pip install pdfplumber

Collecting pdfplumber
  Downloading pdfplumber-0.11.5-py3-none-any.whl.metadata (42 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/42.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.5/42.5 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.5-py3-none-any.whl (59 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.5/59.5 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfminer.six-20231228-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [8]:
import bitsandbytes as bnb
print(bnb.__version__)

0.45.1


In [18]:
import torch
print(torch.cuda.is_available())  # Debe devolver True
print(torch.cuda.get_device_name())  # Debe listar la A100

True
NVIDIA A100-SXM4-40GB


In [5]:
import torch
import os
import shutil
import logging
import json
import pdfplumber
import requests
import io
import faiss
import pickle
import zipfile
import gradio as gr
from datasets import load_dataset
from transformers import (TrainingArguments, Trainer, AutoTokenizer, AutoModelForCausalLM,
                          DataCollatorForLanguageModeling, BitsAndBytesConfig, pipeline)
from huggingface_hub import HfApi, create_repo
from google.colab import files
from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound
from PyPDF2 import PdfReader
from sentence_transformers import SentenceTransformer

In [11]:
# Autenticación en Hugging Face
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [11]:
# Cargar modelo Mistral-7B-Instruct
# Configuración
model_name = "mistralai/Mistral-7B-Instruct-v0.2"

# Cuantización en 4-bit
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,  # Usa bfloat16 en A100
    bnb_4bit_use_double_quant=True,
)

# Cargar modelo con offloading y LoRA
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    quantization_config=quantization_config,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)

# Preparar modelo para fine-tuning en 4-bit
model = prepare_model_for_kbit_training(model)

# Configurar LoRA (añadir adaptadores en capas clave)
lora_config = LoraConfig(
    r=16,  # Tamaño del cuello de botella de LoRA (ajustar según RAM disponible)
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],  # Aplicar LoRA solo en capas clave
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"  # Tipo de tarea para el modelo
)

# Aplicar LoRA
model = get_peft_model(model, lora_config)

# Cargar tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # Evitar errores con padding

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

In [17]:
# Mensaje de bienvenida del chatbot
system_message = """
🦴🌿 ¡Bienvenido a Tribu Salud! 🏋️‍♂️🔥

Hola, soy tu asistente en salud evolutiva, aquí para ayudarte a optimizar tu bienestar con un enfoque basado en la biología ancestral. 🏕️🥩

🔹 ¿Quieres mejorar tu alimentación con principios evolutivos? 🍖🥑
🔹 ¿Buscas consejos sobre entrenamiento funcional y movimiento natural? 🏃‍♂️💪
🔹 ¿Te interesa mejorar tu descanso y reducir el estrés? 😴🌞

Pregúntame lo que necesites, ¡empecemos este viaje hacia una salud más alineada con nuestra naturaleza! 🚀💯
"""

def generate_response(prompt):
    """Genera respuesta en español usando Mistral-7B-Instruct-v0.2."""
    full_prompt = f"<s>[INST] {system_message}\n{prompt}\nPor favor, responde en español. [/INST]"

    inputs = tokenizer(full_prompt, return_tensors="pt").to("cuda")

    with torch.no_grad():
        output_ids = model.generate(**inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9)

    response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    # Eliminar el prompt de la respuesta final
    response = response.replace(full_prompt, "").strip()
    return response

# Prueba del chatbot
pregunta = "¿Qué beneficios tiene la dieta paleo?"
respuesta = generate_response(pregunta)
print(respuesta)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


[INST] 
🦴🌿 ¡Bienvenido a Tribu Salud! 🏋️‍♂️🔥

Hola, soy tu asistente en salud evolutiva, aquí para ayudarte a optimizar tu bienestar con un enfoque basado en la biología ancestral. 🏕️🥩

🔹 ¿Quieres mejorar tu alimentación con principios evolutivos? 🍖🥑
🔹 ¿Buscas consejos sobre entrenamiento funcional y movimiento natural? 🏃‍♂️💪
🔹 ¿Te interesa mejorar tu descanso y reducir el estrés? 😴🌞

Pregúntame lo que necesites, ¡empecemos este viaje hacia una salud más alineada con nuestra naturaleza! 🚀💯

¿Qué beneficios tiene la dieta paleo?
Por favor, responde en español. [/INST] La dieta paleo puede tener beneficios para la salud, como mejorar el equilibrio de macronutrientes, reducir la inflamación, mejorar la sensibilidad al glúcose y mejorar la insulina, y mejorar la calidad del sonido. Sin embargo, es importante mencionar que la dieta paleo no es una dieta balanceada por sí misma y puede requerir planificar cuidadosamente para garantizar que se obtienen todos los nutrientes necesarios. Además,

In [13]:
# Cargar dataset
try:
    dataset = load_dataset("mlqa", "mlqa-translate-train.es", trust_remote_code=True)
    train_dataset = dataset["train"].shuffle(seed=42).select(range(min(10000, len(dataset["train"]))))
    val_dataset = (
        dataset["validation"].shuffle(seed=42).select(range(min(2000, len(dataset["validation"]))))
        if "validation" in dataset
        else None
    )
    print("✅ Dataset cargado correctamente.")
except Exception as e:
    print(f"❌ Error cargando dataset: {e}")
    train_dataset, val_dataset = None, None

# Función para generar prompt con formato Mistral
def create_prompt(sample):
    """
    Crea un prompt formateado para Mistral-7B-Instruct-v0.2 basado en un ejemplo del dataset.
    """
    prompt = (
        f"<s>[INST] {system_message}\n"
        f"Pregunta: {sample['question']}\n"
        f"Contexto: {sample['context']}\n"
        "Da una respuesta clara en español. [/INST]"
    )
    return prompt

# Función para tokenizar el prompt y preparar los labels.
def tokenize_prompt(sample):
    prompt = create_prompt(sample)
    tokenized = tokenizer(
        prompt,
        truncation=True,
        padding="max_length",
        max_length=512
    )
    tokenized["labels"] = tokenized["input_ids"].copy()
    tokenized["prompt"] = prompt  # Guardamos el prompt original
    return tokenized

# Aplicar la tokenización al dataset y eliminar columnas originales
if train_dataset is not None:
    train_dataset = train_dataset.map(
        tokenize_prompt,
        remove_columns=train_dataset.column_names,
        batched=False  # Procesamos ejemplo a ejemplo para mayor claridad
    )
if val_dataset is not None:
    val_dataset = val_dataset.map(
        tokenize_prompt,
        remove_columns=val_dataset.column_names,
        batched=False
    )

# Función para probar el modelo con una muestra del dataset tokenizado
def test_dataset_sample(dataset, index=0):
    """
    Prueba el modelo con una muestra del dataset MLQA ya tokenizado.
    """
    if dataset is None or len(dataset) <= index:
        print("❌ El dataset está vacío o el índice es inválido.")
        return

    sample = dataset[index]
    # Recuperamos el prompt original guardado durante la tokenización
    prompt = sample.get("prompt", "No se encontró prompt en la muestra.")

    # Configurar el dispositivo (CPU/GPU)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # Convertir los input_ids y attention_mask a tensores y agregar dimensión batch
    inputs = {
        "input_ids": torch.tensor(sample["input_ids"]).unsqueeze(0).to(device),
        "attention_mask": torch.tensor(sample["attention_mask"]).unsqueeze(0).to(device),
    }

    # Generar respuesta
    with torch.no_grad():
        output_ids = model.generate(
            **inputs,
            max_new_tokens=256,
            do_sample=True,
            temperature=0.7,
            top_p=0.9
        )
    response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    # Remover el prompt si aparece en la salida
    response = response.replace(prompt, "").strip()

    print("📌 Prompt generado:")
    print(prompt)
    print("\n🤖 Respuesta del modelo:")
    print(response)

# Probar con un ejemplo del dataset de entrenamiento (ya tokenizado)
test_dataset_sample(train_dataset, index=3)

✅ Dataset cargado correctamente.


Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


📌 Prompt generado:
<s>[INST] 
🦴🌿 ¡Bienvenido a Tribu Salud! 🏋️‍♂️🔥

Hola, soy tu asistente en salud evolutiva, aquí para ayudarte a optimizar tu bienestar con un enfoque basado en la biología ancestral. 🏕️🥩

🔹 ¿Quieres mejorar tu alimentación con principios evolutivos? 🍖🥑
🔹 ¿Buscas consejos sobre entrenamiento funcional y movimiento natural? 🏃‍♂️💪
🔹 ¿Te interesa mejorar tu descanso y reducir el estrés? 😴🌞

Pregúntame lo que necesites, ¡empecemos este viaje hacia una salud más alineada con nuestra naturaleza! 🚀💯

Pregunta: Por qué razón el primer ministro passos coelho justificó cortar 30000 puestos de trabajo?
Contexto: En la primera semana de mayo de 2013, el primer ministro passos coelho anunció un plan de gobierno significativo para el sector público, en el que se va 30,000 puestos de trabajo y el número de horas de trabajo semanales se aumentará de 35 a 40 horas. Coelho reafirmó el anuncio explicando que las medidas de austeridad son necesarias si Portugal busca evitar otra subvenc

In [16]:
# Configuración de entrenamiento ajustada para reducir tiempo
training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=8,  # Aumentar tamaño de batch para procesar más ejemplos por iteración
    per_device_eval_batch_size=8,  # Aumentamos también para la evaluación
    eval_strategy="no",  # Desactivar evaluación para evitar sobrecargar el tiempo de entrenamiento
    save_strategy="no",  # Desactivar guardar el modelo cada época para evitar tiempos adicionales
    num_train_epochs=1,  # Reducimos a 1 época para acelerar el entrenamiento
    learning_rate=5e-5,  # Aumentamos ligeramente la tasa de aprendizaje para entrenamiento más rápido
    weight_decay=0.01,
    bf16=True,  # A100 usa bfloat16 para mejorar la velocidad
    gradient_accumulation_steps=1,  # No es necesario acumular gradientes si se usa un batch más grande
    push_to_hub=False,
    gradient_checkpointing=False,  # Desactivamos checkpointing para acelerar
    optim="adamw_torch",  # Optimizador eficiente
    report_to="none",  # Desactiva logs en WandB
    remove_unused_columns=False,  # Dejamos False ya que ya eliminamos columnas en el map
)

# Crear Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    data_collator=None,  # No necesario para modelos de lenguaje
)

# Iniciar entrenamiento
if train_dataset:
    print("🚀 Iniciando entrenamiento...")
    trainer.train()
    print("✅ Entrenamiento completado.")


🚀 Iniciando entrenamiento...


Step,Training Loss
500,0.933
1000,0.8809


✅ Entrenamiento completado.


In [17]:
# Guardar modelo entrenado localmente
model_dir = "/content/trained_tribu_salud"
os.makedirs(model_dir, exist_ok=True)

# Guardar el modelo y el tokenizador
model.save_pretrained(model_dir)
tokenizer.save_pretrained(model_dir)

# Comprimir la carpeta del modelo en un ZIP
zip_filename = "/content/trained_tribu_salud.zip"
shutil.make_archive(zip_filename.replace(".zip", ""), 'zip', model_dir)
print(f"✅ Modelo guardado y comprimido en: {zip_filename}")

# Descargar el archivo ZIP localmente
files.download(zip_filename)
print("📥 Descarga iniciada...")

✅ Modelo guardado y comprimido en: /content/trained_tribu_salud.zip


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

📥 Descarga iniciada...


In [18]:
# Subir modelo a Hugging Face

repo_name = "CasiAC/chatbot_tribu_salud"
repo_dir = "/content/hf_tribu_salud"

# Verificar si el modelo existe antes de subirlo
if not os.path.exists(model_dir):
    raise FileNotFoundError(f"⚠ Error: No se encontró la carpeta {model_dir}. Verifica si el entrenamiento fue exitoso.")
else:
    print(f"✅ Carpeta del modelo encontrada: {model_dir}")

# Crear repositorio en Hugging Face (si no existe)
api = HfApi()
create_repo(repo_name, repo_type="model", private=True, exist_ok=True)

# Copiar modelo a la carpeta del repositorio
shutil.copytree(model_dir, repo_dir, dirs_exist_ok=True)

# Subir modelo a Hugging Face
api.upload_folder(
    folder_path=repo_dir,
    repo_id=repo_name,
    repo_type="model",
    commit_message="🚀 Subida inicial del chatbot Tribu Salud basado en Mistral 7B"
)

print(f"🚀 Modelo subido correctamente a Hugging Face: https://huggingface.co/{repo_name}")

✅ Carpeta del modelo encontrada: /content/trained_tribu_salud


tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

🚀 Modelo subido correctamente a Hugging Face: https://huggingface.co/CasiAC/chatbot_tribu_salud


In [13]:
# Configuración de logging
logging.basicConfig(level=logging.INFO)

# 1️⃣ CARGA DE DOCUMENTOS (PDF y YouTube)
# ------------------------------------

pdf_url = "https://s3.amazonaws.com/fitnessrevolucionario.publico/Descargas/ElManualRevolucionario_MarcosVazquez.pdf"

# Cargar el PDF con pdfplumber
def load_pdf(pdf_url):
    try:
        # Descargar el PDF (o leer si ya lo tienes en el sistema)
        response = requests.get(pdf_url)
        pdf_file = io.BytesIO(response.content)  # Usamos BytesIO para leer desde memoria
        with pdfplumber.open(pdf_file) as pdf:
            pdf_text = [page.extract_text() for page in pdf.pages]
        return pdf_text
    except Exception as e:
        logging.error(f"Error al cargar el PDF: {e}")
        return []

pdf_pages = load_pdf(pdf_url)

# Lista de URLs de YouTube
youtube_urls = [
    "https://www.youtube.com/watch?v=L3Qf63iP4Yc",
    "https://www.youtube.com/watch?v=WT-wEIo9Ji8",
    "https://www.youtube.com/watch?v=gaVQ0lFp_Po",
    "https://www.youtube.com/watch?v=dDaKhCTrMus",
    "https://www.youtube.com/watch?v=DPOLIiBcCbk"
]

# Función para guardar las transcripciones en formato .srt
def save_to_srt(transcript, filename):
    with open(filename, 'w') as f:
        for idx, entry in enumerate(transcript, 1):
            start, duration, text = entry['start'], entry['duration'], entry['text']
            start_min, start_sec = divmod(int(start), 60)
            end_min, end_sec = divmod(int(start + duration), 60)
            f.write(f"{idx}\n")
            f.write(f"{start_min:02d}:{start_sec:02d} --> {end_min:02d}:{end_sec:02d}\n")
            f.write(f"{text}\n\n")

documents = [page for page in pdf_pages if page is not None]  # Eliminar páginas vacías

# Procesar cada URL de YouTube
for url in youtube_urls:
    video_id = url.split('v=')[1]
    try:
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['es'])
        transcript_filename = f"transcript_{video_id}.srt"
        save_to_srt(transcript, transcript_filename)
        documents.append(f"Transcripción de {url} guardada en {transcript_filename}")
    except (TranscriptsDisabled, NoTranscriptFound):
        logging.warning(f"No se encontró transcripción para {url}")
    except Exception as e:
        logging.error(f"Error al obtener transcripción para {url}: {e}")

# Imprimir los documentos procesados
for document in documents:
    print(document)

EL MANUALEl Manual Revolucionario 1
REVOLUCIONARIO
El principio Fitness
de tu revolución Revolucionario
Índice El Manual Revolucionario 2
Copyright © 2021 por
Fitness Revolucionario.
LAS BASES 3
NUTRICIÓN 6
17 ENTRENAMIENTO
OTROS ASPECTOS 20
21 RECETAS
Las Bases El Manual Revolucionario 3
LAS BASES
Una nueva forma de entender y
mejorar tu salud. Si este es tu primer
contacto con Fitness Revolucionario,
déjame resumirte lo que encontrarás
en mi blog y podcast.
01 02
Explicaciones detalladas sobre cómo Cuestionamientos de muchas creen-
funciona realmente tu cuerpo. Cui­ cias comunes sobre salud. Muchas
damos más aquello que conocemos, ideas que se repiten constantemente
y la mayoría desconoce los aspectos (como que hay que comer muchas
básicos del cuerpo en el que vive. veces al día o que es importante esti­
rar antes de entrenar) han sido des­
terradas por la ciencia más reciente,
pero siguen formando parte de las
recomendaciones habituales.
03 04
Recomendaciones prácticas para Una visi

In [14]:
# 2️⃣ CREACIÓN DE EMBEDDINGS Y FAISS
# ------------------------------------

# Cargar el modelo preentrenado de SentenceTransformers
embedder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Crear los embeddings a partir de los documentos
document_embeddings = embedder.encode(documents, convert_to_numpy=True)

# Crear un índice FAISS
index = faiss.IndexHNSWFlat(document_embeddings.shape[1], 32)
index.add(document_embeddings)

# Guardar los embeddings y el índice FAISS
with open("document_embeddings.pkl", "wb") as f:
    pickle.dump(document_embeddings, f)
faiss.write_index(index, "faiss_index.faiss")

# Log para confirmar que se guardaron correctamente
logging.info("Embeddings e índice FAISS guardados correctamente.")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [16]:
# 3️⃣ FUNCIONES PARA RAG
# ------------------------------------

def retrieve_documents(query, top_k=3):
    query_embedding = embedder.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_embedding, top_k)
    return [documents[i] for i in indices[0] if i < len(documents)]

def answer_question_with_generation(question, context):
    try:
        inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=512)
        with torch.no_grad():
            outputs = model(**inputs)
            start, end = outputs.start_logits.argmax(), outputs.end_logits.argmax()
            return tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs.input_ids[0][start:end+1]))
    except Exception as e:
        logging.error(f"Error en la generación de respuesta: {e}")
        return "No se pudo generar la respuesta."

def answer_question_with_RAG(question, top_k=3):
    try:
        context = " ".join(retrieve_documents(question, top_k))
        return answer_question_with_generation(question, context)
    except Exception as e:
        logging.error(f"Error en el proceso RAG: {e}")
        return "Error en la generación de respuesta."

In [34]:
# 4️⃣ GUARDAR Y SUBIR MODELO A HUGGING FACE
# ------------------------------------

rag_model_dir = "/content/chatbot_tribu_salud_rag"
os.makedirs(rag_model_dir, exist_ok=True)

try:
    model.save_pretrained(rag_model_dir)
    tokenizer.save_pretrained(rag_model_dir)
    logging.info(f"Modelo RAG guardado en: {rag_model_dir}")
except Exception as e:
    logging.error(f"Error al guardar el modelo: {e}")

repo_name_rag = "CasiAC/chatbot_tribu_salud_rag"
repo_dir_rag = "/content/new_chatbot_tribu_salud_rag"
zip_filename = "/content/chatbot_tribu_salud_rag.zip"

if not os.path.exists(rag_model_dir):
    logging.error(f"No se encontró la carpeta {rag_model_dir}")
    raise FileNotFoundError(f"No se encontró la carpeta {rag_model_dir}")

api = HfApi()

try:
    api.create_repo(repo_name_rag, repo_type="model", private=False, exist_ok=True)
    if os.path.exists(repo_dir_rag):
        shutil.rmtree(repo_dir_rag)
    os.makedirs(repo_dir_rag, exist_ok=True)
    shutil.copytree(rag_model_dir, repo_dir_rag, dirs_exist_ok=True)
    api.upload_folder(folder_path=repo_dir_rag, repo_id=repo_name_rag, repo_type="model", commit_message="Subida del modelo RAG")
    logging.info(f"Modelo RAG subido correctamente a Hugging Face: https://huggingface.co/{repo_name_rag}")
except Exception as e:
    logging.error(f"Error al subir el modelo a Hugging Face: {e}")

with zipfile.ZipFile(zip_filename, 'w', zipfile.ZIP_DEFLATED) as zipf:
    for root, _, filenames in os.walk(rag_model_dir):
        for file in filenames:
            file_path = os.path.join(root, file)
            arcname = os.path.relpath(file_path, rag_model_dir)
            zipf.write(file_path, arcname)

print(f"✅ Modelo RAG guardado y comprimido en: {zip_filename}")
files.download(zip_filename)

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

✅ Modelo RAG guardado y comprimido en: /content/chatbot_tribu_salud_rag.zip


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [15]:
# Nombre del modelo en Hugging Face
MODEL_NAME = "CasiAC/chatbot_tribu_salud_rag"

# Cargar el modelo y el tokenizer
device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME).to(device)

# Crear el pipeline para generación de texto
generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0 if torch.cuda.is_available() else -1)


tokenizer_config.json:   0%|          | 0.00/2.13k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.51M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/437 [00:00<?, ?B/s]

adapter_config.json:   0%|          | 0.00/731 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/596 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/25.1k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.94G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

Device set to use cuda:0


In [None]:
from huggingface_hub import model_info

model_name = "CasiAC/chatbot_tribu_salud_rag"

try:
    info = model_info(model_name)
    print(f"✅ Modelo encontrado: {info.modelId}")
except Exception as e:
    print(f"❌ Error: {e}")


In [7]:
# Configurar logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

# Definir algunos documentos de ejemplo
documents = [
    "Este es el primer documento con información sobre salud evolutiva.",
    "Este es el segundo documento con consejos de entrenamiento funcional.",
    "Este es el tercer documento sobre nutrición y estilo de vida saludable."
]

# Mensaje de bienvenida del chatbot
system_message = """
🦴🌿 ¡Bienvenido a Tribu Salud! 🏋️‍♂️🔥

Hola, soy tu asistente en salud evolutiva, aquí para ayudarte a optimizar tu bienestar con un enfoque basado en la biología ancestral. 🏕️🥩

🔹 ¿Quieres mejorar tu alimentación con principios evolutivos? 🍖🥑
🔹 ¿Buscas consejos sobre entrenamiento funcional y movimiento natural? 🏃‍♂️💪
🔹 ¿Te interesa mejorar tu descanso y reducir el estrés? 😴🌞

Pregúntame lo que necesites, ¡empecemos este viaje hacia una salud más alineada con nuestra naturaleza! 🚀💯
"""

# Nombre del modelo en Hugging Face (reemplaza con el tuyo)
MODEL_NAME = "CasiAC/chatbot_tribu_salud_rag"

# Forzar el uso de CPU (dado que la GPU está saturada o para facilitar la depuración)
device = torch.device("cpu")
logging.info("Usando CPU para la inferencia.")

# Cargar el tokenizer y el modelo desde Hugging Face en CPU
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, device_map="cpu")
tokenizer.pad_token = tokenizer.eos_token

# Crear pipeline para generación de texto (sin especificar 'device', ya que el modelo ya se cargó en CPU)
generator = pipeline("text-generation", model=model, tokenizer=tokenizer, batch_size=1)

# Función para generar respuesta en español usando el mensaje de bienvenida y el prompt
def generate_response(prompt):
    full_prompt = f"<s>[INST] {system_message}\n{prompt}\nPor favor, responde en español. [/INST]"
    inputs = tokenizer(full_prompt, return_tensors="pt").to(device)
    with torch.no_grad():
        output_ids = model.generate(**inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9)
    response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    response = response.replace(full_prompt, "").strip()
    return response

# Función para generar respuesta a partir de la pregunta y contexto
def answer_question_with_generation(question, context, max_context_tokens=256):
    # Truncar el contexto si es muy largo
    context_tokens = tokenizer.encode(context, add_special_tokens=False)
    if len(context_tokens) > max_context_tokens:
        context_tokens = context_tokens[:max_context_tokens]
        context = tokenizer.decode(context_tokens, skip_special_tokens=True)
    prompt = f"Pregunta: {question}\nContexto: {context}"
    return generate_response(prompt)

# Función para simular la recuperación de documentos (usa la variable 'documents' definida arriba)
def retrieve_documents(question, top_k=3):
    return documents[:top_k]

# Función para probar el modelo RAG: recupera documentos y genera respuesta
def test_rag_model(question, top_k=3):
    try:
        context = " ".join(retrieve_documents(question, top_k))
        answer = answer_question_with_generation(question, context)
        logging.info(f"Pregunta: {question}\nContexto: {context}\nRespuesta: {answer}")
        return answer
    except Exception as e:
        logging.error(f"Error en la prueba del modelo RAG: {e}")
        return "❌ Ocurrió un error en la prueba del modelo."

# Función para la interfaz del chatbot en Gradio
def chatbot_interface(question):
    return test_rag_model(question)

# Lanzar la interfaz de Gradio
gr.Interface(
    fn=chatbot_interface,
    inputs="text",
    outputs="text",
    title="Tribu Salud 🦴🌿 - Chatbot de Salud Evolutiva",
    description="Pregunta sobre salud evolutiva, entrenamiento funcional, nutrición y estilo de vida saludable."
).launch(share=True)

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Device set to use cpu


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://be82ffc930d68ac4f7.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




## 📌 Conclusiones y Recomendaciones para Mejorar el Chatbot Tribu Salud

### 🔍 Conclusiones

1. **El mensaje de bienvenida ocupa demasiados tokens**
   - El modelo está incluyendo el mensaje de bienvenida y el formato `[INST]` en cada respuesta, lo que consume muchos tokens y limita la capacidad de respuesta.
   - Se observa que la salida repite parte del mensaje de bienvenida antes de responder a la pregunta.

2. **El contexto adicional puede ser irrelevante o redundante**
   - En la respuesta aparece un bloque de texto con "Este es el primer documento con información sobre salud evolutiva...".
   - Es posible que el sistema esté incluyendo demasiada información de contexto sin filtrar, lo que podría reducir la precisión de la respuesta.

3. **Corte prematuro del texto generado**
   - En algunos casos, la respuesta termina abruptamente, lo que sugiere que el modelo está alcanzando el límite de tokens o que la salida se está truncando.

4. **Formato de la respuesta mejorable**
   - Aunque la respuesta tiene una estructura clara, podría mejorarse con frases más concisas y evitando redundancias.
   - Se podría optimizar la claridad y la personalización de la respuesta según la pregunta.

---

### ✅ Recomendaciones de Mejora

#### 🔹 Reducir el tamaño del mensaje de bienvenida
- Eliminar emojis innecesarios y hacer el mensaje más corto.
- Mostrar el mensaje solo una vez al inicio, no en cada interacción.

📌 **Ejemplo optimizado:**

```plaintext
¡Bienvenido a Tribu Salud! Soy tu asistente de salud evolutiva.  
Pregunta sobre alimentación, entrenamiento y descanso. ¡Estoy aquí para ayudarte!
```

#### 🔹 Optimizar la generación de respuestas
- Modificar `max_new_tokens` a una cantidad mayor (ej. 300-400) para evitar cortes abruptos.
- Ajustar `temperature` y `top_p` para mejorar la coherencia de las respuestas.
- Asegurar que el modelo no repita el prompt en la salida.

#### 🔹 Filtrar el contexto innecesario
- Si estás pasando documentos de contexto, revisa que sean realmente relevantes para cada pregunta.
- Puedes limitar el contexto a solo las partes más importantes.

#### 🔹 Mejorar el formato de la salida
- Evitar listas demasiado generales y hacer respuestas más personalizadas según la pregunta del usuario.
- Implementar un postprocesamiento para limpiar el texto y asegurarse de que la respuesta no esté incompleta.

---

### 🚀 Implementando estas mejoras, el chatbot Tribu Salud podrá ofrecer respuestas más precisas, coherentes y útiles para los usuarios.

