 # **Probando uso de Google Colab y Hugging Face para cargar / trabajar con LLM's analizando si que tipo de modelos se pueden usar en esta plataforma**

 ## En este cuadreno pruebo el uso de dos modelos:
 ## - **Clip** para procesamiento de imágenes (ViT)
 ## - **Flan T-5** como altenativa (ligera) a Llama 2 y 3.

 ### No he llegado a hacer fine tuning con imágenes.

**Eduardo José Barrios García - alu0101341019@ull.edu.es**

Primeramente instalamos las librerias necesarias

In [None]:
!pip install transformers torch huggingface_hub python-dotenv ipywidgets

Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Collecting jedi>=0.16 (from ipython>=4.0.0->ipywidgets)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Downloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m20.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: python-dotenv, jedi
Successfully installed jedi-0.19.2 python-dotenv-1.0.1


Añadiendo token de Hugging Face

Obviamente en una versión pública, tengo que poner la clave en privado mediante la función

```
notebook_login()
```

No obstante esta vez lo hice así para comprobar y testear disitntos permisos de la API de hugging face



In [None]:
from huggingface_hub import login

login("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")


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /root/.cache/huggingface/token
Login successful


Carga de los modelos que vamos a utilizar,

**Nótese que si se quisiera cambiar el modelo que se usa, sería tan sencillo como modificar las lienas de código que hacen referencia al modelo en cuestión y reemplazarlo aunque lo que comento estaría sujeto a las limitaciones de GPU y RAM de colab, o en su defecto, de mi máquina local.**

El consumo de RAM sin hacer fine Tuning de un modelo como LLama 3.2 7B vision es de aproximadamente 24 Gb de RAM

Llegados a este punto, valorar el miercoles si pudiera ser útil hacerme con una cuenta Colab Pro para manejar todo en la Nube

In [None]:
from transformers import CLIPProcessor, CLIPModel, AutoTokenizer, AutoModelForSeq2SeqLM
from PIL import Image
import torch
from io import BytesIO

# Configurar CLIP para procesamiento de imágenes
clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")

# Configurar Flan-T5 como alternativa a Llama-2 para procesamiento de texto
tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
language_model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")

# Función para procesar texto con Flan-T5
def handle_text_input(text):
    inputs = tokenizer(text, return_tensors="pt")
    outputs = language_model.generate(**inputs, max_length=100)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Función para procesar imágenes con CLIP y generar una descripción inicial
def handle_image_input(image):
    image = Image.open(BytesIO(image))
    inputs = clip_processor(images=image, return_tensors="pt")
    # Obtener características de la imagen con CLIP
    image_features = clip_model.get_image_features(**inputs)

    # Generar una descripción a partir de las características de la imagen
    description_prompt = "Describe esta imagen en detalle."
    inputs = tokenizer(description_prompt, return_tensors="pt")
    outputs = language_model.generate(**inputs, max_length=150)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)



En esta sección de crean widgets apra interactuar con una interfz básica dnetor de google colab para cargar imágenes y prompts

In [None]:
import ipywidgets as widgets
from IPython.display import display, clear_output

# Crear widgets para entrada de texto, botón de enviar, y área de resultados
text_input = widgets.Text(placeholder="Escribe un mensaje...", description="Mensaje:")
send_button = widgets.Button(description="Enviar")
output_area = widgets.Output()

# Función para manejar el mensaje de texto con Flan-T5
def on_text_submit(change):
    with output_area:
        clear_output()
        user_message = text_input.value
        if user_message:
            print(f"Tú: {user_message}")
            response = handle_text_input(user_message)
            print(f"Bot: {response}")
        text_input.value = ""

send_button.on_click(on_text_submit)

# Crear widgets para cargar una imagen
image_upload = widgets.FileUpload(accept='image/*', description="Sube una imagen")

# Función para manejar la imagen con CLIP y Flan-T5
def on_image_upload(change):
    with output_area:
        clear_output()
        uploaded_file = next(iter(image_upload.value.values()))
        print("Tú: [Imagen cargada]")
        response = handle_image_input(uploaded_file['content'])
        print(f"Bot: {response}")

image_upload.observe(on_image_upload, names='value')

# Mostrar los widgets en Colab
display(text_input, send_button, image_upload, output_area)


Text(value='', description='Mensaje:', placeholder='Escribe un mensaje...')

Button(description='Enviar', style=ButtonStyle())

FileUpload(value={}, accept='image/*', description='Sube una imagen')

Output()

En la sección superior se muestra como el modelo responde con un simple 'no' a la pregunta de si la imagen suministrada tiene signos de glaucoma. Por lo tanto aunque se hiciera fine tuning es posible que estos modelos no sirvan para desempeñar descripciones que puedan ser valoradas por un médico.

Esto puede ser por dos motivos:

- La combinación de modelos no es lo suficientemente potente como para dar una respuesta óptima y detallada
- La no asignación de un prompt por defecto para que el LLM extraiga datos del procesamiento visual

### **Por lo tanto se podría concluir que la elección de modelos, incluso haciendo fine tuning, no sería efiiente para la detección de glaucoma.**


***Pregunta: ¿Podríamos orientar la parte de uso de LLM's en el TFG,  en """""""estudios""""""" (entre muchas comillas) como el que acabo de hacer? Probando con más de una imágen por supuesto***


```

