<a href="https://colab.research.google.com/github/neemiasbsilva/MLLMs-Teoria-e-Pratica/blob/main/use-cases/Classify_Sentiment_DeepseekVL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DeepSeek VL - Classificação de Sentimento

Bem vindos a esse notebook com um pequeno tutorial para inferência em uma LLM multimodal, com um pedacinho de interface com pandas!

É muito importante que cada célula seja executada em sequência, conforme será explicado em logo mais.

Neste tutorial, devido às limitações do google Collab, vamos utilizar o [Deepseek-VL](https://github.com/deepseek-ai/DeepSeek-VL). Então, Vamos começar clonando seu repositório:

## Configuração do Ambiente

In [None]:
!git clone https://github.com/deepseek-ai/DeepSeek-VL -q

Em seguida, vamos instalar as dependências, tomando cuidado para instalar o Torch separado, já que este é sensível a versão que estamos utilizando de Python:

In [None]:
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -q
!sed -i '/torch==/d' /content/DeepSeek-VL/requirements.txt
!pip install -r /content/DeepSeek-VL/requirements.txt -q

Após a instalação precisa reinicar a execução para que os pacotes necessários sejam devidamente instalados no kernel

## Carregar o Modelo e Inicialização do Tokenizer

Agora, vamos utilizar os métodos da biblioteca transformers e o torch para carregar o modelo na nossa placa gráfica, inicializar nosso tokenizer, que será responsável pela codificação das entradas, e decodificação das saídas para o modelo:

In [None]:
import sys
import warnings
warnings.filterwarnings('ignore')
sys.path.append('/content/DeepSeek-VL')

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM

model_path = "deepseek-ai/deepseek-vl-1.3b-base"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

## Carregando o Modelo e Fazendo um Teste de Infêrencia

Vamos rodar este teste para verificar se o modelo está carregado corretamente! Note a reposta sendo mostrada no terminal, e todo o pré-processamento que um modelo multimodal exige, como criação dos embeddings das imagens:

In [None]:
from deepseek_vl.utils.io import load_pil_images

conversation = [
    {
        "role": "User",
        "content": "<image_placeholder> Analyze this image, and describe it, analysing its sentiment.",
        "images": ["/content/DeepSeek-VL/images/dog_a.png"]
    },
    {
        "role": "Assistant",
        "content": ""
    }
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True
).to(vl_gpt.device)

# run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# run the model to get the response
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

## Inferência em Batch

Caso dê tudo certo, vamos agora tentar um processamento em batch.

Como já foi detalhado no material, vamos focar na task 1. então focamos puramente em passar a imagem, e um prompt para o modelo.

Neste exemplo, utilizamos o subconjunto alpha5 p3, onde todos os 5 examinadores concordaram no sentimento de uma imagem, com três classes.

Mais detalhes, e acesso para essa base de dados completa podem ser acessados [aqui](https://arxiv.org/abs/2508.16873)

In [None]:
import pandas as pd

df = pd.read_csv('https://drive.google.com/uc?export=download&id=1OLFvsOI_YPi4HxGBqjmI68uqw4dmmNT9')

df.head()

Depois de carregado nosso conjunto, vamos passar por cada uma das imagens, passando para o modelo a imagem, e o nosso prompt, propriamente preparado, e mostrar a reposta dele! Note que para esse modelo, extrair o sentimento exato da resposta não é uma tarefa simples, mas em modelos mais avançados, essa tarefa se torna um pouco mais fácil, já que tendem a dar uma resposta mais assertiva.

In [None]:
import requests
import base64

for index, row in df.iterrows():
  image_url = row["url"]
  response = requests.get(image_url)
  b64response = uri = ("data:" +
                response.headers['Content-Type'] + ";" +
                "base64," + str(base64.b64encode(response.content).decode("utf-8")))

  conversation = [
    {
        "role": "User",
        "content": "<image_placeholder>Analyze this image, and describe it, analysing its sentiment.",
        "images": [b64response]
    },
    {
        "role": "Assistant",
        "content": ""
    }
  ]

  pil_images = load_pil_images(conversation)
  prepare_inputs = vl_chat_processor(
      conversations=conversation,
      images=pil_images,
      force_batchify=True
  ).to(vl_gpt.device)

  inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

  outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
  )

  answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
  print(f"{prepare_inputs['sft_format'][0]}", answer)


