<a href="https://colab.research.google.com/github/andrepinotti/ICDS6-2024/blob/main/AtividadesHF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Criar uma aplicação no HF do modelo multimodal (tarefa: resposta visual a
perguntas). Escolher um modelo de IA e construir uma aplicação de acordo com o
cartão de modelo. Construir uma interface para aplicação.

In [15]:
# Importando as bibliotecas
import gradio as gr
from PIL import Image
from transformers import pipeline

# Escolhendo o modelo para legendagem de imagens
modelo_nome = "nlpconnect/vit-gpt2-image-captioning"
pipe = pipeline("image-to-text", model=modelo_nome)

def gerar_legenda(imagem):
    """
    Gera uma legenda para a imagem fornecida.
    """
    legenda = pipe(imagem)[0]['generated_text']  # Gera a legenda com o modelo
    return legenda

def processar_imagem_pergunta(imagem, pergunta):
    """
    Processa a imagem e a pergunta, e retorna uma resposta.
    """
    # No momento, usa o modelo de imagem para gerar uma legenda da imagem
    legenda = gerar_legenda(imagem)

    # Resposta
    resposta = f"Com base na imagem, que mostra {legenda}, {pergunta}"
    return resposta

# Criando a interface
iface = gr.Interface(
    fn=processar_imagem_pergunta,
    inputs=[
        gr.Image(type="pil", label="Carregue a Imagem"),  # Entrada para a imagem
        gr.Textbox(label="Digite sua pergunta")  # Entrada para a pergunta
    ],
    outputs=gr.Textbox(label="Resposta"),  # Saída da resposta
    title="Perguntas e Respostas Visuais",  # Título da interface
    description="Carregue uma imagem e faça uma pergunta sobre ela. O modelo tentará responder com base em sua compreensão visual."  # Descrição
)

# Iniciando a interface
iface.launch()

Config of the encoder: <class 'transformers.models.vit.modeling_vit.ViTModel'> is overwritten by shared encoder config: ViTConfig {
  "architectures": [
    "ViTModel"
  ],
  "attention_probs_dropout_prob": 0.0,
  "encoder_stride": 16,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "image_size": 224,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "model_type": "vit",
  "num_attention_heads": 12,
  "num_channels": 3,
  "num_hidden_layers": 12,
  "patch_size": 16,
  "qkv_bias": true,
  "transformers_version": "4.46.2"
}

Config of the decoder: <class 'transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel'> is overwritten by shared decoder config: GPT2Config {
  "activation_function": "gelu_new",
  "add_cross_attention": true,
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": 50256,
  "decoder_start_token_id": 50256,
  "embd_pdrop": 0.1,
  "eos_token_id": 50256,
  "initializer_rang

Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://23e0efc5b3cc98220c.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




2. Criar uma aplicação no HF do modelo visão computacional (tarefa: detecção de
objetos (placa de automóvel)). Escolher um modelo de IA e construir uma aplicação
de acordo com o cartão de modelo. Construir uma interface para aplicação.

In [24]:
# prompt: 2. Criar uma aplicação no HF do modelo visão computacional (tarefa: detecção de
# objetos (placa de automóvel)). Escolher um modelo de IA e construir uma aplicação
# de acordo com o cartão de modelo. Na saida ele retorna a imagem, com a placa do carro CIRCULADA, circule onde a placa esta, circule só a placa, não o carro inteiro

import gradio as gr
from PIL import Image, ImageDraw
from transformers import pipeline

# Substitua pelo seu modelo de detecção de objetos para placas de automóveis
model_name = "hustvl/yolos-tiny"
detector = pipeline("object-detection", model=model_name)

def detect_license_plate(image):
    results = detector(image)
    draw = ImageDraw.Draw(image)

    for result in results:
        if result["label"] == "car" or result["label"] == "license plate": # Adaptar para a label da placa no seu modelo
            xmin, ymin, xmax, ymax = result['box']['xmin'], result['box']['ymin'], result['box']['xmax'], result['box']['ymax']
            draw.rectangle([xmin, ymin, xmax, ymax], outline="red", width=3)  # Circula a placa

    return image


iface = gr.Interface(
    fn=detect_license_plate,
    inputs=gr.Image(type="pil"),
    outputs=gr.Image(type="pil"),
    title="Detecção de Placas de Automóveis",
    description="Carregue uma imagem e o modelo irá circular a placa do carro."
)

iface.launch()

Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://2808daead284ed4ebf.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




3. Criar uma aplicação no HF do modelo processamento de linguagem natural
(tarefa: tradução (token T5)). Escolher um modelo de IA e construir uma aplicação
de acordo com o cartão de modelo. Construir uma interface para aplicação.

In [32]:
import gradio as gr

# Substitua pelo seu token de acesso ao Hugging Face Hub
HUGGINGFACE_API_TOKEN = "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"  # Replace with your token

# Instalar a biblioteca transformers se ainda não estiver instalada
try:
    import transformers
except ImportError:
    !pip install transformers

from transformers import pipeline

import os
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACE_API_TOKEN

# Inicializa o pipeline de tradução (English to Portuguese)
tradutor = pipeline("translation_en_to_pt", model="facebook/m2m100_418M")


def translate_text(texto):
    """Traduz um texto do inglês para o português usando o pipeline do transformers."""
    try:
        resultado = tradutor(texto)
        texto_traduzido = resultado[0]["translation_text"]
        return texto_traduzido
    except Exception as e:
        return f"Ocorreu um erro: {e}"


# Criando nossa interface
iface = gr.Interface(
    fn=translate_text,
    inputs=gr.Textbox(lines=5, placeholder="Digite o texto em inglês"),
    outputs="text",
    title="Tradutor Inglês-Português",
    description="Traduz texto do inglês para o português usando um modelo T5 do Hugging Face.",
)

# Executa a interface
iface.launch()

Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://330425dfbe595f9255.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




4. Criar uma aplicação no HF do modelo áudio (tarefa: reconhecimento automático
de fala). Escolher um modelo de IA e construir uma aplicaç

In [37]:

import gradio as gr
from transformers import pipeline

# Modelo de Reconhecimento de Fala em Português
model_name = "facebook/wav2vec2-large-xlsr-53-portuguese"

#Ele utilizará o pipeline para transcrever o áudio para texto, após isso retornará a transcrição

try:
    asr_pipeline = pipeline("automatic-speech-recognition", model=model_name, device=0 if torch.cuda.is_available() else -1) #Define dispositivo para cuda se disponível
except Exception as e:
    print(f"Erro ao carregar o modelo: {e}")
    asr_pipeline = None


def transcrever_audio(audio):
    if asr_pipeline:
      try:
        transcription = asr_pipeline(audio)
        return transcription["text"]
      except Exception as e:
        return f"Erro na transcrição: {e}"
    else:
      return "Modelo não carregado corretamente. Verifique o nome do modelo e sua instalação."

iface = gr.Interface(
    fn=transcrever_audio,
    inputs=gr.Audio(type="filepath"), # Permite upload de arquivos de áudio
    outputs="text",
    title="Reconhecimento de Fala (Português)",
    description="Faça o upload de um arquivo de áudio em formato MP3 e o modelo irá transcrever o áudio para texto em português.",
)

iface.launch()
# o audio em questão é um meme, onde ele gagueja e o personagem sai do sério por isso sai algumas palavras bizarras kkkkk
# porém se quiser pesquise "Monark - acorda"

config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.26G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/386 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/158 [00:00<?, ?B/s]

Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://b034c8885b9a4546d2.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


