# Instalação do "google-genai" e importação da Chave API do Google AI Studio

In [None]:
!pip install google-genai
import os
from google.colab import userdata

os.environ['GOOGLE_API_KEY'] = userdata.get('GOOGLE_API_KEY')



# Tradução da imagem para o texto (Inglês)

In [None]:
from transformers import pipeline
from PIL import Image

# Carrega o pipeline de legenda de imagens (o modelo padrão é "nlpconnect/vit-gpt2-image-captioning")
image_to_text = pipeline("image-to-text")

# Carrega a imagem que você quer descrever
image_path = "ambiente.jpg"  # Substitua pelo caminho da sua imagem
image = Image.open(image_path)

# Gera a legenda da imagem
description = image_to_text(image)[0]['generated_text']

print(f"Descrição da imagem: {description}")

No model was supplied, defaulted to ydshieh/vit-gpt2-coco-en and revision 5bebf1e (https://huggingface.co/ydshieh/vit-gpt2-coco-en).
Using a pipeline without specifying a model name and revision in production is not recommended.
Config of the encoder: <class 'transformers.models.vit.modeling_vit.ViTModel'> is overwritten by shared encoder config: ViTConfig {
  "architectures": [
    "ViTModel"
  ],
  "attention_probs_dropout_prob": 0.0,
  "encoder_stride": 16,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "image_size": 224,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "model_type": "vit",
  "num_attention_heads": 12,
  "num_channels": 3,
  "num_hidden_layers": 12,
  "patch_size": 16,
  "pooler_act": "tanh",
  "pooler_output_size": 768,
  "qkv_bias": true,
  "torch_dtype": "float32",
  "transformers_version": "4.51.3"
}

Config of the decoder: <class 'transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel'> is ove

Descrição da imagem: a river with a lake and trees 


#

# Tradução da imagem para o texto (Português)

In [7]:
!pip install --upgrade googletrans==4.0.0-rc1 httpx httpcore

from transformers import pipeline
from PIL import Image
from googletrans import Translator

# Carrega o pipeline de legenda de imagens (geralmente em inglês)
image_to_text = pipeline("image-to-text")

# Inicializa o tradutor
translator = Translator()

# Carrega a imagem que você quer descrever
image_path = "ambiente.jpg"  # Substitua pelo caminho da sua imagem
image = Image.open(image_path)

# Gera a legenda da imagem (em inglês)
description_en = image_to_text(image)[0]['generated_text']
print(f"Descrição em inglês: {description_en}")

# Traduz a descrição do inglês para o português
translation = translator.translate(description_en, dest='pt')
description_pt = translation.text

print(f"Descrição traduzida para português: {description_pt}")

Collecting httpx
  Using cached httpx-0.28.1-py3-none-any.whl.metadata (7.1 kB)
Collecting httpcore
  Using cached httpcore-1.0.9-py3-none-any.whl.metadata (21 kB)


No model was supplied, defaulted to ydshieh/vit-gpt2-coco-en and revision 5bebf1e (https://huggingface.co/ydshieh/vit-gpt2-coco-en).
Using a pipeline without specifying a model name and revision in production is not recommended.
Config of the encoder: <class 'transformers.models.vit.modeling_vit.ViTModel'> is overwritten by shared encoder config: ViTConfig {
  "architectures": [
    "ViTModel"
  ],
  "attention_probs_dropout_prob": 0.0,
  "encoder_stride": 16,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "image_size": 224,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "model_type": "vit",
  "num_attention_heads": 12,
  "num_channels": 3,
  "num_hidden_layers": 12,
  "patch_size": 16,
  "pooler_act": "tanh",
  "pooler_output_size": 768,
  "qkv_bias": true,
  "torch_dtype": "float32",
  "transformers_version": "4.51.3"
}

Config of the decoder: <class 'transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel'> is ove

Descrição em inglês: a river with a lake and trees 
Descrição traduzida para português: um rio com um lago e árvores


# Utilização do BLIP (Bootstrapping Language-Image Pre-training) para uma descrição mais precisa e relevante

In [None]:
import os
from transformers import pipeline
from PIL import Image

# Especificando um modelo BLIP
image_to_text_blip = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")

# Substitua pelo caminho correto da sua imagem. Exemplo:
# Se a imagem estiver em uma pasta chamada 'images' no mesmo diretório:
# image_path = os.path.join("images", "imagem_tradutor.png")

# Se a imagem estiver em um caminho absoluto:
image_path = "/content/ambiente.jpg" # Exemplo de caminho absoluto no Colab

# Adicione estas linhas para verificar o diretório atual e listar arquivos
print(f"Current working directory: {os.getcwd()}")
print(f"Files in current directory: {os.listdir()}")

# Adiciona esta verificação antes de tentar abrir o arquivo
if not os.path.exists(image_path):
    print(f"Erro: O arquivo de imagem não foi encontrado em {image_path}")
    # Você pode adicionar aqui código para fazer upload do arquivo ou sair
else:
    try:
        image = Image.open(image_path)
        description_blip = image_to_text_blip(image)[0]['generated_text']
        print(f"Descrição com BLIP: {description_blip}")
    except Exception as e:
        print(f"Ocorreu um erro ao processar a imagem: {e}")


Device set to use cpu


Current working directory: /content
Files in current directory: ['.config', 'imagem_tradutor.jpg', 'ambiente.jpg', 'sample_data']
Descrição com BLIP: a view of a lake with a few yellow flowers in the foreground


# Tradução da imagem para áudio (.mp3) utilizando o gTTS (Google Text-to-Speech) (Inglês)

In [None]:
!pip install gtts
from gtts import gTTS
from transformers import pipeline
from PIL import Image
import os
from IPython.display import Audio # Import Audio from IPython.display

# Carrega o pipeline de legenda de imagens
image_to_text = pipeline("image-to-text")

# Carrega a imagem
image_path = "imagem_tradutor.jpg"  # Substitua pelo caminho da sua imagem
image = Image.open(image_path)

# Gera a descrição da imagem
description = image_to_text(image)[0]['generated_text']
print(f"Descrição da imagem: {description}")

# Cria um objeto gTTS
tts = gTTS(text=description, lang='pt')  # Define o idioma para português brasileiro

# Salva o áudio em um arquivo temporário
audio_file = "temp_audio.mp3"
tts.save(audio_file)

# Reproduz o áudio usando IPython.display.Audio
# This will display an audio player in the notebook output
display(Audio(audio_file, autoplay=True))

# Remove o arquivo temporário (optional, you might want to keep it)
# os.remove(audio_file)



No model was supplied, defaulted to ydshieh/vit-gpt2-coco-en and revision 5bebf1e (https://huggingface.co/ydshieh/vit-gpt2-coco-en).
Using a pipeline without specifying a model name and revision in production is not recommended.
Config of the encoder: <class 'transformers.models.vit.modeling_vit.ViTModel'> is overwritten by shared encoder config: ViTConfig {
  "architectures": [
    "ViTModel"
  ],
  "attention_probs_dropout_prob": 0.0,
  "encoder_stride": 16,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "image_size": 224,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "model_type": "vit",
  "num_attention_heads": 12,
  "num_channels": 3,
  "num_hidden_layers": 12,
  "patch_size": 16,
  "pooler_act": "tanh",
  "pooler_output_size": 768,
  "qkv_bias": true,
  "torch_dtype": "float32",
  "transformers_version": "4.51.3"
}

Config of the decoder: <class 'transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel'> is ove

Descrição da imagem: a woman with a red hair and a blue eye 


# Tradução da imagem para áudio (.mp3) utilizando o gTTS (Google Text-to-Speech) (Português)

In [5]:
!pip install --upgrade googletrans==4.0.0-rc1 httpx httpcore
from transformers import pipeline
from PIL import Image
from googletrans import Translator
from gtts import gTTS
# from playsound import playsound # Remove playsound import
import os
from IPython.display import Audio, display # Import Audio and display

# Carrega o pipeline de legenda de imagens (geralmente em inglês)
image_to_text_en = pipeline("image-to-text")

# Inicializa o tradutor
translator = Translator()

# Carrega a imagem
image_path = "ambiente.jpg"
image = Image.open(image_path)

# Gera a descrição em inglês
description_en = image_to_text_en(image)[0]['generated_text']
print(f"Descrição em inglês: {description_en}")

# Traduz para português
translation = translator.translate(description_en, dest='pt')
description_pt = translation.text
print(f"Descrição traduzida para português: {description_pt}")

# Cria o áudio em português
tts_pt = gTTS(text=description_pt, lang='pt')
audio_file_pt = "temp_audio_pt.mp3"
tts_pt.save(audio_file_pt)

# Reproduz o áudio usando IPython.display.Audio
display(Audio(audio_file_pt, autoplay=True))

# Remove o arquivo temporário (optional, you might want to keep it)
# os.remove(audio_file_pt)

Collecting httpx
  Using cached httpx-0.28.1-py3-none-any.whl.metadata (7.1 kB)
Collecting httpcore
  Using cached httpcore-1.0.9-py3-none-any.whl.metadata (21 kB)


No model was supplied, defaulted to ydshieh/vit-gpt2-coco-en and revision 5bebf1e (https://huggingface.co/ydshieh/vit-gpt2-coco-en).
Using a pipeline without specifying a model name and revision in production is not recommended.
Config of the encoder: <class 'transformers.models.vit.modeling_vit.ViTModel'> is overwritten by shared encoder config: ViTConfig {
  "architectures": [
    "ViTModel"
  ],
  "attention_probs_dropout_prob": 0.0,
  "encoder_stride": 16,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "hidden_size": 768,
  "image_size": 224,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "model_type": "vit",
  "num_attention_heads": 12,
  "num_channels": 3,
  "num_hidden_layers": 12,
  "patch_size": 16,
  "pooler_act": "tanh",
  "pooler_output_size": 768,
  "qkv_bias": true,
  "torch_dtype": "float32",
  "transformers_version": "4.51.3"
}

Config of the decoder: <class 'transformers.models.gpt2.modeling_gpt2.GPT2LMHeadModel'> is ove

Descrição em inglês: a river with a lake and trees 
Descrição traduzida para português: um rio com um lago e árvores
