In [None]:
# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Gemini: Una descripción general de los escenarios multimodales

<table align="left">
  <td style="text-align: center">
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/intro_multimodal_use_cases.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/colab-logo-32px.png" alt="Google Colaboratory logo"><br> Ejecutar en Colab
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/intro_multimodal_use_cases.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/github-logo-32px.png" alt="GitHub logo"><br> Ver en GitHub
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/intro_multimodal_use_cases.ipynb">
      <img src="https://lh3.googleusercontent.com/UiNooY4LUgW_oTvpsNhPpQzsstV5W8F7rYgxgGBD85cWJoLmrOzhVs_ksK_vgx40SHs7jCqkTkCk=e14-rj-sc0xffffff-h130-w32" alt="Vertex AI logo"><br> Abrir en Workbench de Vertex AI
    </a>
  </td>
</table>


## Visión General

### Gemini

Gemini es una familia de modelos generativos de IA desarrollados por Google DeepMind y proyectados para casos de uso multimodales. La API Gemini da acceso a los modelos Gemini Pro Vision y Gemini Pro


### API Vertex AI Gemini

La API Vertex AI Gemini nos da una interface unificada para interactuar com modelos Gemini. Actualmente existen dos modelos disponíbles en la API Gemini:


- **Modelo Gemini Pro** (`gemini-pro`): Proyectado para manejar tareas de lenguage natural, chat multiturno de texto y código y generación de código.
- **Modelo Gemini Pro Vision** (`gemini-pro-vision`): Soporta prompts multimodales. Puedes incluir texto, imágenes y video en los prompt y obtener respuestas en texto o código.

Puedes interactuar con la API Gemini usando los siguiente métodos:

- Usando [Vertex AI Studio](https://cloud.google.com/generative-ai-studio) para pruebas rápidos y generación de comandos.
- Usando el SDK de Vertex AI

Este notebook se concntra en el uso de **Vertex AI SDK para Python** para utilizar la API Vertex AI Gemini.

Para obtener más inforción, consulte la documentación [IA Generativa en Vertex AI](https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview).

### Objetivos

Este notebook demuestra una variedad de casos de uso multimodal para los que se puede utilizar Gemini.

#### Casos de uso multimodales

En comparación con los LLM de solo texto, la multimodalidad de Gemini Pro Vision se puede utilizar para muchos casos de uso nuevos:

Ejemplos de casos de uso con **texto e imágenes** como entrada:

- Detectar objetos en fotografías
- Comprender las pantallas y las interfaces
- Comprensión del dibujo y la abstracción.
- Comprender gráficos y diagramas.
- Recomendación de imagen basada en las preferencias del usuario.
- Comparar imágenes en busca de similitudes, anomalías o diferencias.

Ejemplos de casos de uso con **texto y video** como entrada:

- Generando una descripción de video
- Extraer etiquetas de objetos a lo largo de un vídeo
- Extraer momentos destacados/mensajes de un vídeo

### Costos

Este tutorial usa los siguientes componentes de Google Cloud que pueden generar costos en su factura:

- Vertex AI

Para mayores detalles puedes revisar los [precios de Vertex AI](https://cloud.google.com/vertex-ai/pricing) y usar la [calculadora de precios](https://cloud.google.com/products/calculator/) para generar una estimativa de costos con base en el uso del proyecto.

## Primeros pasos


### Instala el SDK de Vertex AI
**Importante:** solo descomente la siguiente línea si **no estas** ejecutando este laboratório en Qwiklabs (Skills Boost).

In [None]:
# ! pip3 install --upgrade --user google-cloud-aiplatform

### **Reinicie el kernel de su jupyter notebook**

Como la instalción está siendo realizada con la opción `--user` es necesario reiniciar el kernel para que los nuevos módulos se tornen accesibles.

**Importante:** solo descomente las siguientes lineas si **não estiver** ejecutando este laboratório en Qwiklabs (Skills Boost).

In [None]:
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

<div class="alert alert-block alert-warning">
<b>⚠️ El kernel del notebook está siendo reiniciado. Por favor espere que este proceso sea finalizado para poder continuar con los próximos pasos. ⚠️</b>
</div>

### **Solamente para uso en Colab - Autentique su ambiente de notebook**

En el caso que estes ejecutando este notebook en un Google Colab, descomenta la siguiente célula para realizar la autenticación de su sesión de notebook con Google Cloud. Este paso es importante **para la utilización del Colab**, asi podemos garantizar que las llamdas a las APIs de Google Cloud funcionen sin problemas.

In [None]:
# import sys

# # Additional authentication is required for Google Colab
# if "google.colab" in sys.modules:
#     # Authenticate user to Google Cloud
#     from google.colab import auth

#     auth.authenticate_user()

### **Solamente para usos en Colab - define el proyecto en Google Cloud que va a ser utilizado**

En el caso que estes ejeccutando este notebook en un Google Colab, descomente la siguiente célula para definir que proyecto en Google Cloud sera utilizado por el Colab en la ejecución de este notebook. De lo contrario, continue con los próximos pasos.

In [None]:
# if "google.colab" in sys.modules:
#     # Define project information
#     PROJECT_ID = "[your-project-id]"  # @param {type:"string"}
#     LOCATION = "us-central1"  # @param {type:"string"}

#     # Initialize Vertex AI
#     import vertexai

#     vertexai.init(project=PROJECT_ID, location=LOCATION)

### Importe las bibliotecas necesarias

In [None]:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

import warnings
warnings.simplefilter("ignore", UserWarning)

from vertexai.generative_models import (
    GenerationConfig,
    GenerativeModel,
    Image,
    Part,
)

## Importe el modelo `Gemini 1.0 Pro Vision`

Gemini Pro Vision (`gemini-1.0-pro-vision`) es un modelo multimodal que admite indicaciones multimodales. Puede incluir texto, imágenes y videos en sus solicitudes de avisos y obtener respuestas en texto o código.

In [None]:
multimodal_model = GenerativeModel("gemini-1.0-pro-vision")

### Define algunas funciones auxiliares

Define funciones auxiliares para cargar y mostrar imágenes.

In [None]:
import http.client
import typing
import urllib.request

import IPython.display
from PIL import Image as PIL_Image
from PIL import ImageOps as PIL_ImageOps


def display_images(
    images: typing.Iterable[Image],
    max_width: int = 600,
    max_height: int = 350,
) -> None:
    for image in images:
        pil_image = typing.cast(PIL_Image.Image, image._pil_image)
        if pil_image.mode != "RGB":
            # RGB is supported by all Jupyter environments (e.g. RGBA is not yet)
            pil_image = pil_image.convert("RGB")
        image_width, image_height = pil_image.size
        if max_width < image_width or max_height < image_height:
            # Resize to display a smaller notebook image
            pil_image = PIL_ImageOps.contain(pil_image, (max_width, max_height))
        IPython.display.display(pil_image)


def get_image_bytes_from_url(image_url: str) -> bytes:
    with urllib.request.urlopen(image_url) as response:
        response = typing.cast(http.client.HTTPResponse, response)
        image_bytes = response.read()
    return image_bytes


def load_image_from_url(image_url: str) -> Image:
    image_bytes = get_image_bytes_from_url(image_url)
    return Image.from_bytes(image_bytes)


def display_content_as_image(content: str | Image | Part) -> bool:
    if not isinstance(content, Image):
        return False
    display_images([content])
    return True


def display_content_as_video(content: str | Image | Part) -> bool:
    if not isinstance(content, Part):
        return False
    part = typing.cast(Part, content)
    file_path = part.file_data.file_uri.removeprefix("gs://")
    video_url = f"https://storage.googleapis.com/{file_path}"
    IPython.display.display(IPython.display.Video(video_url, width=600))
    return True


def print_multimodal_prompt(contents: list[str | Image | Part]):
    """
    Given contents that would be sent to Gemini,
    output the full multimodal prompt for ease of readability.
    """
    for content in contents:
        if display_content_as_image(content):
            continue
        if display_content_as_video(content):
            continue
        print(content)

## Comprender el contexto en varias imágenes

Una de las capacidades de Gemini es poder razonar a través de múltiples imágenes.

Aquí hay un ejemplo del uso de Gemini para calcular el costo total de los alimentos usando una imagen de frutas y una lista de precios:

In [None]:
image_grocery_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/banana-apple.jpg"
image_prices_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/pricelist.jpg"
image_grocery = load_image_from_url(image_grocery_url)
image_prices = load_image_from_url(image_prices_url)

instructions = "Instrucciones: Considere la siguiente imagen que contiene frutas.:"
prompt1 = "¿Cuánto pagaré por las frutas considerando esta lista de precios?"
prompt2 = """
Responda la pregunta a través de estos pasos:
Paso 1: Identifica qué tipo de fruta hay en la primera imagen.
Paso 2: Cuenta la cantidad de cada fruta.
Paso 3: Para cada artículo en la primera imagen, verifique el precio del artículo en la tabla de precios.
Paso 4: Calcula el precio subtotal de cada tipo de fruta.
Paso 5: Calcula el precio total de las frutas usando los subtotales.
Paso 6: si pago con un billete de 20 reales, ¿cuánto cambio recibiré?

Responda y describa los pasos seguidos:"""

contents = [
    instructions,
    image_grocery,
    prompt1,
    image_prices,
    prompt2,
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Comprender las pantallas y las interfaces

Gemini también puede extraer información de las pantallas de los dispositivos, interfaces de usuario, capturas de pantalla, íconos y diseños.

Por ejemplo, si ingresa una imagen de una estufa, puede pedirle a Gemini que proporcione instrucciones para ayudar al usuario a navegar por la interfaz y responder en diferentes idiomas:

In [None]:
image_stove_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/stove.jpg"
image_stove = load_image_from_url(image_stove_url)

prompt = """¿Cómo puedo configurar el reloj en este dispositivo?
Si las instrucciones incluyen botones, explique también dónde están ubicados físicamente esos botones.
Proporcionar tres versiones de instrucciones: en portugués, inglés y francés.
"""

contents = [image_stove, prompt]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

**Nota:** Es posible que la respuesta no sea del todo precisa, ya que el modelo puede estar alucinando; sin embargo, el modelo es capaz de identificar la ubicación de los botones y traducirla en una única consulta. Para mitigar las alucinaciones, un enfoque es fundamentar el LLM con técnicas como RAG, que está fuera del alcance de este notebook.

## Comprensión de las relaciones entre entidades en diagramas técnicos

Gemini tiene capacidades multimodales que le permiten comprender diagramas y realizar pasos prácticos como optimización o generación de código. Este ejemplo demuestra cómo Gemini puede descifrar un diagrama de entidad-relación (ER), comprender las relaciones entre tablas, identificar requisitos de optimización en un entorno específico como BigQuery e incluso generar el código correspondiente.

In [None]:
image_er_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/er.png"
image_er = load_image_from_url(image_er_url)

prompt = "Documente las entidades y relaciones en este diagrama de entidad-relación (DER)."

contents = [prompt, image_er]

# Use a more deterministic configuration with a low temperature
generation_config = GenerationConfig(
    temperature=0.1,
    top_p=0.8,
    top_k=40,
    candidate_count=1,
    max_output_tokens=2048,
)

responses = multimodal_model.generate_content(
    contents,
    generation_config=generation_config,
    stream=True,
)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Recomendaciones basadas en múltiples imágenes.

Gemini puede comparar imágenes y proporcionar recomendaciones. Esto puede resultar útil en sectores como el comercio electrónico y el comercio minorista.

A continuación se muestra un ejemplo de cómo elegir qué par de gafas serían las más adecuadas para una cara ovalada:

In [None]:
image_glasses1_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/glasses1.jpg"
image_glasses2_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/glasses2.jpg"
image_glasses1 = load_image_from_url(image_glasses1_url)
image_glasses2 = load_image_from_url(image_glasses2_url)

prompt1 = """
¿Cuál de estas gafas me recomiendas según la forma de mi cara?
Tengo una cara ovalada.
----
Gafas 1:
"""
prompt2 = """
----
Gafas 2:
"""
prompt3 = """
----
Explica cómo tomas esta decisión.
Proporcione su recomendación según la forma de mi cara y el razonamiento para cada una.
Proporcione la respuesta en formato JSON.
"""

contents = [prompt1, image_glasses1, prompt2, image_glasses2, prompt3]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Similitudes y diferencias

Los modelos Géminis pueden comparar imágenes e identificar similitudes o diferencias entre objetos.

El siguiente ejemplo muestra dos escenas de Marienplatz en Munich, Alemania, que son ligeramente diferentes. Géminis puede comparar imágenes y encontrar similitudes/diferencias:

In [None]:
image_landmark1_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/landmark1.jpg"
image_landmark2_url = "https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/landmark2.jpg"
image_landmark1 = load_image_from_url(image_landmark1_url)
image_landmark2 = load_image_from_url(image_landmark2_url)

prompt1 = """
Considere las siguientes imágenes:
Imagen 1:
"""
prompt2 = """
Imagen 2:
"""
prompt3 = """
Responde las siguientes preguntas en una frase corta.

1. ¿Qué se muestra en la Imagen 1?
2. ¿En qué se parecen las dos imágenes?
3. ¿Cuál es la diferencia entre la Imagen 1 y la Imagen 2 en términos de contenido o personas mostradas?"""

contents = [prompt1, image_landmark1, prompt2, image_landmark2, prompt3]

generation_config = GenerationConfig(
    temperature=0.0,
    top_p=0.2,
    top_k=40,
    candidate_count=1,
    max_output_tokens=2048,
)

responses = multimodal_model.generate_content(
    contents,
    generation_config=generation_config,
    stream=True,
)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Generando una descripción de video

Gemini también puede extraer etiquetas de un vídeo:

> Video: https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/mediterraneansea.mp4

In [None]:
prompt = """
¿Qué se muestra en este vídeo?
¿Dónde debería ir para ver esto?
¿Cuáles son otros 5 lugares en el mundo que se parecen a este?
"""

video = Part.from_uri(
    uri="gs://github-repo/img/gemini/multimodality_usecases_overview/mediterraneansea.mp4",
    mime_type="video/mp4",
)
contents = [prompt, video]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

> Puede confirmar que la ubicación es Antalya, Turquía, visitando la página de Wikipedia: https://en.wikipedia.org/wiki/Antalya

## Extraer etiquetas de objetos a lo largo del vídeo

Gemini también puede extraer etiquetas de un vídeo.

> Video: https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/photography.mp4

In [None]:
prompt = """
Responde las siguientes preguntas usando solo el video:
- ¿Qué hay en el vídeo?
- ¿Cuál es la acción en el video?
- ¿Proporcionas las 10 etiquetas principales para este vídeo?
"""

video = Part.from_uri(
    uri="gs://github-repo/img/gemini/multimodality_usecases_overview/photography.mp4",
    mime_type="video/mp4",
)
contents = [prompt, video]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Hacer más preguntas sobre un vídeo

A continuación se muestra otro ejemplo para usar con Gemini en este escenario de preguntas en video.

> Video: https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/pixel8.mp4
> _Nota: Aunque este video contiene audio, Gemini actualmente no admite entrada de audio y solo responderá según el video._

In [None]:
prompt = """
Responde las siguientes preguntas usando solo el video:
¿Cuál es la profesión de la persona principal?
¿Cuáles son las principales características del teléfono destacadas?
¿En qué ciudad se registró esto?
Proporcione la respuesta JSON.
"""

video = Part.from_uri(
    uri="gs://github-repo/img/gemini/multimodality_usecases_overview/pixel8.mp4",
    mime_type="video/mp4",
)
contents = [prompt, video]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Recuperar información adicional más allá del vídeo

> Video: https://storage.googleapis.com/github-repo/img/gemini/multimodality_usecases_overview/ottawatrain3.mp4


In [None]:
prompt = """
¿Qué línea es esta?
¿a dónde va esto?
¿Cuáles son las estaciones/paradas?
"""
video = Part.from_uri(
    uri="gs://github-repo/img/gemini/multimodality_usecases_overview/ottawatrain3.mp4",
    mime_type="video/mp4",
)
contents = [prompt, video]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

> Puedes confirmar que esta es efectivamente la Línea Confederada en Wikipedia aquí: https://en.wikipedia.org/wiki/Confederation_Line