In [None]:
# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Uso de Gemini para recomendar productos según la evaluación de imágenes

<table align="left">
  <td style="text-align: center">
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/retail/multimodal_retail_recommendations.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/colab-logo-32px.png" alt="Google Colaboratory logo"><br> Ejecutar en Colab
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/retail/multimodal_retail_recommendations.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/github-logo-32px.png" alt="GitHub logo"><br> Ver en GitHub
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/use-cases/retail/multimodal_retail_recommendations.ipynb">
      <img src="https://lh3.googleusercontent.com/UiNooY4LUgW_oTvpsNhPpQzsstV5W8F7rYgxgGBD85cWJoLmrOzhVs_ksK_vgx40SHs7jCqkTkCk=e14-rj-sc0xffffff-h130-w32" alt="Vertex AI logo"><br> Abrir en la Vertex AI Workbench
    </a>
  </td>
</table>


## Visión general

Para las empresas minoristas, los sistemas de recomendación mejoran la experiencia del cliente y, por tanto, pueden incrementar las ventas.

Este notebook muestra cómo puede utilizar las capacidades multimodales del modelo Gemini Pro Vision para crear rápidamente un sistema de recomendación multimodal listo para usar.

## Escenario

El cliente muestra su salón:

|Foto del cliente |
|:-----:|
|<img src="https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/rooms/spacejoy-c0JoR_-2x3E-unsplash.jpg" width="80%">  |



A continuación se muestran cuatro opciones de sillas que el cliente intenta decidir al comprar:

|Silla 1| Silla 2 | Silla 3 | silla 4 |
|:-----:|:----:|:-----:|:----:|
| <img src="https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/cesar-couto-OB2F6CsMva8-unsplash.jpg" width="80%">|<img src="https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/daniil-silantev-1P6AnKDw6S8-unsplash.jpg" width="80%">|<img src="https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/ruslan-bardash-4kTbAMRAHtQ-unsplash.jpg" width="80%">|<img src="https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/scopic-ltd-NLlWwR4d3qU-unsplash.jpg" width="80%">|


Aquí tendrás un ejercicio de cómo utilizar `Gemini Pro Vision` para acelerar la solución de este tipo de escenarios.

### Objetivos

Su objetivo principal es aprender a crear un sistema de recomendación que pueda proporcionar recomendaciones y explicaciones utilizando un modelo multimodal: "Gemini Pro Vision".

En este notebook, comenzará con una escena (por ejemplo, una sala de estar) y utilizará el modelo "Gemini Pro Vision" para realizar la comprensión visual. También investigará cómo se puede utilizar el modelo "Gemini Pro Vision" para recomendar un artículo (por ejemplo, una silla) de una lista de muebles como entrada.

En este notebook aprenderás:
- cómo utilizar el modelo "Gemini Pro Vision" para realizar comprensión visual
- cómo tener en cuenta la multimodalidad al pedir el modelo "Gemini Pro Vision"
- cómo se puede utilizar el modelo "Gemini Pro Vision" para crear aplicaciones de recomendación minorista listas para usar

### Costos

Este tutorial utiliza los siguientes componentes de Google Cloud que pueden generar cargos en su factura:

- Vertex AI

Obtenga más información sobre [precios de Vertex AI](https://cloud.google.com/vertex-ai/pricing) y utilice la [calculadora de precios](https://cloud.google.com/products/calculator/) para generar una estimación de costos basada en el uso proyectado.

## Primeros pasos

### Instalar el SDK de Vertex AI
**Importante:** solo descomente la línea a continuación si **no** está ejecutando esta práctica de laboratorio en Qwiklabs

In [None]:
# ! pip3 install --upgrade --user google-cloud-aiplatform

### **Reinicie el kernel de su Jupyter notebook**

Como la instalación se realiza con la opción `--user`, es necesario reiniciar el kernel para que los nuevos módulos sean accesibles.

**Importante:** solo descomente la línea a continuación si **no** está ejecutando esta práctica de laboratorio en Qwiklabs

In [None]:
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

<div class="alert alert-block alert-warning">
<b>⚠️ Se está reiniciando el kernel del notebook. Espere a que se complete este proceso antes de continuar con los siguientes pasos. ⚠️</b>
</div>

### **Solo para uso en Colab: autentique tu notebook**

En caso de que estés ejecutando este notebook en Google Colab, descomente esta celda para realizar la autenticación de tu sesión de notebook con Google Cloud. Este paso es importante **para utilizar no Colab** para garantizar que las API de Google Cloud funcionen Sem problemas.

In [None]:
# import sys

# # Additional authentication is required for Google Colab
# if 'google.colab' in sys.modules:

#     # Authenticate user to Google Cloud
#     from google.colab import auth

#     auth.authenticate_user()

### **Solo para uso en Colab: define el proyecto Google Cloud para ser utilizado**

Si estás ejecutando este notebook en Google Colab, descomente esta celda baja para definir qué proyecto Google Cloud se utilizará en Colab en la ejecución de este notebook.

In [None]:
# if 'google.colab' in sys.modules:

#     # Define project information
#     PROJECT_ID = "[your-project-id]" # @param {type:"string"}
#     LOCATION = "us-central1" # @param {type:"string"}

#     # Initialize Vertex AI
#     import vertexai

#     vertexai.init(project=PROJECT_ID, location=LOCATION)

### Importando las bibliotecas necesarias

In [None]:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 

import warnings
warnings.simplefilter("ignore", UserWarning)

from vertexai.generative_models import GenerativeModel, Image

## Importando el modelo `Gemini 1.0 Pro Vision`

El modelo Gemini Pro Vision `gemini-1.0-pro-vision` es un modelo multimodal que admite agregar imágenes y videos al texto o mensajes de chat para una respuesta de texto.

In [None]:
multimodal_model = GenerativeModel("gemini-1.0-pro-vision")

### Definir algunas funciones auxiliares

Defina funciones auxiliares para cargar y mostrar imágenes.

In [None]:
import http.client
import io
import typing
import urllib.request

import IPython.display
from PIL import Image as PIL_Image
from PIL import ImageOps as PIL_ImageOps

def display_image(image: Image,
                  max_width: int = 600,
                  max_height: int = 350) -> None:
    pil_image = typing.cast(PIL_Image.Image, image._pil_image)
    if pil_image.mode != "RGB":
        # Modes such as RGBA are not yet supported by all Jupyter environments
        pil_image = pil_image.convert("RGB")
    image_width, image_height = pil_image.size
    if max_width < image_width or max_height < image_height:
        # Resize to display a smaller notebook image
        pil_image = PIL_ImageOps.contain(pil_image, (max_width, max_height))
    display_image_compressed(pil_image)


def display_image_compressed(pil_image: PIL_Image.Image) -> None:
    image_io = io.BytesIO()
    pil_image.save(image_io, "jpeg", quality=80, optimize=True)
    image_bytes = image_io.getvalue()
    ipython_image = IPython.display.Image(image_bytes)
    IPython.display.display(ipython_image)


def get_image_bytes_from_url(image_url: str) -> bytes:
    with urllib.request.urlopen(image_url) as response:
        response = typing.cast(http.client.HTTPResponse, response)
        if response.headers["Content-Type"] not in ("image/png", "image/jpeg"):
            raise Exception("Image can only be in PNG or JPEG format")
        image_bytes = response.read()
    return image_bytes


def load_image_from_url(image_url: str) -> Image:
    image_bytes = get_image_bytes_from_url(image_url)
    return Image.from_bytes(image_bytes)


def print_multimodal_prompt(contents: list):
    """
    Given contents that would be sent to Gemini,
    output the full multimodal prompt for ease of readability.
    """
    for content in contents:
        if isinstance(content, Image):
            display_image(content)
        else:
            print(content)

### Comprensión visual con `Gemini 1.0 Pro Vision`

Aquí le pedirás al modelo Gemini Pro Vision que describa detalladamente una habitación a partir de su imagen. Para hacer esto, necesita **combinar texto e imagen en un solo mensaje**.

In [None]:
# urls for room images
room_image_url = "https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/rooms/spacejoy-c0JoR_-2x3E-unsplash.jpg"

# load room images as Image Objects
room_image = load_image_from_url(room_image_url)

prompt = "Describe lo que se ve en esta sala y su atmósfera general:"
contents = [
    prompt,
    room_image,
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

### Generando recomendaciones abiertas basadas en conocimiento integrado

Usando la misma imagen, puedes pedirle al modelo que te recomiende **un mueble** que le quede bien junto con una descripción de la habitación.

Tenga en cuenta que el modelo puede elegir **cualquier mueble** recomendado en este caso, y puede hacerlo desde su único conocimiento integrado.

In [None]:
prompt1 = "Recomendar muebles nuevos para esta habitación:"
prompt2 = "y explica el motivo en detalle"
contents = [
    prompt1,
    room_image,
    prompt2
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

En la siguiente celda, le pedirá al modelo que le recomiende **un tipo de silla** que le quede bien junto con una descripción de la habitación.

Tenga en cuenta que el modelo puede elegir **cualquier tipo de silla** a recomendar en este caso.

In [None]:
prompt1 = "Describe esta habitación:"
prompt2 = "y recomendarle un tipo de silla que se adapte a ella"

contents = [
    prompt1,
    room_image,
    prompt2
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

### Generando recomendaciones basadas en imágenes proporcionadas

En lugar de mantener la recomendación abierta, también puede proporcionar una lista de elementos para que el modelo elija.

Aquí descargará algunas imágenes de sillas y las configurará como opciones para que las recomiende el modelo Gemini. Esto es particularmente útil para empresas minoristas que desean brindar recomendaciones a los usuarios según el tipo de habitación que tienen y los artículos disponibles que ofrece la tienda.

In [None]:
# Download and display sample chairs
furniture_image_urls = [
    "https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/cesar-couto-OB2F6CsMva8-unsplash.jpg",
    "https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/daniil-silantev-1P6AnKDw6S8-unsplash.jpg",
    "https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/ruslan-bardash-4kTbAMRAHtQ-unsplash.jpg",
    "https://storage.googleapis.com/github-repo/img/gemini/retail-recommendations/furnitures/scopic-ltd-NLlWwR4d3qU-unsplash.jpg",
]

# Load furniture images as Image Objects
furniture_images = [load_image_from_url(url) for url in furniture_image_urls]

# To recommend an item from a selection, you will need to label the item number within the prompt.
# That way you are providing the model with a way to reference each image as you pose a question.
# Labelling images within your prompt also help to reduce hallucinations and overall produce better results.
contents = [
"Considere las siguientes sillas:",
     "silla 1:", furniture_images[0],
     "silla 2:", furniture_images[1],
     "silla 3:", furniture_images[2],
     "silla 4:", furniture_images[3],
     "sala de estar:",
     room_image,
     "Eres diseñador de interiores. Para cada silla, explica si sería apropiada o no para el estilo de la habitación. Resume las dos mejores opciones de sillas:",
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

También puedes solicitar la respuesta en un formato específico, como JSON, por ejemplo, para simplificar la integración del modelo de respuesta con cualquier sistema de recomendación existente en tu entorno:

In [None]:
contents = [
     "Considere las siguientes sillas:",
     "silla 1:", furniture_images[0],
     "silla 2:", furniture_images[1],
     "silla 3:", furniture_images[2],
     "silla 4:", furniture_images[3],
     "sala de estar:", room_image,
     "Eres diseñador de interiores. Devuelve en JSON, para cada silla, si sería o no una buena elección para esta sala, incluyendo una explicación de la decisión:",
]

responses = multimodal_model.generate_content(contents, stream=True)

print("-------Prompt--------")
print_multimodal_prompt(contents)

print("\n-------Respuesta--------")
for response in responses:
    print(response.text, end="")

## Conclusión

Este notebook mostró cómo se puede crear fácilmente un sistema de recomendación multimodal utilizando Gemini para dispositivos móviles, pero también se puede utilizar un enfoque similar en:

- recomendar conjuntos basados en una ocasión o imagen de ubicación
- recomendación de fondo de pantalla según la habitación y la configuración

Es posible que también desee explorar cómo puede crear un sistema RAG, donde recupera imágenes relevantes del inventario de su tienda para los usuarios que pueden usar Gemini para ayudar a identificar la opción más ideal entre las diversas opciones proporcionadas y también explicar la lógica a los usuarios. usuarios.