# 1.3 - Google Vision

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/goole_ai.png" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Vision" data-toc-modified-id="1---Vision-1">1 - Vision</a></span></li><li><span><a href="#2---Importar-API-Key-y-librería" data-toc-modified-id="2---Importar-API-Key-y-librería-2">2 - Importar API Key y librería</a></span></li><li><span><a href="#3---Imágenes-disponibles" data-toc-modified-id="3---Imágenes-disponibles-3">3 - Imágenes disponibles</a></span></li><li><span><a href="#4---Subida-de-imágenes" data-toc-modified-id="4---Subida-de-imágenes-4">4 - Subida de imágenes</a></span></li><li><span><a href="#5---Uso-del-modelo-con-imágenes" data-toc-modified-id="5---Uso-del-modelo-con-imágenes-5">5 - Uso del modelo con imágenes</a></span></li><li><span><a href="#6---Video" data-toc-modified-id="6---Video-6">6 - Video</a></span></li></ul></div>

## 1 - Vision

Gemini 1.5 Pro y 1.5 Flash admiten un máximo de 3600 archivos de imagen.

Las imágenes deben estar en uno de los siguientes tipos de MIME de datos de imagen:

+ PNG - image/png
+ JPEG - image/jpeg
+ WEBP: image/webp
+ HEIC: image/heic
+ HEIF: image/heif

Cada imagen equivale a 258 tokens.

Si bien no existen límites específicos para la cantidad de píxeles en una imagen, la ventana de contexto del modelo, las imágenes más grandes se reducen al máximo resolución de 3072 x 3072 sin perder la relación de aspecto original, mientras las imágenes más pequeñas se ajustan a 768 x 768 píxeles. No se reducen los costos en el caso de imágenes de menor tamaño, que no sean el ancho de banda o una mejora en el rendimiento para imágenes con mayor resolución.

Para lograr resultados óptimos, haz lo siguiente:

Rota las imágenes a la orientación correcta antes de subirlas.
Evita las imágenes borrosas.
Si usas una sola imagen, coloca la instrucción de texto después de la imagen.


## 2 - Importar API Key y librería

In [1]:
# importamos la API KEY 

import os                           # libreria del sistema operativo
from dotenv import load_dotenv      # carga variables de entorno 


load_dotenv()

GOOGLE_AI_API_KEY = os.getenv('GOOGLE_AI_API_KEY')

In [2]:
import google.generativeai as genai

genai.configure(api_key=GOOGLE_AI_API_KEY)

## 3 - Imágenes disponibles

In [3]:
os.listdir('../../images')[-3:]

['triangulo.png', 'software_install.webp', 'in_case_of_fire.png']

## 4 - Subida de imágenes

In [4]:
ruta = '../../images/triangulo.png'

In [5]:
imagen = genai.upload_file(ruta)

I0000 00:00:1732547544.414424 11895909 check_gcp_environment_no_op.cc:29] ALTS: Platforms other than Linux and Windows are not supported


## 5 - Uso del modelo con imágenes

In [6]:
# nombre del modelo

modelo = 'gemini-1.5-flash'

In [7]:
# inicializamos el LLM

llm = genai.GenerativeModel(modelo)

In [8]:
# pregunta del usuario

prompt = 'Calcula el area del triangulo'

In [9]:
# llamada al modelo

respuesta = llm.generate_content([prompt, imagen])

I0000 00:00:1732547548.281514 11895909 check_gcp_environment_no_op.cc:29] ALTS: Platforms other than Linux and Windows are not supported


In [10]:
# respuesta

texto = respuesta.to_dict()['candidates'][0]['content']['parts'][0]['text']

print(texto)

El área de un triángulo se calcula con la fórmula:

Área = (base * altura) / 2

En este triángulo, la base es 9 y la altura (la línea vertical del vértice superior al punto medio de la base) no está dada directamente.  Para hallarla, podemos usar la fórmula de Herón o dividir el triángulo en dos triángulos más pequeños.

**Método usando dos triángulos más pequeños:**

El triángulo grande está dividido en dos triángulos iguales.  Consideremos uno de ellos:

* Base = 4.5 (9/2)
* Hipotenusa = 6

Podemos usar el teorema de Pitágoras para hallar la altura (h):

h² + 4.5² = 6²
h² + 20.25 = 36
h² = 15.75
h = √15.75 ≈ 3.97

Área de un triángulo pequeño = (4.5 * 3.97) / 2 ≈ 8.96

Área del triángulo grande = 2 * 8.96 ≈ 17.92


**Por lo tanto, el área aproximada del triángulo es 17.92 unidades cuadradas.**  Ten en cuenta que esta es una aproximación debido al redondeo en el cálculo de la altura.  La precisión depende de la precisión de las medidas del dibujo original.



## 6 - Video

Gemini 1.5 Pro y Flash admiten hasta una hora de datos de video aproximadamente.

El video debe estar en uno de los siguientes tipos MIME de formato de video:

+ video/mp4
+ video/mpeg
+ video/mov
+ video/avi
+ video/x-flv
+ video/mpg
+ video/webm
+ video/wmv
+ video/3gpp


El servicio File API extrae fotogramas de imágenes de los videos a 1 fotograma por segundo (FPS) y audio a 1 Kbps, un solo canal, agregando marcas de tiempo cada segundo. Estas tasas están sujetas a cambios en el futuro por las mejoras en la inferencia.

In [11]:
os.listdir('../../files')

['Shibuya Tokio viendo gente pasar.mp4',
 'tts_audio.wav',
 'cookbook_recipes_nlg_10k.csv',
 'sensor.xls',
 'language_models_are_unsupervised_multitask_learners.pdf',
 'transcripcion.srt',
 '.DS_Store',
 'How AI Could Empower Any Business | Andrew Ng | TED.srt',
 'salida.mp3',
 'publications.sql',
 'Matematicas_Basicas2023.pdf',
 'jazz_sample.wav',
 'asturias_viajeros_por_franja_horaria.csv',
 'Casiopea - Looking UpDr SoloBass Solo Live 1985.mp4',
 'Will AI kill everyone Heres what the godfathers of AI have to say.mp4',
 'Shibuya_contorno.avi',
 'subtitulos.srt',
 'airbnb.csv',
 'fonts',
 'shark.gif',
 'state_of_the_union.txt',
 'shakespeare.txt',
 'Es posible que una IA.m4a',
 'retail.json',
 'J.A.M_SOIL & "PIMP" SESSIONS']

In [12]:
ruta = '../../files/Shibuya Tokio viendo gente pasar.mp4'

video = genai.upload_file(ruta)

In [13]:
# checkear subida del video, esperar hasta que este procesado

import time

while video.state.name == 'PROCESSING':
    print('.', end='')
    time.sleep(10)
    video = genai.get_file(video.name)

if video.state.name == 'FAILED':
  raise ValueError(video.state.name)

.

In [14]:
prompt = 'Describe this video.'

respuesta = llm.generate_content([prompt, video])

texto = respuesta.to_dict()['candidates'][0]['content']['parts'][0]['text']

print(texto)

Here is a description of the video.

The video shows a bustling street scene at night in a Japanese city. The camera pans across a busy street corner, and there are many people walking by in different directions. 


The street is lined with brightly lit buildings, and many shops are visible, including a large electronics store with a prominent sign. 


Several groups of young people are seen in school uniforms, as well as many others dressed in casual clothing. 


A man in a wheelchair is also shown passing by, and he receives some attention from the people around him. 


The video shows various people interacting with each other, but mostly it focuses on the flow of pedestrian traffic and the vibrant atmosphere of the street at night.  Japanese speech is heard throughout the video.
