# AUDIOS con Gemini

## Importaciones

In [1]:
import os, time
from dotenv import load_dotenv
import google.generativeai as genai #specific provider library
from IPython.display import Markdown
import pathlib

## Clave de la API

In [2]:
# Cargamos las variables de entorno desde .env e inicialiÇzamos la constante API_KEY
load_dotenv(override=True)
API_KEY = os.getenv('GEMINI_API_KEY') #si se llama así, no hace falta introducirla en el constructor de OpenAI

if not API_KEY:
    print("ERROR: No se ha encontrado la clave de la API")
else:
    print("Se ha encontrado la clave de la API correctamente")

Se ha encontrado la clave de la API correctamente


## Iniciación

In [3]:
MODEL_NAME = "gemini-1.5-flash"
genai.configure(api_key=API_KEY) 

In [4]:
system_prompt = "Utiliza un tono simpático"
#system_prompt = "Utiliza un tono enfadado"

In [5]:
model = genai.GenerativeModel(
    model_name = MODEL_NAME,
    system_instruction = system_prompt,
    generation_config = genai.GenerationConfig(
        #max_output_tokens = 1000,
        #temperature = 0.1,
    ),
)


## Un audio en la API de File

In [6]:
audio = "recursos/turnedo.mp3"
audio_file = genai.upload_file(path=audio)

In [7]:
print(audio_file)

genai.File({
    'name': 'files/a4ctr160ktew',
    'display_name': 'turnedo.mp3',
    'mime_type': 'audio/mpeg',
    'sha256_hash': 'NGIxZTA0YTlhMTViNWI0YTRhZmYyNjQwOGQwOWEyMTliYjg2NjIzZDRlNjEwOGJiYTQ3MzFiZDA4MDljMjYyNw==',
    'size_bytes': '3400651',
    'state': 'ACTIVE',
    'uri': 'https://generativelanguage.googleapis.com/v1beta/files/a4ctr160ktew',
    'create_time': '2025-02-09T13:55:58.291316Z',
    'expiration_time': '2025-02-11T13:55:58.236302876Z',
    'update_time': '2025-02-09T13:55:58.291316Z'})


In [8]:
while audio_file.state.name == "PROCESSING":
    print('.', end='')
    time.sleep(10)
    audio_file = genai.get_file(audio_file.name)

if audio_file.state.name == "FAILED":
  raise ValueError(audio_file.state.name)

In [9]:
user_prompt = "Por favor, dime una transcripción del audio"

In [10]:
response = model.generate_content(
    [user_prompt, audio_file],
    request_options={"timeout": 10},
)

In [11]:
print(response.text)

Claro que sí. Aquí tienes la transcripción:

Desde aquí, desde mi casa, veo la playa vacía. Ya lo estaba hace dos días. Ahora está llena de lluvia. Tú sigues sin paraguas, sin tu ropa, paseando como una tarde de Julio, pero con frío y tronando. ¿Se puede saber qué esperas? Que te mire y que te seque, que te vea y que me quede. Tomando la luna juntos, la luna tú y expectantes a que pase algún cometa o algún platillo volante.

Y la playa llora y llora y desde mi casa grito. Aunque pienso en abrazarte, aunque pienso en ir contigo. El doctor me recomienda que no me quite mi abrigo. No esté jamás contigo. Yo no puedo negarme, pues el tipo soy yo mismo estudiando trastornos y aún repaso las lecciones una a una cada día. Yo no puedo aconsejarte, es muy duro lo que llevo. Dejemos que corra el aire, y digamos adiós.

Aunque sigas suspirando por algo que no era cierto, me lo dicen en los bares. Es algo que llevas dentro. Que no quieres que te quiera, sólo quieres que te abrace. Y pilicas que no 

In [12]:
Markdown(response.text)

Claro que sí. Aquí tienes la transcripción:

Desde aquí, desde mi casa, veo la playa vacía. Ya lo estaba hace dos días. Ahora está llena de lluvia. Tú sigues sin paraguas, sin tu ropa, paseando como una tarde de Julio, pero con frío y tronando. ¿Se puede saber qué esperas? Que te mire y que te seque, que te vea y que me quede. Tomando la luna juntos, la luna tú y expectantes a que pase algún cometa o algún platillo volante.

Y la playa llora y llora y desde mi casa grito. Aunque pienso en abrazarte, aunque pienso en ir contigo. El doctor me recomienda que no me quite mi abrigo. No esté jamás contigo. Yo no puedo negarme, pues el tipo soy yo mismo estudiando trastornos y aún repaso las lecciones una a una cada día. Yo no puedo aconsejarte, es muy duro lo que llevo. Dejemos que corra el aire, y digamos adiós.

Aunque sigas suspirando por algo que no era cierto, me lo dicen en los bares. Es algo que llevas dentro. Que no quieres que te quiera, sólo quieres que te abrace. Y pilicas que no tuve ni el valor para quedarme. Yo rompí todas tus fotos. Tú no dejas de llamarme. Quien no tiene valor para marcharse, quien no tiene valor para marcharse, quien no tiene valor para marcharse. Quien prefiere quedarse y aguantar, marcharse y aguantar.


In [13]:
user_prompt = "¿Cuántas personas están cantando?"

In [14]:
response = model.generate_content(
    [user_prompt, audio_file],
    request_options={"timeout": 10},
)

In [15]:
print(response.text)

¡Claro que sí! Suena como si hubiera dos personas cantando en esta grabación. Una voz principal y una voz de acompañamiento o armonía.  Espero que esto ayude.



In [16]:
user_prompt = "¿Sobre qué trata la canción?"

In [17]:
response = model.generate_content(
    [user_prompt, audio_file],
    request_options={"timeout": 10},
)

In [18]:
print(response.text)

Claro que sí. La canción trata sobre una relación que está terminando o que ya terminó. El cantante observa la playa vacía desde su casa, una metáfora de la relación. Él se imagina a su pareja allí, caminando bajo la lluvia, como si fuera una tarde de verano, pero con frío, lo que refleja su estado de ánimo.

El cantante desea consolar a su pareja, que está sufriendo, y anhela estar con ella, tomar la luna juntos, pero el frío y la lluvia simbolizan las dificultades de la situación. Hay una sensación de impotencia e incertidumbre.

En la segunda parte de la canción se refuerza la idea de un amor que no funciona, aunque haya deseos por parte de ambos de estar juntos, y un anhelo por la pareja que no se concreta. El cantante expresa la impotencia de no poder hacer nada, mientras que la persona amada no tiene el valor de marcharse.  Es una canción melancólica que habla de la tristeza y la frustración ante un amor que se desvanece.



In [19]:
print(model.count_tokens([audio_file]))

total_tokens: 6807



## Ver archivos subidos a la plataforma

In [20]:
for f in genai.list_files():
    print("  ", f)

   genai.File({
    'name': 'files/a4ctr160ktew',
    'display_name': 'turnedo.mp3',
    'mime_type': 'audio/mpeg',
    'sha256_hash': 'NGIxZTA0YTlhMTViNWI0YTRhZmYyNjQwOGQwOWEyMTliYjg2NjIzZDRlNjEwOGJiYTQ3MzFiZDA4MDljMjYyNw==',
    'size_bytes': '3400651',
    'state': 'ACTIVE',
    'uri': 'https://generativelanguage.googleapis.com/v1beta/files/a4ctr160ktew',
    'create_time': '2025-02-09T13:55:58.291316Z',
    'expiration_time': '2025-02-11T13:55:58.236302876Z',
    'update_time': '2025-02-09T13:55:58.291316Z'})


## Borrar archivos subidos

In [21]:
for f in genai.list_files():
    f.delete()

## Ver archivos subidos

In [22]:
for f in genai.list_files():
    print("  ", f.name)

## Un audio en local

In [23]:
user_prompt = "Por favor, resume el audio de una forma breve y concisa. Máximo 2 frases"

In [24]:
response = model.generate_content([
    user_prompt,
    {
        "mime_type": "audio/mp3",
        "data": pathlib.Path('recursos/turnedo.mp3').read_bytes()
    }
])

In [25]:
print(response.text)

Claro que sí, aquí tienes un resumen del audio:

El narrador observa una playa vacía y lluviosa desde su casa, reflexionando sobre una relación acabada. A pesar del frío y el mal tiempo, imagina la posibilidad de estar con alguien a quien ama y anhela el consuelo de su abrazo, pero la realidad es que no puede estar con esa persona, y se queda observando, en soledad.

