# 2 - Whisper (Speech-to-Text)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/openai_whisper.webp" style="width:400px;"/>


<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelo-Whisper" data-toc-modified-id="1---Modelo-Whisper-1">1 - Modelo Whisper</a></span></li><li><span><a href="#2---Transcripción" data-toc-modified-id="2---Transcripción-2">2 - Transcripción</a></span></li><li><span><a href="#3---Timestamps" data-toc-modified-id="3---Timestamps-3">3 - Timestamps</a></span><ul class="toc-item"><li><span><a href="#3.1---Creación-de-subtitulos" data-toc-modified-id="3.1---Creación-de-subtitulos-3.1">3.1 - Creación de subtitulos</a></span></li></ul></li><li><span><a href="#4---Traducción" data-toc-modified-id="4---Traducción-4">4 - Traducción</a></span></li><li><span><a href="#5---Prompting" data-toc-modified-id="5---Prompting-5">5 - Prompting</a></span></li><li><span><a href="#6---API-de-Whisper" data-toc-modified-id="6---API-de-Whisper-6">6 - API de Whisper</a></span></li></ul></div>

## 1 - Modelo Whisper

El modelo Whisper de OpenAI es una tecnología avanzada de reconocimiento automático de voz, ASR, por sus siglas en inglés, diseñada para transcribir y traducir audio en texto de manera precisa y eficiente. 

**Características del modelo Whisper**


1. **Reconocimiento de voz de alta precisión**: Whisper utiliza técnicas avanzadas de aprendizaje profundo para transcribir el habla humana con alta precisión. Es capaz de manejar diferentes acentos, dialectos y variaciones en la pronunciación.


2. **Soporte multilingüe**: El modelo está diseñado para trabajar con múltiples idiomas, lo que permite transcribir y traducir audio en diferentes lenguas. Esto es especialmente útil para aplicaciones globales y servicios que requieren soporte en varios idiomas.


3. **Robustez en entornos ruidosos**: Whisper es capaz de transcribir con precisión incluso en entornos ruidosos, lo que lo hace ideal para aplicaciones en el mundo real donde el ruido de fondo puede ser un desafío.


4. **Transcripción en tiempo real**: Puede proporcionar transcripciones en tiempo real, lo que es beneficioso para aplicaciones como subtítulos en vivo, asistentes virtuales y servicios de atención al cliente.


5. **Capacidad de traducción**: Además de transcribir el audio, Whisper puede traducir automáticamente el texto transcrito a otros idiomas, facilitando la comunicación multilingüe.

<br>

**Aplicaciones del modelo Whisper**


1. **Subtitulación y traducción en tiempo real**: Utilizado para generar subtítulos en vivo para videos, conferencias y eventos en múltiples idiomas, mejorando la accesibilidad y la comprensión.


2. **Asistentes virtuales y chatbots**: Integrado en asistentes virtuales para mejorar la interacción con los usuarios a través del reconocimiento y la comprensión del habla.


3. **Atención al cliente**: Utilizado en centros de atención al cliente para transcribir y analizar llamadas telefónicas, mejorando la calidad del servicio y la satisfacción del cliente.


4. **Educación y E-Learning**: Aplicado en plataformas educativas para transcribir conferencias y proporcionar subtítulos precisos, facilitando el aprendizaje y el acceso a la información.


5. **Investigación y análisis**: Empleado en la investigación para transcribir entrevistas, discursos y debates, facilitando el análisis de datos y la recopilación de información.

<br>

**Ventajas del modelo Whisper**

+ Alta precisión y fiabilidad: Whisper ofrece transcripciones precisas y confiables, reduciendo los errores comunes en el reconocimiento de voz.
+ Versatilidad multilingüe: Su capacidad para manejar múltiples idiomas y dialectos lo hace ideal para aplicaciones globales.
+ Robustez en diversos entornos: Puede funcionar eficazmente en entornos ruidosos, lo que lo hace útil para aplicaciones en el mundo real.
+ Facilidad de integración: Puede integrarse fácilmente en diversas aplicaciones y servicios, mejorando la funcionalidad y la accesibilidad.

<br>

**Desafíos y consideraciones**

+ Privacidad y seguridad: Al manejar datos de audio, es crucial asegurar la privacidad y la seguridad de la información del usuario.
+ Adaptación a contextos específicos: Puede ser necesario ajustar y entrenar el modelo para contextos y vocabularios específicos para maximizar la precisión.


In [1]:
# importamos librerías, API KEY e iniciamos cliente

import os                           
from dotenv import load_dotenv 
import openai as ai
import json


load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

cliente = ai.OpenAI()

## 2 - Transcripción

La API de transcripciones toma como entrada el archivo de audio que deseamos transcribir y el modelo usado.

In [2]:
%%time

# extracción del texto

audio = open('../../files/Will AI kill everyone Heres what the godfathers of AI have to say.mp4', 'rb')

transcripcion = cliente.audio.transcriptions.create(model='whisper-1', 
                                                    file=audio)


CPU times: user 10.9 ms, sys: 7.82 ms, total: 18.7 ms
Wall time: 10.5 s


In [3]:
# texto extraido del audio

transcripcion.text

"The ACM Turing Award is the highest distinction in computer science, comparable to the Nobel Prize. In 2018, it was awarded to three pioneers of the deep learning revolution, Geoffrey Hinton, Yoshua Bengio, and Yan LeCun. In May 2023, Geoffrey Hinton left Google so that he could speak openly about the dangers of advanced AI, agreeing that, quote, it could figure out how to kill humans, and saying, it's not clear to me that we can solve this problem. Later that month, Yoshua Bengio wrote a blog post titled How Rogue AIs May Arise, in which he defined a rogue AI as an autonomous AI system that could behave in ways that would be catastrophically harmful to a large fraction of humans, potentially endangering our societies, and even our species or the biosphere. Yan LeCun continues to refer to those suggesting that we're facing severe and imminent risk as professional scaremongers, and says it's a simple fact that the people who are terrified of AGI are rarely the people who actually build

## 3 - Timestamps

También podemos pedirle al modelo que nos de el tiempo en que se ha dicho cada palabra o cada frase.

In [4]:
%%time

transcripcion = cliente.audio.transcriptions.create(model='whisper-1', 
                                                    file=audio,
                                                    response_format='verbose_json',
                                                    timestamp_granularities=['segment'])


CPU times: user 10.5 ms, sys: 6.31 ms, total: 16.8 ms
Wall time: 10.2 s


In [5]:
# segmentos de texto con sus tiempos

print(transcripcion.segments[:2])

[{'id': 0, 'seek': 0, 'start': 0.0, 'end': 5.0, 'text': ' The ACM Turing Award is the highest distinction in computer science,', 'tokens': [50364, 440, 8157, 44, 314, 1345, 13894, 307, 264, 6343, 16844, 294, 3820, 3497, 11, 50614], 'temperature': 0.0, 'avg_logprob': -0.2398335486650467, 'compression_ratio': 1.4808510541915894, 'no_speech_prob': 0.4072512686252594}, {'id': 1, 'seek': 0, 'start': 5.0, 'end': 7.0, 'text': ' comparable to the Nobel Prize.', 'tokens': [50614, 25323, 281, 264, 24611, 22604, 13, 50714], 'temperature': 0.0, 'avg_logprob': -0.2398335486650467, 'compression_ratio': 1.4808510541915894, 'no_speech_prob': 0.4072512686252594}]


### 3.1 - Creación de subtitulos

Con estos datos podemos crear un archivo `.srt`, el archivo de subtítulos para un video. Este tipo de archivo tiene una estructura determinada para poder ser usado en los reproductores de video. Veamos como construir este tipo de archivo.

In [6]:
from datetime import timedelta


def crear_subtitulos(segmentos: list) -> None:
    
    """
    Esta función crea un archivo de subtitulos con la transcripción del audio.
    
    Params:
    segmentos: list, lista de diccionarios con la transcripción y tiempos
    
    Return:
    No devuelve nada, solo guarda el archivo
    """


    for i,s in enumerate(segmentos):
        
        start = str(0)+str(timedelta(seconds=int(s['start'])))+',000'
        end = str(0)+str(timedelta(seconds=int(s['end'])))+',000'
        
        texto = s['text']
        
        segmento = f"{i+1}\n{start} --> {end}\n{texto[1:] if texto[0]==' ' else texto}\n\n"

        with open('../../files/subtitulos.srt', 'a', encoding='utf-8') as file:
            file.write(segmento)
            
    print('Hecho!')

In [7]:
# llamada función

crear_subtitulos(transcripcion.segments)

Hecho!


## 4 - Traducción

La API de traducciones toma como entrada el archivo de audio en cualquiera de los idiomas compatibles y transcribe, si es necesario, el audio al inglés. Esto difiere de nuestro endpoint de transcripciones, ya que la salida no está en el idioma original de entrada, sino que se traduce a texto en inglés.


In [8]:
# carga del archivo de audio

ruta = '../../files/Es posible que una IA.m4a'

audio= open(ruta, 'rb')

In [9]:
# traducción es-en

translation = cliente.audio.translations.create(model='whisper-1', 
                                                file=audio)


In [10]:
# texto traducido

translation.text

'Javi, do you think that in less than 30 years, an AI with a personality is going to be born that is not expected, that is, consciousness? First, I think there is a bubble with the whole issue of artificial intelligence. I think it is being exaggerated. I am going to refer to a book that I read recently, the myth of artificial intelligence, that the human being has three classic ways of generating inferences and with it knowledge. Deduction, induction and abduction. Artificial intelligence works with induction, in the sense that what it does is connect to a very large network of data and it is looking for patterns and finds outputs according to what it sees. The human being has a third ability, which is abduction, but you know that you tell a joke to an AI and it does not understand. It does not understand that the water gets wet, it does not understand that winter is cold, that is, it does not understand things that for us are natural because they are life experiences. If we continue 

## 5 - Prompting

Podemos utilizar un prompt para mejorar la calidad de las transcripciones generadas por la API de Whisper. El modelo intentará igualar el estilo del prompt, por lo que será más probable que use mayúsculas y puntuación si el prompt también lo hace. Sin embargo, el sistema de prompting actual es mucho más limitado que nuestros otros modelos de lenguaje y solo proporciona un control limitado sobre el audio generado. Aquí hay algunos ejemplos de cómo el prompting puede ayudar en diferentes escenarios:

1. Los prompts pueden ser muy útiles para corregir palabras específicas o acrónimos que el modelo puede reconocer incorrectamente en el audio. Por ejemplo, el siguiente prompt mejora la transcripción de las palabras DALL·E y GPT-3, que anteriormente se escribieron como "GDP 3" y "DALI": "La transcripción trata sobre OpenAI, que crea tecnología como DALL·E, GPT-3 y ChatGPT con la esperanza de algún día construir un sistema de AGI que beneficie a toda la humanidad.".

2. Para preservar el contexto de un archivo que se dividió en segmentos, podemos hacer un prompt al modelo con la transcripción del segmento anterior. Esto hará que la transcripción sea más precisa, ya que el modelo usará la información relevante del audio anterior. El modelo solo considerará los últimos 224 tokens del prompt e ignorará cualquier cosa anterior. Para entradas multilingües, Whisper utiliza un tokenizador personalizado. Para entradas solo en inglés, utilizamos el tokenizador estándar de GPT-2, ambos accesibles a través del paquete de Python de código abierto Whisper.

3. A veces, el modelo puede omitir la puntuación en la transcripción. Podemos evitar esto utilizando un prompt simple que incluya puntuación.

4. El modelo también puede omitir palabras de relleno comunes en el audio. Si deseamos mantener las palabras de relleno en nuestra transcripción, podemos utilizar un prompt que las contenga.

5. Algunos idiomas pueden escribirse de diferentes maneras, como el chino simplificado o tradicional. El modelo puede no usar siempre el estilo de escritura que deseas para tu transcripción de forma predeterminada. Puedes mejorar esto utilizando un prompt en tu estilo de escritura preferido.

## 6 - API de Whisper

[Whisper](https://github.com/openai/whisper) está disponible en código abierto como una librería independiente de Python. Para usarla, priero tenemos que ejecutar el siguiente comando:

```bash
pip install openai-whisper
```

In [11]:
# importamos la librería

import whisper

In [12]:
# se carga el modelo base de Whisper en local, 139M

modelo_whisper = whisper.load_model('base')

In [13]:
# cargamos el archivo de audio 

import librosa

data, freq = librosa.load(ruta)

  return f(*args, **kwargs)


In [14]:
# Whisper transcribe el audio a texto, en 32 bits (fp16=False)

transcripcion = modelo_whisper.transcribe(data, fp16=False)["text"].strip()

In [15]:
# texto 

transcripcion

'Javi, ¿tú crees que en menos de 30 años va a hacer una ia con una personalidad que no sea esperada? Es decir, conscientia. Primero, creo que no hubo un aguujo a control tema de interjece artificial. Creo que se está exagerando. Me voy a señir a un libro que me leía a ese poco, con el mito de la interjece artificial, que el ser humano tiene tres formas clásicas de generar inferencias y con ello con los humientos. La deducción, la inducción y la abducción. La interjece artificial funciona con la inducción. En el término de que lo que hace es se conecta una muy grande datos y va buscando patrones y encontrar salida conforme a lo que ve. El ser humano tiene una terza capacidad que la abducción, ya que le cuentas un chiste a una interjece artificial y no entiende. No entiende que el agua moja, no entiende que el invierro frío. O sea, no entiende cosas que para nosotros son naturales porque son experiencia de vida. Si seguimos en esa línea, cada vez será mejor en lo que hace. Sí. Y será una