# 🗣 Easy Whisper Notebook

## 📚 Inicialización de Librerias

### Instalar el código de Whisper

**IMPORTANTE!** : Antes de ejecutar este Notebook revisa que el entorno de ejecución sea GPU Standard

In [1]:
! pip install git+https://github.com/openai/whisper.git -q

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m16.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


### Cargar el modelo (tiny, base, small, medium, large)

**"medium"** es el modelo que me ha dado buenos resultados, demora un poco en cargar pero es rápido y obtiene bien las palabras
Por defecto se usa **"base"**

In [2]:
import whisper

model = whisper.load_model("medium")

100%|██████████████████████████████████████| 1.42G/1.42G [00:12<00:00, 122MiB/s]


### Carga de Librerias (Selector de archivos)

In [3]:
from IPython.display import Audio
from google.colab import files

## 📁 Selección del archivo

In [4]:
file_uploaded = files.upload()
file_name = next(iter(file_uploaded))
print(file_name)

Saving descarga.mp3 to descarga.mp3
descarga.mp3


## 🔊 Verificación de Audio

In [5]:
Audio(file_name)

## ✍ Transcripción

In [6]:
resultado_transcripcion = model.transcribe(audio = file_name)

### 🗒️ Texto Puro

In [7]:
texto_transcrito = resultado_transcripcion['text']
print(texto_transcrito)

 Someria hace unos momentos. El presidente Andrés Manuel López Obrador informó que salió positivo a COVID-19. En su cuenta de Twitter, aseguró que no es grave, que su corazón está al 100 y tuvo que suspender su gira. Explicó que se encuentra en la Ciudad de México y de Lejitos. Festeja los 16 años de su hijo Jesús Ernesto. Aseguró que se guardará unos días.


### ⏳ Minuto a Minuto

#### ⏲ Función Timestamp

In [8]:
# Código copiado directamente de utils de Whisper
def format_timestamp(
    seconds: float, always_include_hours: bool = False, decimal_marker: str = "."
):
    assert seconds >= 0, "non-negative timestamp expected"
    milliseconds = round(seconds * 1000.0)

    hours = milliseconds // 3_600_000
    milliseconds -= hours * 3_600_000

    minutes = milliseconds // 60_000
    milliseconds -= minutes * 60_000

    seconds = milliseconds // 1_000
    milliseconds -= seconds * 1_000

    hours_marker = f"{hours:02d}:" if always_include_hours or hours > 0 else ""
    return (
        f"{hours_marker}{minutes:02d}:{seconds:02d}{decimal_marker}{milliseconds:03d}"
    )

#### ⏳✍ Segmentos

In [9]:
segmentos = resultado_transcripcion['segments']
for segmento in segmentos:
  print('De ' + format_timestamp(segmento["start"]) + ' a ' + format_timestamp(segmento["end"]) + ' :')
  print(segmento['text'] + '\n')

De 00:00.000 a 00:01.560 :
 Someria hace unos momentos.

De 00:01.560 a 00:07.320 :
 El presidente Andrés Manuel López Obrador informó que salió positivo a COVID-19.

De 00:07.320 a 00:12.680 :
 En su cuenta de Twitter, aseguró que no es grave, que su corazón está al 100 y tuvo

De 00:12.680 a 00:14.520 :
 que suspender su gira.

De 00:14.520 a 00:17.920 :
 Explicó que se encuentra en la Ciudad de México y de Lejitos.

De 00:17.920 a 00:21.160 :
 Festeja los 16 años de su hijo Jesús Ernesto.

De 00:21.160 a 00:23.320 :
 Aseguró que se guardará unos días.



## 🗺 Traducción (language = lenguaje al que se quiere traducir, no el original)

### Inglés (EN)

In [12]:
texto_traducido = model.transcribe(audio = file_name, language="en")['text']
texto_traducido

" The president, Andrés Manuel López Obrador, reported that he had COVID-19. He said on Twitter that it's not serious, that his heart is 100 and that he had to cancel his tour. He said he's in Mexico City and in the far away. He's celebrating the 16th birthday of his son Jesus Ernesto. He said he will keep it for a few days."

### Portugues (PT)

In [11]:
texto_traducido2 = model.transcribe(audio = file_name, language="pt")['text']
texto_traducido2

' Há alguns momentos, o presidente Andrés Manuel López Obrador informou que saiu positivo a Covid-19. Em sua conta de Twitter, ele disse que não é grave, que seu coração está a 100 e teve que suspender sua viagem. Explicou que está na cidade de México e de Lejitos. Feliz os 16 anos de seu filho Jesus Ernesto. Ele disse que vai ficar uns dias.'