# Clase IA y Periodismo Octubre 2023
En Colaboratory ya tenemos bastantes de las herramientas que necesitamos. Si bien podrían actualizarse a versiones más nuevas, la idea de este notebook es darles una serie de herramientas simples de utilizar para que puedan aplicar en sus estudios, trabajo, y/o vida diaria sin complicaciones innecesarias.

Cuando estas herramientas ya les empiecen a quedar incómodas, será el momento de contactarse con su colega informátic@ de confianza para analizar cómo mejorarlas. También podrían estudiar por su cuenta, y mejorarlas ustedes, ya que les estamos brindando el código necesario para hacerlo.

En primer lugar, tenemos que ejecutar la siguiente celda de código (botón de play, o presionen Shift+Enter cuando la siguiente celda esté seleccionada).

Una vez que la siguiente celda se termine de ejecutar, contarán con Whisper y spaCy instalados en la sesión de Colab actual. **Recuerden que este proceso puede demorar algunos minutos.**

In [1]:
# @title Instalación de módulos (correr primero)
# Primero tenemos que isntalar torch (y demases) con soporte para GPU
!pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
# Esta primera línea instala whisper
#!pip install git+https://github.com/openai/whisper.git
!pip install -U openai-whisper
# A continuación instalamos spaCy, la librería de NLP (sobre texto)
!pip install spacy
# Finalmente instalamos el modelo para Español pre-entrenado de spaCy
!python -m spacy download es_core_news_lg

Looking in indexes: https://download.pytorch.org/whl/cu117
Collecting openai-whisper
  Downloading openai-whisper-20230918.tar.gz (794 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m794.3/794.3 kB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting triton==2.0.0 (from openai-whisper)
  Downloading triton-2.0.0-1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (63.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m63.3/63.3 MB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
Collecting tiktoken==0.3.3 (from openai-whisper)
  Downloading tiktoken-0.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m88.9 MB/s[0m eta [36m0:00:00[0m
Collecting lit (from triton==2

Ahora que contamos con Whisper instalado en la sesión, ahora podemos utilizarlo. Para hacer más fácil la experiencia de usuario, hemos preparado una función que les permite cargar un archivo de audio desde sus computadoras, guardarlo en la sesión, y realizar la transcripción con Whisper en un sólo paso. La salida quedará guardada en un archivo llamado "transcripcion.txt" (sin acentos) que luego podremos descargar o utilizar. También generaremos un CSV (un archivo "de Excel") y un SRT (un archivo de subtitulos), que luego podremos utilizar.

Para que esta funcione se ejecute correctamente, deben correr la siguiente celda de código:

In [2]:
# @title Definición de la función `transcribir()`
import os
import subprocess
import time

from google.colab import files

def transcribir():
  uploaded = files.upload()
  if not uploaded:
    return False
  name = list(uploaded.keys())[0]
  _base_command = 'whisper --model {model} --language {language} --fp16 {fp16} --output_dir "{out_dir}" "{path}"'
  cmd_dict = {
    "model": "small",
    "language": "es",
    "fp16": "False",
    "out_dir": ".",
  }
  cmd_dict["path"] = name
  command = _base_command.format_map(cmd_dict)
  t0 = time.perf_counter()
  proc = subprocess.run(command, shell=True, capture_output=True)
  proc.returncode
  t1 = time.perf_counter()
  print(f"Tomó {t1-t0:.2f} segundos procesar {name}")
  return True

Ya con la función definida, podemos utilizarla:

In [3]:
transcribir()

Saving Café Avellaneda - Snowball - Salvador Desteres.mp3 to Café Avellaneda - Snowball - Salvador Desteres.mp3
Tomó 28.74 segundos procesar Café Avellaneda - Snowball - Salvador Desteres.mp3


True

Una vez que termina de procesar el audio que hayamos subido, contaremos que varios archivos: .json, .srt, .tsv, .txt y .vtt. Vamos a repasar qué son, en orden de importancia:

* .txt es la transcripción completa del texto. Whisper hace el mejor esfuerzo que puede por detectar puntuación y separar en párrafos. Incluso en ocasiones nos indica ruidos de fondo (música, silencios, perros, incluso que se está hablando en otro idioma).
* .tsv es un "tab separated values", un archivo que podemos cargar en Excel y procesar como una hoja de cálculo (una "tabla de datos").
* .srt y .vtt son formatos de subtítulos. Pueden usar estos para cargar en su reproductor de videos favorito (si usaron Whisper sobre el audio de un video por ejemplo), o para hacer subtítulos de videos que suban a plataformas (por ej. YouTube).
* .json es un formato que se utiliza bastante en programación, podemos ignorarlo pero a los informáticos nos puede resultar muy útil para construir herramientas que procesen este tipo de archivo.

Podemos descargar cualquier de estos archivos desde el explorador de archivos que tenemos al costado (el ícono debajo de la _{x}_).

Veamos un poco del archivo TSV:

In [None]:
import pandas as pd

df = pd.read_table("archivo.tsv")  # acá tienen que cambiar el nombre de archivo por el que figura en el explorador

In [None]:
df