# OpenAI's Whisper Speech Recognition Model


Whisper ist der Name eines automatischen Spracherkennungssystems (ASR) von OpenAI. ASR-Systeme wandeln gesprochene Sprache in geschriebenen Text um. Sie werden in einer Vielzahl von Anwendungen eingesetzt, darunter Sprachassistenten, Transkriptionsdienste und mehr.

Whisper wurde auf einer großen Menge multilingualer und multitaskaler Daten aus dem Web trainiert. Es wurde entwickelt, um in verschiedenen Anwendungen und Kontexten eine hohe Genauigkeit bei der Spracherkennung zu bieten.


## Install Whisper

In [1]:
!pip install openai-whisper

Collecting openai-whisper
  Downloading openai-whisper-20231117.tar.gz (798 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting tiktoken (from openai-whisper)
  Downloading tiktoken-0.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231117-py3-none-any.whl size=801358 sha256=b1ec1da95c0c1d6663a27a50c7d2b9b5d4f76130199ef79ebb3138f9c51c6a5e
  Stored in directory: /root/.cache/pip/wheels/d0/85/e1/9361b4cb

# Nur ausführen wenn ihr auf einem Colab notebook seid
- dies lädt euch die mp3 dateien runter

In [6]:
!wget https://github.com/ch-media-data/whisper-demo/raw/main/daisy_HAL_9000.mp3

--2023-11-23 14:56:32--  https://github.com/ch-media-data/whisper-demo/raw/main/daisy_HAL_9000.mp3
Auflösen des Hostnamens github.com (github.com)… 140.82.121.4
Verbindungsaufbau zu github.com (github.com)|140.82.121.4|:443 … verbunden.
HTTP-Anforderung gesendet, auf Antwort wird gewartet … 
  HTTP/1.1 404 Not Found
  Server: GitHub.com
  Date: Thu, 23 Nov 2023 13:56:32 GMT
  Content-Type: text/html; charset=utf-8
  Vary: X-PJAX, X-PJAX-Container, Turbo-Visit, Turbo-Frame, Accept-Encoding, Accept, X-Requested-With
  Cache-Control: no-cache
  Strict-Transport-Security: max-age=31536000; includeSubdomains; preload
  X-Frame-Options: deny
  X-Content-Type-Options: nosniff
  X-XSS-Protection: 0
  Referrer-Policy: origin-when-cross-origin, strict-origin-when-cross-origin
  Content-Security-Policy: default-src 'none'; base-uri 'self'; child-src github.com/assets-cdn/worker/ gist.github.com/assets-cdn/worker/; connect-src 'self' uploads.github.com www.githubstatus.com collector.github.com raw

In [5]:
!wget https://github.com/ch-media-data/whisper-demo/raw/main/mary.mp3

--2023-11-23 14:56:03--  https://github.com/ch-media-data/whisper-demo/raw/main/mary.mp3
Auflösen des Hostnamens github.com (github.com)… 140.82.121.4
Verbindungsaufbau zu github.com (github.com)|140.82.121.4|:443 … verbunden.
HTTP-Anforderung gesendet, auf Antwort wird gewartet … 
  HTTP/1.1 404 Not Found
  Server: GitHub.com
  Date: Thu, 23 Nov 2023 13:56:03 GMT
  Content-Type: text/html; charset=utf-8
  Vary: X-PJAX, X-PJAX-Container, Turbo-Visit, Turbo-Frame, Accept-Encoding, Accept, X-Requested-With
  Cache-Control: no-cache
  Strict-Transport-Security: max-age=31536000; includeSubdomains; preload
  X-Frame-Options: deny
  X-Content-Type-Options: nosniff
  X-XSS-Protection: 0
  Referrer-Policy: origin-when-cross-origin, strict-origin-when-cross-origin
  Content-Security-Policy: default-src 'none'; base-uri 'self'; child-src github.com/assets-cdn/worker/ gist.github.com/assets-cdn/worker/; connect-src 'self' uploads.github.com www.githubstatus.com collector.github.com raw.githubuse

Ändert die Laufzeit auf CPU, sonst beschwert sich Colab dass ich beim Free-Tier der GPU ram nicht reicht.

![alt text](laufzeit.png "Intro")

## Modell laden

- Das sollte ca. 140 MB runterladen.

In [4]:
import whisper
import numpy as np
model = whisper.load_model("base") # oder tiny falls sich google colab beschwert dass der ram nicht reicht

100%|████████████████████████████████████████| 139M/139M [00:01<00:00, 103MiB/s]


## Können wir die GPU nutzen?

Auf der GPU vs. CPU arbeiten. Im besten Fall steht dort device GPU, das hängt von eurem Laptop ab.

In [5]:
model.device

device(type='cuda', index=0)

## Define the Transcribe Function

Jetzt haben wir das Modell geladen und haben den Code. Dies ist die Funktion, die einen Audiodateipfad als Eingabe verwendet und den erkannten Text zurückgibt (und protokolliert, was seiner Meinung nach die Sprache ist).

## Test mit Low und High Quality Audio

Ihr werdet feststellen, dass das zweite Transkript normalerweise nach 30 Sekunden abgeschnitten wird. Dies ist die Standardlänge. Diese kann erweitert werden. Siehe oben, mit chunking.

In [6]:
easy_text = model.transcribe("mary.mp3")
print(easy_text["text"])

hard_text = model.transcribe("daisy_HAL_9000.mp3")
print(hard_text["text"])

 Mary had a little lamb, its fleece was white as snow, and everywhere that Mary went, the lamb was sure to go.
 Tazy, Tazy, Tazy. Give me your answer to time after crazy all for the love of you. It won't be a stylish marriage like time or for the love of others. For the love of others. For the love of others.


# Download a youtube video, transcode it.

In [7]:
!pip install -U yt-dlp

Collecting yt-dlp
  Downloading yt_dlp-2023.11.16-py2.py3-none-any.whl (3.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting mutagen (from yt-dlp)
  Downloading mutagen-1.47.0-py3-none-any.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.4/194.4 kB[0m [31m19.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pycryptodomex (from yt-dlp)
  Downloading pycryptodomex-3.19.0-cp35-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m28.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting websockets (from yt-dlp)
  Downloading websockets-12.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (130 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m130.2/130.2 kB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
Collecting brotli

In [8]:
!yt-dlp "https://www.youtube.com/watch?v=ww0zvl18-Ys"

[youtube] Extracting URL: https://www.youtube.com/watch?v=ww0zvl18-Ys
[youtube] ww0zvl18-Ys: Downloading webpage
[youtube] ww0zvl18-Ys: Downloading ios player API JSON
[youtube] ww0zvl18-Ys: Downloading android player API JSON
[youtube] ww0zvl18-Ys: Downloading m3u8 information
[info] ww0zvl18-Ys: Downloading 1 format(s): 247+251
[download] Destination: Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].f247.webm
[K[download] 100% of    7.33MiB in [1;37m00:00:00[0m at [0;32m13.50MiB/s[0m
[download] Destination: Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].f251.webm
[K[download] 100% of    3.30MiB in [1;37m00:00:00[0m at [0;32m9.68MiB/s[0m
[Merger] Merging formats into "Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].webm"
Deleting original file Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].f247.webm (pass -k to keep)
Deleting original file Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].f251.webm (pass -k to keep)


In [9]:
charlie = model.transcribe("Charlie Chaplins Rede an die Menschheit [ww0zvl18-Ys].webm")

In [10]:
charlie["text"]

' Es tut mir leid, aber ich möchte nun mal kein Herrscher der Welt sein, denn das liegt mir nicht. Ich möchte weder Herrchen noch irgendwie erobern, sondern jede Menschen helfen, wo immer ich kann, den Juden, den Heiden, den Fahrwigen, den Weißen. Jeder Mensch sollte dem anderen helfen, nur so verbessern wir die Welt. Wir sollten am Glück des anderen Teilhaben und nicht an der Verabschollen. Pass und Verachtung bringen uns niemals näher. Auf dieser Welt ist Platz genug für jeden und Mutter Erde ist reich genug, um jeden von uns Satz zu machen. Das Leben kann ja so erfreulich und wunderbar sein. Wir müssen es nur wieder zu leben lernen. Die Habki hat das Gute im Menschen verschützt und Misskunst hat die Seelen vergiftet und uns im Parade-Schritt zu verdärb und Blutschuld geführt. Wir haben die Geschwindigkeit entwickelt, aber innerlich sind wir stehen geblieben. Wir lassen Maschinen für uns arbeiten und sie denken auch für uns. Die Glugheit hat uns hochmütig werden lassen und unser Wiss