#Materiały

https://www.youtube.com/watch?v=Nc78YJLi48I

https://github.com/RekhuGopal/PythonHacks/blob/main/GCP_Video_Transcribe_API/Video_Intelligence_Transcribe.py

W tym kompleksowym samouczku zanurzymy się w świat transkrypcji wideo przy użyciu Pythona i potężnych interfejsów API Google Cloud Video Intelligence.

Transkrypcja wideo to proces konwersji słów mówionych w filmie na tekst pisany, co może być niezwykle cenne dla różnych aplikacji, takich jak napisy, analiza treści i indeksowanie wyszukiwania.

W całym filmie krok po kroku pokażemy Ci, jak wykorzystać możliwości interfejsów API Google Cloud Video Intelligence do łatwego transkrybowania filmów. Omówimy wszystko, od skonfigurowania niezbędnych poświadczeń i dostępu do interfejsu API po integrację interfejsów API z kodem Pythona.

Dowiesz się, jak korzystać z solidnych funkcji interfejsu API Google Cloud Video Intelligence, takich jak automatyczne rozpoznawanie mowy (ASR), diaryzacja mówcy i generowanie znaczników czasu. Pokażemy Ci, jak wydajnie obsługiwać duże pliki wideo i pobierać dokładne transkrypcje przy minimalnym wysiłku.

Do końca tego samouczka będziesz mieć solidne zrozumienie, jak skutecznie wykorzystywać interfejsy API Google Cloud Video Intelligence do zadań transkrypcji wideo, co umożliwi Ci ulepszenie aplikacji dzięki zautomatyzowanym, dokładnym i skalowalnym możliwościom transkrypcji.

Niezależnie od tego, czy jesteś programistą, naukowcem zajmującym się danymi, czy osobą zainteresowaną eksploracją potencjału transkrypcji wideo, ten samouczek wyposaży Cię w wiedzę i narzędzia do wykorzystania mocy interfejsów API Google Cloud Video Intelligence z Pythonem. Przygotuj się na odblokowanie pełnego potencjału treści wideo dzięki dokładnej i wydajnej transkrypcji

#Setup

In [None]:
mkdir Vertex-AI
cd Vertex-AI

mkdir 011_Video-Intelligence-APIs-for-Video-Transcription-With-Python
cd 011_Video-Intelligence-APIs-for-Video-Transcription-With-Python

python3 -m venv venv && source venv/bin/activate

In [None]:
# requirements.txt

google-cloud-videointelligence

pip install -r requirements.txt

In [None]:
# env.sh

export GOOGLE_APPLICATION_CREDENTIALS="/Users/p/Documents/SA/605074532510-compute.json"

source env.sh

#main.py

In [None]:
from google.cloud import videointelligence
import os

# Ścieżka do pliku z danymi autoryzacyjnymi GCS pobrana ze zmiennej środowiskowej
credentials_path = os.getenv("GOOGLE_APPLICATION_CREDENTIALS")
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = credentials_path

"""Transkrypcja mowy z wideo przechowywanego na GCS."""

# Inicjalizacja klienta Video Intelligence
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.SPEECH_TRANSCRIPTION]

# Konfiguracja transkrypcji mowy
config = videointelligence.SpeechTranscriptionConfig(
    language_code="en-US", enable_automatic_punctuation=True
)
video_context = videointelligence.VideoContext(speech_transcription_config=config)

# Rozpoczęcie operacji analizy wideo
operation = video_client.annotate_video(
    request={
        "features": features,
        "input_uri": "gs://data_stream_gcs/011_Video-Intelligence-APIs-for-Video-Transcription-With-Python/JaneGoodall.mp4",
        "video_context": video_context,
    }
)

print("\nPrzetwarzanie wideo w celu transkrypcji mowy.")

# Oczekiwanie na wynik
result = operation.result(timeout=600)

# W analizie jest tylko jeden wynik, ponieważ przetwarzane jest tylko jedno wideo
annotation_results = result.annotation_results[0]
for speech_transcription in annotation_results.speech_transcriptions:

    # Liczba alternatyw dla każdej transkrypcji jest ograniczona przez
    # SpeechTranscriptionConfig.max_alternatives.
    # Każda alternatywa to inna możliwa transkrypcja
    # i ma swój własny wynik zaufania.
    for alternative in speech_transcription.alternatives:
        print("Informacje na poziomie alternatyw:")

        print("Transkrypt: {}".format(alternative.transcript))
        print("Zaufanie: {}\n".format(alternative.confidence))

        print("Informacje na poziomie słów:")
        for word_info in alternative.words:
            word = word_info.word
            start_time = word_info.start_time
            end_time = word_info.end_time
            print(
                "\t{}s - {}s: {}".format(
                    start_time.seconds + start_time.microseconds * 1e-6,
                    end_time.seconds + end_time.microseconds * 1e-6,
                    word,
                )
            )

In [None]:
# Przetwarzanie wideo w celu transkrypcji mowy.
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:
# Informacje na poziomie alternatyw:
# Transkrypt: I remember, I was struck by the harmony of color and the forest shades of yellow and green, beeping to the Browns and purples. And the way the vines curled up through the trees, clinging to twigs and branches,
# Zaufanie: 0.8694230318069458

# Informacje na poziomie słów:
#         28.8s - 28.9s: I
#         28.9s - 29.4s: remember,
#         29.4s - 29.5s: I
#         29.5s - 29.7s: was
#         29.7s - 30.2s: struck
#         30.2s - 30.3s: by
#         30.3s - 30.4s: the
#         30.4s - 30.9s: harmony
#         30.9s - 31.1s: of
#         31.1s - 31.5s: color
#         31.5s - 31.6s: and
#         31.6s - 31.7s: the
#         31.7s - 32.5s: forest
#         33.1s - 33.6s: shades
#         33.6s - 33.7s: of
#         33.7s - 34.1s: yellow
#         34.1s - 34.3s: and
#         34.3s - 34.9s: green,
#         35.1s - 35.7s: beeping
#         35.7s - 35.8s: to
#         35.8s - 35.9s: the
#         35.9s - 36.5s: Browns
#         36.5s - 36.7s: and
#         36.7s - 37.5s: purples.
#         38.4s - 38.5s: And
#         38.5s - 38.6s: the
#         38.6s - 38.7s: way
#         38.7s - 38.9s: the
#         38.9s - 39.4s: vines
#         39.4s - 39.9s: curled
#         39.9s - 40.0s: up
#         40.0s - 40.2s: through
#         40.2s - 40.4s: the
#         40.4s - 41.0s: trees,
#         41.1s - 41.6s: clinging
#         41.6s - 41.7s: to
#         41.7s - 42.1s: twigs
#         42.1s - 42.2s: and
#         42.2s - 43.0s: branches,
# Informacje na poziomie alternatyw:
# Transkrypt:  The gentle breeze rustle, the leaves. So that the shining stars of light gleamed and winked, I was keenly aware of secret movements in the trees.
# Zaufanie: 0.9128385186195374

# Informacje na poziomie słów:
#         44.1s - 44.2s: The
#         44.2s - 44.6s: gentle
#         44.6s - 45.1s: breeze
#         45.1s - 45.4s: rustle,
#         45.4s - 45.5s: the
#         45.5s - 46.2s: leaves.
#         46.3s - 46.5s: So
#         46.5s - 46.7s: that
#         46.7s - 46.8s: the
#         46.8s - 47.3s: shining
#         47.3s - 47.8s: stars
#         47.8s - 47.9s: of
#         47.9s - 48.3s: light
#         48.3s - 48.8s: gleamed
#         48.8s - 49.0s: and
#         49.0s - 49.8s: winked,
#         55.4s - 55.4s: I
#         55.4s - 55.7s: was
#         55.7s - 56.1s: keenly
#         56.1s - 56.6s: aware
#         56.6s - 56.7s: of
#         56.7s - 57.2s: secret
#         57.2s - 57.8s: movements
#         57.8s - 57.9s: in
#         57.9s - 58.0s: the
#         58.0s - 58.8s: trees.
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:
# Informacje na poziomie alternatyw:
# Transkrypt:  I looked into his large and lustrous eyes. They seemed somehow to express his entire personality, his Serene self-assurance, what? An amazing privilege. It was to be utterly accepted by us by a wild free animal.
# Zaufanie: 0.9128383994102478

# Informacje na poziomie słów:
#         72.4s - 72.5s: I
#         72.5s - 72.8s: looked
#         72.8s - 73.0s: into
#         73.0s - 73.2s: his
#         73.2s - 73.7s: large
#         73.7s - 73.8s: and
#         73.8s - 74.4s: lustrous
#         74.4s - 75.0s: eyes.
#         75.5s - 75.7s: They
#         75.7s - 76.1s: seemed
#         76.1s - 76.5s: somehow
#         76.5s - 76.7s: to
#         76.7s - 77.2s: express
#         77.2s - 77.3s: his
#         77.3s - 78.0s: entire
#         78.0s - 79.1s: personality,
#         79.5s - 79.7s: his
#         79.7s - 80.2s: Serene
#         80.2s - 81.5s: self-assurance,
#         82.6s - 82.8s: what?
#         82.8s - 82.9s: An
#         82.9s - 83.5s: amazing
#         83.5s - 84.1s: privilege.
#         84.1s - 84.2s: It
#         84.2s - 84.8s: was
#         85.2s - 85.3s: to
#         85.3s - 85.6s: be
#         85.6s - 85.9s: utterly
#         85.9s - 86.6s: accepted
#         86.6s - 86.7s: by
#         86.7s - 87.1s: us
#         87.3s - 87.5s: by
#         87.5s - 87.6s: a
#         87.6s - 88.2s: wild
#         88.2s - 88.6s: free
#         88.6s - 89.2s: animal.
# Informacje na poziomie alternatyw:
# Transkrypt:  I lay there part of the forest and experienced again that magical enhancement of sound that added richness of perception. I was awed by the beauty
# Zaufanie: 0.8648175001144409

# Informacje na poziomie słów:
#         96.2s - 96.3s: I
#         96.3s - 96.6s: lay
#         96.6s - 97.0s: there
#         97.0s - 97.3s: part
#         97.3s - 97.4s: of
#         97.4s - 97.5s: the
#         97.5s - 98.4s: forest
#         98.4s - 98.5s: and
#         98.5s - 99.4s: experienced
#         99.4s - 99.7s: again
#         99.7s - 100.0s: that
#         100.0s - 100.6s: magical
#         100.6s - 101.4s: enhancement
#         101.4s - 101.5s: of
#         101.5s - 102.3s: sound
#         102.5s - 102.8s: that
#         102.8s - 103.1s: added
#         103.1s - 103.7s: richness
#         103.7s - 103.8s: of
#         103.8s - 104.7s: perception.
#         109.8s - 109.9s: I
#         109.9s - 110.2s: was
#         110.2s - 110.6s: awed
#         110.6s - 110.8s: by
#         110.8s - 110.9s: the
#         110.9s - 111.5s: beauty
# Informacje na poziomie alternatyw:
# Transkrypt:  and I found myself thinking, this is where I belong together, the chimpanzees and the baboons, and the monkeys, the birds, and insects the teeming life of the vibrant Forest, the stirrings of the nether, Still Waters of the Great Lake formed one hole,
# Zaufanie: 0.9114207625389099

# Informacje na poziomie słów:
#         112.9s - 113.1s: and
#         113.1s - 113.2s: I
#         113.2s - 113.5s: found
#         113.5s - 113.9s: myself
#         113.9s - 114.5s: thinking,
#         114.9s - 115.2s: this
#         115.2s - 115.4s: is
#         115.4s - 115.6s: where
#         115.6s - 115.7s: I
#         115.7s - 116.3s: belong
#         122.0s - 122.7s: together,
#         122.7s - 122.8s: the
#         122.8s - 123.7s: chimpanzees
#         123.7s - 123.9s: and
#         123.9s - 124.0s: the
#         124.0s - 124.6s: baboons,
#         124.6s - 124.7s: and
#         124.7s - 124.8s: the
#         124.8s - 125.5s: monkeys,
#         125.9s - 126.0s: the
#         126.0s - 126.5s: birds,
#         126.5s - 126.6s: and
#         126.6s - 127.5s: insects
#         127.9s - 128.0s: the
#         128.0s - 128.5s: teeming
#         128.5s - 128.8s: life
#         128.8s - 128.9s: of
#         128.9s - 129.0s: the
#         129.0s - 129.6s: vibrant
#         129.6s - 130.5s: Forest,
#         131.1s - 131.2s: the
#         131.2s - 131.8s: stirrings
#         131.8s - 131.9s: of
#         131.9s - 132.0s: the
#         132.0s - 132.3s: nether,
#         132.3s - 132.7s: Still
#         132.7s - 133.1s: Waters
#         133.1s - 133.2s: of
#         133.2s - 133.3s: the
#         133.3s - 133.6s: Great
#         133.6s - 134.2s: Lake
#         135.3s - 135.8s: formed
#         135.8s - 136.1s: one
#         136.1s - 136.7s: hole,
# Informacje na poziomie alternatyw:
# Transkrypt:  All one.
# Zaufanie: 0.8633294105529785

# Informacje na poziomie słów:
#         139.7s - 140.0s: All
#         140.0s - 140.4s: one.
# Informacje na poziomie alternatyw:
# Transkrypt:
# Zaufanie: 0.0

# Informacje na poziomie słów:

#transcription_record.py

In [None]:
from google.cloud import videointelligence
import os

# Ścieżka do pliku z danymi autoryzacyjnymi GCS pobrana ze zmiennej środowiskowej
credentials_path = os.getenv("GOOGLE_APPLICATION_CREDENTIALS")
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = credentials_path

# Ścieżka do pliku wyjściowego
output_file = "transcription.txt"

# Inicjalizacja klienta Video Intelligence
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.SPEECH_TRANSCRIPTION]

# Konfiguracja transkrypcji mowy
config = videointelligence.SpeechTranscriptionConfig(
    language_code="pl-PL",  # Kod języka polskiego
    enable_automatic_punctuation=True
)
video_context = videointelligence.VideoContext(speech_transcription_config=config)

# Rozpoczęcie operacji analizy wideo
operation = video_client.annotate_video(
    request={
        "features": features,
        "input_uri": "gs://data_stream_gcs/011_Video-Intelligence-APIs-for-Video-Transcription-With-Python/The X-Files S01E24 The Erlenmeyer Flask.avi",
        "video_context": video_context,
    }
)

print("\nPrzetwarzanie wideo w celu transkrypcji mowy.")

# Oczekiwanie na wynik
result = operation.result(timeout=6000)

# Otwarcie pliku do zapisu
with open(output_file, "w") as file:
    # Przechodzenie przez wyniki transkrypcji
    annotation_results = result.annotation_results[0]
    for speech_transcription in annotation_results.speech_transcriptions:
        # Przechodzenie przez każdą alternatywę w transkrypcji
        for alternative in speech_transcription.alternatives:
            transcription_text = alternative.transcript.strip()  # Wydobycie tekstu transkrypcji
            if transcription_text:  # Sprawdzenie, czy transkrypcja nie jest pusta
                file.write(transcription_text + "\n")  # Zapisanie tekstu do pliku
                print("Zapisano transkrypt do pliku:", transcription_text)  # Informacja o zapisie

In [None]:
# Ścieżka do pliku wyjściowego
output_file = "transcription.txt"

# Przykładowe dane wyjściowe z transkrypcji - zastąp poniższe linie danymi z API
output = """
Transkrypt:  and I found myself thinking, this is where I belong together, the chimpanzees and the baboons, and the monkeys, the birds, and insects the teeming life of the vibrant Forest, the stirrings of the nether, Still Waters of the Great Lake formed one hole,
Zaufanie: 0.9114207625389099
Informacje na poziomie słów:
    ...
Transkrypt:  All one.
Zaufanie: 0.8633294105529785
"""

# Otwieramy plik do zapisu
with open(output_file, "w") as file:
    # Szukamy linii z "Transkrypt:" i zapisujemy tekst po dwukropku
    for line in output.splitlines():
        if "Transkrypt:" in line:
            # Wyciągamy tekst transkrypcji po "Transkrypt: "
            transcription_text = line.split("Transkrypt:")[1].strip()
            if transcription_text:  # Sprawdzamy, czy transkrypcja nie jest pusta
                file.write(transcription_text + "\n")  # Zapisujemy do pliku tekstowego