In [50]:
%pip install noisereduce

Collecting noisereduce
  Downloading noisereduce-3.0.2-py3-none-any.whl.metadata (14 kB)
Collecting librosa (from noisereduce)
  Downloading librosa-0.10.2.post1-py3-none-any.whl.metadata (8.6 kB)
Collecting audioread>=2.1.9 (from librosa->noisereduce)
  Downloading audioread-3.0.1-py3-none-any.whl.metadata (8.4 kB)
Collecting soundfile>=0.12.1 (from librosa->noisereduce)
  Downloading soundfile-0.12.1-py2.py3-none-win_amd64.whl.metadata (14 kB)
Collecting pooch>=1.1 (from librosa->noisereduce)
  Downloading pooch-1.8.2-py3-none-any.whl.metadata (10 kB)
Collecting soxr>=0.3.2 (from librosa->noisereduce)
  Downloading soxr-0.5.0.post1-cp311-cp311-win_amd64.whl.metadata (5.6 kB)
Downloading noisereduce-3.0.2-py3-none-any.whl (22 kB)
Downloading librosa-0.10.2.post1-py3-none-any.whl (260 kB)
   ---------------------------------------- 0.0/260.1 kB ? eta -:--:--
   ------- ------------------------------- 51.2/260.1 kB 871.5 kB/s eta 0:00:01
   ---------------------- ----------------- 143.4

In [32]:
import noisereduce as nr
import numpy as np
from scipy.io import wavfile
from pydub import AudioSegment
import speech_recognition as sr
import io
import spacy
import spacy.cli
from spacy.matcher import PhraseMatcher
from sklearn.feature_extraction.text import TfidfVectorizer
import re

In [26]:
import keras
print(keras.__version__)

3.5.0


In [2]:
def reduce_noise(audio_segment):
    samples = np.array(audio_segment.get_array_of_samples())
    rate = audio_segment.frame_rate
    reduced_noise = nr.reduce_noise(y=samples, sr=rate)
    return AudioSegment(
        reduced_noise.tobytes(), 
        frame_rate=rate, 
        sample_width=audio_segment.sample_width, 
        channels=audio_segment.channels
    )

In [3]:
def split_audio(audio_file, chunk_length_ms=60000):
    audio = AudioSegment.from_file(audio_file)
    chunks = [audio[i:i + chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
    return chunks

In [4]:
def transcribe_audio(audio_segment):
    recognizer = sr.Recognizer()
    with io.BytesIO(audio_segment.export(format="wav").read()) as audio_file:
        audio_data = sr.AudioFile(audio_file)
        with audio_data as source:
            audio = recognizer.record(source)
        try:
            text = recognizer.recognize_google(audio, language="es-ES")
            return text
        except sr.UnknownValueError:
            return "No se pudo entender el audio"
        except sr.RequestError:
            return "Error al solicitar el servicio de reconocimiento de voz"

In [5]:
audio_file = "test/TestXep1.wav"
chunks = split_audio(audio_file)
full_text = ""

In [6]:
for chunk in chunks:
    reduced_chunk = reduce_noise(chunk)
    text = transcribe_audio(reduced_chunk)
    full_text += text + " "

print(full_text)

perfecto señoras y señores acá el partido arranca arranca el partido señores señores ya estamos en el juego ya se juega la gran final el equipo de la antigua va por el Campeonato lleva una ventaja lleva una buena ventaja de 2 por 0 pero tiene enfrente a un equipo que también está acostumbrado a ser campeón y buscará llegar a su sexta luna que no quiere no quiere no quiere no quiere el equipo del semáforo Camposeco aquí la tiene Moreira Moreira tiene la pelota la mete para González aquí estamos somos el Escuadrón deportivo con toda la pasión de deportes sigan dejando su comentario sigan dejando siga participando porque estaremos leyendo a todos saluditos para Cristian José Saluditos ahí están conectados en YouTube Muchas gracias muchas gracias por reportarse aquí está la pelota que le pertenece al equipo de antigua Guatemala en tiro libre tiro libre tiro libre tiro libre peligroso que le pertenece al 4 de Xelajú Mario Camposeco Aquí está el equipo de antigua Guatemala que quiere que qui

In [7]:
audio_file2 = "test/TestXep2.wav"
chunks2 = split_audio(audio_file2)
full_text2 = ""

In [8]:
for chunk in chunks2:
    reduced_chunk2 = reduce_noise(chunk)
    text2 = transcribe_audio(reduced_chunk2)
    full_text2 += text2 + " "

print(full_text2)

Sí pero soy el deporte se arranca el partido ante ti para tirar el Arquero se quedó con la pelota el Arquero antigueño Linares tiene la pelota hacia arriba hacia la Julia arrancó con todos en la primera acercamiento primero en Mateo le pegó azul y la pita Mejía iba pegando al palo derecho para el Arquero estuvo atento y aquí está Xelajú Mario Camposeco que viene al contraataque pero ya recupera el conjunto del árbitro dice que es pelota para el equipo de antiguo en saque lateral saque de banda para la antigua señoras y señores saque de banda para el equipo de antigua aquí vienen los Panzas Verdes los Panzas Verdes dos Panzas Verdes el servicio que va a dar algo largo largo aquí ataque antigua pero hoy pasamos atorado Así que vendrás con Mario Camposeco a cobrar saqué de puerta saque de puerta que le pertenece a los Súper chivos saque de puerta para se bajó que va a ir con todo a buscar el gol del empate 45 minutos ahora 44 para que se la jugó puede empatar ese uno que tiene contra el s

## Guardamos las transcripciones

In [9]:
with open("primer_tiempo.txt", "w", encoding="utf-8") as file1:
    file1.write(full_text)

with open("segundo_tiempo.txt", "w", encoding="utf-8") as file2:
    file2.write(full_text2)

print("Transcripciones guardadas correctamente.")

Transcripciones guardadas correctamente.


## Leemos las transcripciones

In [7]:
with open("primer_tiempo.txt", "r", encoding="utf-8") as file1:
    time1 = file1.read()

time1


'perfecto señoras y señores acá el partido arranca arranca el partido señores señores ya estamos en el juego ya se juega la gran final el equipo de la antigua va por el Campeonato lleva una ventaja lleva una buena ventaja de 2 por 0 pero tiene enfrente a un equipo que también está acostumbrado a ser campeón y buscará llegar a su sexta luna que no quiere no quiere no quiere no quiere el equipo del semáforo Camposeco aquí la tiene Moreira Moreira tiene la pelota la mete para González aquí estamos somos el Escuadrón deportivo con toda la pasión de deportes sigan dejando su comentario sigan dejando siga participando porque estaremos leyendo a todos saluditos para Cristian José Saluditos ahí están conectados en YouTube Muchas gracias muchas gracias por reportarse aquí está la pelota que le pertenece al equipo de antigua Guatemala en tiro libre tiro libre tiro libre tiro libre peligroso que le pertenece al 4 de Xelajú Mario Camposeco Aquí está el equipo de antigua Guatemala que quiere que qu

In [8]:
with open("segundo_tiempo.txt", "r", encoding="utf-8") as file2:
    time2 = file2.read()
time2

"Sí pero soy el deporte se arranca el partido ante ti para tirar el Arquero se quedó con la pelota el Arquero antigueño Linares tiene la pelota hacia arriba hacia la Julia arrancó con todos en la primera acercamiento primero en Mateo le pegó azul y la pita Mejía iba pegando al palo derecho para el Arquero estuvo atento y aquí está Xelajú Mario Camposeco que viene al contraataque pero ya recupera el conjunto del árbitro dice que es pelota para el equipo de antiguo en saque lateral saque de banda para la antigua señoras y señores saque de banda para el equipo de antigua aquí vienen los Panzas Verdes los Panzas Verdes dos Panzas Verdes el servicio que va a dar algo largo largo aquí ataque antigua pero hoy pasamos atorado Así que vendrás con Mario Camposeco a cobrar saqué de puerta saque de puerta que le pertenece a los Súper chivos saque de puerta para se bajó que va a ir con todo a buscar el gol del empate 45 minutos ahora 44 para que se la jugó puede empatar ese uno que tiene contra el 