In [4]:
import speech_recognition as sr
import math
from tqdm import tqdm
import os
import pandas as pd
import librosa

In [5]:
def convert2text(audios, seconds=30, noise=False):
    r = sr.Recognizer()
    archivos = os.listdir(audios)
    datos = []

    for archivo in archivos:
        if archivo.endswith('.wav'):
            audio_path = os.path.join(audios, archivo)
            with sr.AudioFile(audio_path) as source:
                duration = source.DURATION
                splits = math.ceil(duration / seconds)
            
            transcripcion = ""  
            
            for i in tqdm(range(splits)):
                with source as src:
                    if noise:
                        r.adjust_for_ambient_noise(src)
                    audio = r.record(src, offset=i * seconds, duration=seconds)
                
                try:
                    texto = r.recognize_google(audio, language="es-MX")
                    transcripcion += texto + " "
                    speech_speed = get_speech_speed(audio_path)
                except:
                    pass
                
            datos.append([archivo, transcripcion, speech_speed])
            
    df = pd.DataFrame(datos, columns=["Archivo", "Transcripcion", "Velocidad"])
    df = df.loc[df['Transcripcion'].notna() & (df['Transcripcion'] != '')]
    df.to_csv("transcripciones.csv", index=False, encoding='latin-1')


    
  

In [6]:
def get_speech_speed(audio_path):
    # Se carga el audio
    audio, sr = librosa.load(audio_path)
            
    # Extraer segmentos del audio
    speech_segments = librosa.effects.split(audio, top_db=20)
            
    # Calcular la duración de cada segmento
    segment_durations = librosa.frames_to_time(
        [segment[1] - segment[0] for segment in speech_segments],
        sr=sr
         )
            
    # Calculate the average speed of speech
    average_speed = sum(segment_durations) / len(segment_durations)
            
    return average_speed
        

In [9]:
%time
carpeta_audio = "C:/Users/DSTHREE/Documents/GITHUB/Speech2Text/GRABACIONES"
convert2text(carpeta_audio, seconds=10)

CPU times: total: 0 ns
Wall time: 0 ns


100%|██████████████████████████████████████████████████████████████████████████████████| 26/26 [00:57<00:00,  2.22s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 24/24 [00:57<00:00,  2.38s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.31it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.35s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:09<00:00,  1.93s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00,  2.03it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:03<00:00,  1.21s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.15it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:04<00:00,  1.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:04<00:00,  1.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.68it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.18it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.97it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:06<00:00,  1.22it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.42it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:03<00:00,  1.21s/it]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 19/19 [00:10<00:00,  1.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:12<00:00,  1.40s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:08<00:00,  1.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00,  1.22it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:03<00:00,  1.33s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:08<00:00,  1.09s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.34it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:03<00:00,  1.01s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:03<00:00,  1.07s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.22it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:06<00:00,  1.37s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00,  1.07it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:16<00:00,  3.22s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:04<00:00,  1.13s/it]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:17<00:00,  1.92s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.15it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:04<00:00,  1.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:03<00:00,  2.19it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 11/11 [00:09<00:00,  1.16it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 11/11 [00:15<00:00,  1.39s/it]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  2.10it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:10<00:00,  1.19s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:11<00:00,  1.24s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:04<00:00,  1.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.11it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.71it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:06<00:00,  1.03s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:11<00:00,  1.41s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:06<00:00,  1.08s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:05<00:00,  1.09s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.58it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.61it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00,  1.14it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:05<00:00,  1.12it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.80it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:07<00:00,  1.20s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.91it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.79it/s]
100%|███████████████████████████████████

100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.86it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.43it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:02<00:00,  1.48it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:04<00:00,  1.06s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:05<00:00,  1.31s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:05<00:00,  1.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:06<00:00,  1.07it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:34<00:00,  1.14s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.86it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:09<00:00,  1.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:12<00:00,  1.04it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:45<00:00,  1.53s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:35<00:00,  1.20s/it]
100%|████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.19s/it]
100%|███████████████████████████████████