# LikeU Speech2text

---

David Cardona Duque


## Instalación de bibliotecas necesarias




In [None]:
pip install accelerate

In [None]:
pip install pydub

In [None]:
pip install whisper-timestamped

In [None]:
pip install pyannote.audio


## Importación de las bibliotecas necesarias




In [5]:
import torch
from pyannote.audio import Pipeline
from pydub import AudioSegment
import datetime
import whisper_timestamped as whisper
import time

  torchaudio.set_audio_backend("soundfile")


Importing the dtw module. When using in academic works please cite:
  T. Giorgino. Computing and Visualizing Dynamic Time Warping Alignments in R: The dtw Package.
  J. Stat. Soft., doi:10.18637/jss.v031.i07.




## Función de transcripción y diarizacion




In [None]:


def format_time(seconds):
    """ Convertir segundos a formato de tiempo HH:MM:SS """
    return str(datetime.timedelta(seconds=int(seconds)))

def diarization(audio_file):
      # Inicializar el modelo de diarización de pyannote
    diarization_pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token="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")
    diarization_pipeline.to(torch.device("cuda"))


    # Ejecutar diarización
    diarization = diarization_pipeline(audio_file, num_speakers=2)

    return diarization

def transcribir_unificar(audio_file,model,nombre_archivo,diarization):


    # Cargar y configurar el modelo de Whisper para el archivo completo
    audio = whisper.load_audio(audio_file)
    transcription_result = whisper.transcribe(model, audio, language="es", vad=True,detect_disfluencies=True,
                                               beam_size=5, best_of=5, temperature=(0.0, 0.2, 0.4, 0.6, 0.8, 1.0))
    # Preparar el archivo de salida y procesar la diarización y transcripción
    with open(f"transcription{nombre_archivo}.txt", "w", encoding='utf-8') as output_file:
        last_speaker = None
        last_start = 0
        last_end = 0
        last_transcription = ""
        total_confidence = 0
        segments = transcription_result['segments']

        for i, segment in enumerate(segments):
            start_time = segment['start']
            end_time = segment['end']
            transcript_text = segment['text'].strip()
            segment_confidence = segment['confidence']
            total_confidence += segment_confidence

            # Buscar el hablante que más se solapa con este segmento
            speaker_label = None
            max_overlap = 0
            for turn, _, speaker in diarization.itertracks(yield_label=True):
                overlap = min(end_time, turn.end) - max(start_time, turn.start)
                if overlap > max_overlap:
                    max_overlap = overlap
                    speaker_label = speaker

            # Si no hay hablante identificado y estamos en el primer o último segmento, asignamos el último o el primer hablante conocido
            if not speaker_label:
                if i == 0:
                    speaker_label = last_speaker  # Use the last known speaker for the first segment if none identified
                elif i == len(segments) - 1:
                    speaker_label = last_speaker  # Use the last known speaker for the last segment if none identified

            # Combinar segmentos si el hablante es el mismo y no hay pausa significativa
            if speaker_label == last_speaker and (start_time - last_end) < 1:
                last_end = end_time
                last_transcription += " " + transcript_text
            else:
                if last_speaker is not None:
                    # Escribir el segmento previo
                    output_file.write(f"{format_time(last_start)} - {format_time(last_end)} [{last_speaker}]: {last_transcription}\n")
                last_speaker = speaker_label
                last_start = start_time
                last_end = end_time
                last_transcription = transcript_text
        # Calcular y mostrar la confianza promedio por segmento para toda la transcripción
        average_confidence = total_confidence /  len(transcription_result['segments']) if transcription_result['segments'] else 0
        print(f"Diarization and transcription completed. Average segment confidence: {average_confidence:.2f}")
    return(average_confidence)




## Definicion del ciclo de uso diferenciado de modelo basado en la confianza promedio de los segmentos

### Diarizacion

In [None]:
audio_path = "1001764369_1.WAV"

inicio = time.time()
diarizacion=diarization(audio_path)
fin = time.time()

tiempo_ejecucion_diarizacion = fin - inicio


### Transcripcion y unificacion

In [None]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

modelos_disponibles=['small','medium','large-v3']

confianzas=[]

tiempos_ejecucion_transcripcion=[]

average_confidence=0


for modelo in modelos_disponibles:
  if average_confidence <= 0.80:

    model = whisper.load_model(modelo, device=device)

    audio_path = "1001764369_1.WAV"
    inicio = time.time()
    average_confidence=transcribir_unificar(audio_path,model,modelo,diarizacion)
    fin = time.time()

    tiempo_ejecucion = fin - inicio
    tiempos_ejecucion_transcripcion.append(tiempo_ejecucion)
    confianzas.append(average_confidence)
  else:
      print(average_confidence)


100%|██████████| 55369/55369 [01:25<00:00, 650.34frames/s]


Diarization and transcription completed. Average segment confidence: 0.33


100%|██████████| 55369/55369 [03:48<00:00, 242.48frames/s]


Diarization and transcription completed. Average segment confidence: 0.34


100%|█████████████████████████████████████| 2.88G/2.88G [00:54<00:00, 56.3MiB/s]
100%|██████████| 55369/55369 [04:05<00:00, 225.66frames/s]


Diarization and transcription completed. Average segment confidence: 0.54


### Analisis de confianza y tiempos de ejecucion

In [None]:
print(confianzas)

[0.33244811320754725, 0.33660606060606046, 0.5392719999999999]


In [None]:
print(tiempos_ejecucion_transcripcion)

[183.18469500541687, 411.6933948993683, 538.7805020809174]


In [None]:
print(tiempo_ejecucion_diarizacion)

244.7913806438446


In [None]:
import plotly.graph_objects as go

tiempos_ejecucion_transcripcion = [183.18469500541687, 411.6933948993683, 538.7805020809174]
confianza = [0.33, 0.34, 0.54]
tiempodeejecuciondiarizacion = 244.7913806438446# Tiempo general de diarización en segundos
modelos = ['Small', 'Medium', 'Largev3']  # Etiquetas para cada modelo

# Crear figura de Plotly
fig = go.Figure()

# Añadir traza para los tiempos de ejecución de la transcripción
fig.add_trace(go.Bar(
    x=modelos,
    y=tiempos_ejecucion_transcripcion,
    name='Tiempo de Ejecución Transcripción',
    marker_color='indianred',
    yaxis='y'
))

# Añadir traza para la confianza
fig.add_trace(go.Scatter(
    x=modelos,
    y=confianza,
    name='Confianza',
    marker_color='blue',
    yaxis='y2'
))

# Configuración de los ejes
fig.update_layout(
    title='Tiempo de Ejecución y Confianza por Modelo de Transcripción',
    xaxis=dict(title='Modelo'),
    yaxis=dict(title='Tiempo de Ejecución (s)', side='left', range=[0, max(tiempos_ejecucion_transcripcion) + 10]),
    yaxis2=dict(title='Confianza', overlaying='y', side='right', range=[0.3, 0.6], tickformat=".0%"),
    legend=dict(x=0.01, y=0.99, bordercolor='Black', borderwidth=1),
    plot_bgcolor='floralwhite'
)

# Añadir una línea horizontal para el tiempo de diarización
fig.add_hline(y=tiempodeejecuciondiarizacion, line_dash="dash", annotation_text="Tiempo de Diarización General",
              annotation_position="bottom right")

# Mostrar figura
fig.show()


### Conclusion



Usar de manera directa el modelo large-v3 debido a que la confianza obtendia por los modelos Small y Medium en un audio de buena calidad es demasiado mala como para perder recursos y tiempo de ejecucion en correrlos

## Analisis de conversion de formato

### Explicacion formatos

**MP3 con libmp3lame (Bitrate: 128 kbps)**

Formato y Codec: MP3 es uno de los formatos de audio más populares y comunes. Utiliza el codec libmp3lame, una implementación de alta calidad del estándar MP3.

  - Pros: Altamente compatible con casi todos los dispositivos y plataformas de software. Buena reducción del tamaño del archivo con una pérdida de calidad relativamente baja a bitrates moderados o altos.
  - Contras: Es un formato con pérdida, lo que significa que la calidad del audio se reduce al comprimir. A 128 kbps, la calidad es aceptable para la mayoría de los usos pero no es óptima para aplicaciones que requieren alta fidelidad.


**FLAC**

Formato y Codec: FLAC (Free Lossless Audio Codec) es un codec de compresión de audio sin pérdida, lo que significa que el audio se comprime sin perder ninguna información.

  - Pros: Calidad de audio perfecta, sin pérdidas respecto al original. El tamaño del archivo es menor que el WAV sin compresión, aunque más grande que los formatos con pérdida.
  - Contras: Los archivos son más grandes en comparación con MP3 o AAC a bitrates bajos o medios. No todos los dispositivos o sistemas lo soportan de manera nativa.

**WAV con PCM**

Formato y Codec: WAV es un formato de audio sin compresión que utiliza modulación por impulsos codificados (PCM) para representar el audio.

  - Pros: Calidad de audio sin pérdidas, perfectamente fiel al original. Ideal para edición profesional de audio y para aplicaciones que requieren la máxima calidad.
  - Contras: Tamaño de archivo muy grande, lo que lo hace impráctico para distribución o streaming.

### Conversion

In [None]:
conversiones = [
    ("output_mp3_128k.mp3", "libmp3lame", "128k"),  # MP3 con bitrate de 128 kbps
    ("output_flac.flac", "flac", None),             # FLAC sin pérdida
    ("output_wav_pcm.wav", "pcm_s16le", None)       # WAV sin compresión
]


In [None]:
import os

input_file = "1001764369_1.WAV"

for output_file, codec, bitrate in conversiones:
    if bitrate:
        # Comando para conversiones con bitrate específico
        command = f"ffmpeg -i {input_file} -acodec {codec} -ar 44100 -b:a {bitrate} {output_file}"
    else:
        # Comando para conversiones sin bitrate específico (sin pérdida)
        command = f"ffmpeg -i {input_file} -acodec {codec} -ar 44100 {output_file}"
    os.system(command)
    print(f"Archivo {output_file} creado.")


Archivo output_mp3_128k.mp3 creado.
Archivo output_flac.flac creado.
Archivo output_wav_pcm.wav creado.


### Ejecucion por formato

In [None]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"

audios_disponibles=['output_flac.flac','output_wav_pcm.wav','output_mp3_128k.mp3']

confianzas=[]

tiempos_ejecucion_transcripcion=[]
tiempo_ejecucion_diarizacion=[]





model = whisper.load_model('small', device=device)

for audio in audios_disponibles:

    inicio = time.time()
    diarizacion=diarization(audio)
    fin = time.time()

    tiempo_ejecucion = fin - inicio
    tiempo_ejecucion_diarizacion.append(tiempo_ejecucion)


    inicio = time.time()
    average_confidence=transcribir_unificar(audio,model,audio,diarizacion)
    fin = time.time()

    tiempo_ejecucion = fin - inicio
    tiempos_ejecucion_transcripcion.append(tiempo_ejecucion)
    confianzas.append(average_confidence)



### Analisis por *formato*

In [None]:
print(tiempo_ejecucion_diarizacion)

[233.2945876121521, 63.3612494468689]


In [None]:
print(tiempos_ejecucion_transcripcion)

[175.1899130344391, 171.5346760749817]


In [None]:
print(confianzas)

[0.33244811320754725, 0.33244811320754725]


In [None]:
import plotly.graph_objects as go
tiempos_diarizacion=[237.9792275428772, 62.86481809616089,244.7913806438446]
confianza = [0.33244811320754725,0.33244811320754725,0.33244811320754725]
tiempos_ejecucion_transcripcion = [179.8800847530365,169.21809124946594,183.18469500541687]  # Tiempos de diarización variables
modelos = ['FLAC', 'WAV','WAV49']  # Etiquetas para cada modelo

# Crear figura de Plotly
fig = go.Figure()

# Añadir traza para los tiempos de ejecución de la transcripción
fig.add_trace(go.Bar(
    x=modelos,
    y=tiempos_ejecucion_transcripcion,
    name='Tiempo de Ejecución Transcripción',
    marker_color='indianred'
))

# Añadir traza para la confianza
fig.add_trace(go.Scatter(
    x=modelos,
    y=confianza,
    name='Confianza',
    marker_color='blue',
    yaxis='y2'
))

# Añadir traza para los tiempos de diarización
fig.add_trace(go.Scatter(
    x=modelos,
    y=tiempos_diarizacion,
    name='Tiempo de Diarización',
    marker_color='green',
    mode='lines+markers'  # Usando líneas y marcadores para destacar los puntos
))

# Configuración de los ejes
fig.update_layout(
    title='Tiempo de Ejecución y Confianza por Modelo de Transcripción',
    xaxis=dict(title='Modelo'),
    yaxis=dict(title='Tiempo de Ejecución (s)', side='left', range=[0, max(tiempos_ejecucion_transcripcion + tiempos_diarizacion) + 100]),
    yaxis2=dict(title='Confianza', overlaying='y', side='right', range=[min(confianza) - 0.1, max(confianza) + 0.1], tickformat=".0%"),
    legend=dict(x=0.01, y=0.99, bordercolor='Black', borderwidth=1),
    plot_bgcolor='floralwhite'
)

# Mostrar figura
fig.show()


### Conclusion



Usar el formato WAV sin compresion, ya que el tiempo de ejecucion de la diarizacion se reduce de manera significativa en comparacion a los otros formatos y codecs

## Funcion final con las conclusiones dadas

In [14]:
import torch
from pyannote.audio import Pipeline
from pydub import AudioSegment
import datetime
import whisper_timestamped as whisper
import time
import os
import gc

In [2]:
# Inicializar el modelo de diarización de pyannote
diarization_pipeline = Pipeline.from_pretrained(
"pyannote/speaker-diarization-3.1",
use_auth_token="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")
diarization_pipeline.to(torch.device("cuda"))
device = "cuda:0" if torch.cuda.is_available() else "cpu"


model = whisper.load_model("large-v3", device=device)


config.yaml:   0%|          | 0.00/469 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/5.91M [00:00<?, ?B/s]

config.yaml:   0%|          | 0.00/399 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/26.6M [00:00<?, ?B/s]

config.yaml:   0%|          | 0.00/221 [00:00<?, ?B/s]

100%|█████████████████████████████████████| 2.88G/2.88G [01:00<00:00, 50.8MiB/s]


In [5]:
def format_time(seconds):
    """ Convertir segundos a formato de tiempo HH:MM:SS """
    return str(datetime.timedelta(seconds=int(seconds)))

In [12]:

def conversion_diarizacion_transcripcion(input_file,model,nombre_salida):
  conversiones = [
      ("output_wav_pcm.wav", "pcm_s16le", None)       # WAV sin compresión
  ]



  for output_file, codec, bitrate in conversiones:
      if bitrate:
          # Comando para conversiones con bitrate específico
          command = f"ffmpeg -i {input_file} -acodec {codec} -ar 44100 -b:a {bitrate} {output_file}"
      else:
          # Comando para conversiones sin bitrate específico (sin pérdida)
          command = f"ffmpeg -i {input_file} -acodec {codec} -ar 44100 {output_file}"
      os.system(command)
      print(f"Archivo {output_file} creado.")



    # Ejecutar diarización
  inicio_diarizacion = time.time()

  diarization = diarization_pipeline("output_wav_pcm.wav", num_speakers=2)
  final_diarizacion = time.time()

  tiempo_diarizacion=final_diarizacion-inicio_diarizacion


  # Cargar y configurar el modelo de Whisper para el archivo completo
  inicio_transcripcion = time.time()

  audio = whisper.load_audio("output_wav_pcm.wav")
  transcription_result = whisper.transcribe(model, "output_wav_pcm.wav", language="es", vad=True,detect_disfluencies=True,
                                               beam_size=5, best_of=5, temperature=(0.0, 0.2, 0.4, 0.6, 0.8, 1.0))
  final_transcripcion = time.time()

  tiempo_transcripcion=final_transcripcion-inicio_transcripcion

    # Preparar el archivo de salida y procesar la diarización y transcripción
  with open(f"{nombre_salida}.txt", "w", encoding='utf-8') as output_file:
        last_speaker = None
        last_start = 0
        last_end = 0
        last_transcription = ""
        total_confidence = 0
        segments = transcription_result['segments']

        for i, segment in enumerate(segments):
            start_time = segment['start']
            end_time = segment['end']
            transcript_text = segment['text'].strip()
            segment_confidence = segment['confidence']
            total_confidence += segment_confidence

            # Buscar el hablante que más se solapa con este segmento
            speaker_label = None
            max_overlap = 0
            for turn, _, speaker in diarization.itertracks(yield_label=True):
                overlap = min(end_time, turn.end) - max(start_time, turn.start)
                if overlap > max_overlap:
                    max_overlap = overlap
                    speaker_label = speaker

            # Si no hay hablante identificado y estamos en el primer o último segmento, asignamos el último o el primer hablante conocido
            if not speaker_label:
                if i == 0:
                    speaker_label = last_speaker  # Use the last known speaker for the first segment if none identified
                elif i == len(segments) - 1:
                    speaker_label = last_speaker  # Use the last known speaker for the last segment if none identified

            # Combinar segmentos si el hablante es el mismo y no hay pausa significativa
            if speaker_label == last_speaker and (start_time - last_end) < 1:
                last_end = end_time
                last_transcription += " " + transcript_text
            else:
                if last_speaker is not None:
                    # Escribir el segmento previo
                    output_file.write(f"{format_time(last_start)} - {format_time(last_end)} [{last_speaker}]: {last_transcription}\n")
                last_speaker = speaker_label
                last_start = start_time
                last_end = end_time
                last_transcription = transcript_text
        # Calcular y mostrar la confianza promedio por segmento para toda la transcripción
        average_confidence = total_confidence /  len(transcription_result['segments']) if transcription_result['segments'] else 0
        print(f"Diarization and transcription completed. Average segment confidence: {average_confidence:.2f}")


  del diarization
  del audio
  del transcription_result
  gc.collect()  # Opcional: Invoca al recolector de basura de Python
  if torch.cuda.is_available():
      torch.cuda.empty_cache()  # Libera memoria no utilizada en la cache de CUDA

  return(average_confidence,tiempo_diarizacion,tiempo_transcripcion)





In [16]:
conversion_diarizacion_transcripcion("14838701_2.WAV",model,'PruebaFuncion')

Archivo output_wav_pcm.wav creado.


100%|██████████| 7108/7108 [00:23<00:00, 297.44frames/s]


Diarization and transcription completed. Average segment confidence: 0.46


(0.462608695652174, 7.148882627487183, 54.36943340301514)