## Usando audios de LikeU

In [1]:
import whisper
import os

In [2]:
import torch
torch.cuda.is_available()

True

## Prueba con audio complicado

In [3]:
# Prueba inicial con audio defectuoso
aux = whisper.load_audio("14838701_2.WAV")
mod_likeu = whisper.load_model("large", device = "cuda")
result_likeu = mod_likeu.transcribe(audio = aux)
result_likeu["text"]

' Aló. Aló, buenas tardes. Me vuelvo a hablar con el señor Alejandro. ¿Con él habla? Con Natalia Montoya de Sudamericana. ¿Cómo has estado? ¿De dónde, perdón? Natalia Montoya de Sudamericana. Hola, Natalia, ¿cómo estás? Muy bien, muchas gracias. Bueno, te estoy contactando para validar contigo si ya te llegó toda la documentación, la carácter de la póliza, si ya la pudiste validar, o si aún no te ha llegado para reenviártela. Sí, está quedando la píxel igual mismo día que hablamos. ¿Cómo? ¿Llegó el mismo día? Sí, llegó el mismo día. Ah, bueno, perfecto. Entonces, pues la idea es que era confirmar que el registro de evidencia de tu póliza quedó desde el 23 de marzo del 2024 para que sepas que desde ese día está protegida tu módulo de visto. Visto de una. Muchas gracias, Alejandro. Una excelente tarde. Dale, con gusto, gracias. Que estés bien, hasta luego. Chao.'

## Prueba con los audios buenos

In [4]:
# Destacar que los audios con buena calidad tienen una duración larga
mod_medium = whisper.load_model("medium", device = "cuda")
result_buena_calidad = mod_medium.transcribe(audio = "1001764369_1.WAV")
result_buena_calidad["text"]

' Hola. Sí, bueno, sí, Juan Cartagena. Sí. Hola, la policía de seguridad, ¿cómo estás? Muy bien. Qué bueno, me alegro. Juan, vimos en nuestro sistema tu interés por asegurar tu moto con la polis a todo riesgo, con placas RKQ, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX. Sí. Sí, Juan. Mierda. Y luego me atreves a dar la decisión. Sí. Sí. Me pide que me止es con nosotros. Sí. Luiz, su nombre es Juan Cartagena. Sí. Sí. Hola, la policía de seguridad de Suura, ¿Cómo estás? Muy bien. Ay, qué bueno, me alegro. Juan, vimos en nuestro sistema tu interés por asegurar tu moto con la policía a todo riesgo, con placas RKQ, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, cuando ingresaste al sistema pudiste ver los valores. ¿Hola? Cuando ingresaste al sistema pudiste ver los valores. Eh, sí, más o menos. ¿Alguno puede llamar a la atención? Eh... ¿Me puedes 

In [5]:
# Intento de organizar el texto en segmentos de textos segun los timestamps
result_buena_calidad["segments"]
segmentos = result_buena_calidad["segments"] # Se guarda la lista en un objeto

In [6]:
segmentos[1]

{'id': 1,
 'seek': 0,
 'start': 1.0,
 'end': 2.0,
 'text': ' Sí, bueno, sí, Juan Cartagena.',
 'tokens': [50414,
  12375,
  11,
  11974,
  11,
  8600,
  11,
  17064,
  22478,
  559,
  4118,
  13,
  50464],
 'temperature': 0.0,
 'avg_logprob': -0.27097225613064235,
 'compression_ratio': 2.2486486486486488,
 'no_speech_prob': 0.6625902056694031}

## Notas de la documentación de Whisper
* id: Identificador único del segmento de audio
* seek: Buscar compensación del segmento (google translator)
* start: Inicio del segmento de audio (segundos)
* end: Finalización del segmento de audio (segundos)
* text: Contenido textual del segmento (transcripción)
* tokens: Arreglo de los tokens correspondientes a cada palabra transcrita.
* temperature: Parámetro de "temperature" para generar el segmento
* avg_logprob: logprob promedio para el segmento. Si el valor es menor a -1, considere que logprobs falló.
* compression_ratio: Tasa de compresión del segmento. Valores mayores a 2.4, se consideran fallidos.
* no_speech_prob: Probabilidad de que no haya charla en el segmento. Si el valor es mayor a 1 entonces su respectivo avg_logprob será menor a -1. Considere el segmento como silencioso.

In [7]:
from operator import itemgetter
segmentos = result_buena_calidad["segments"]
szs = itemgetter("id", "start", "end", "text")(segmentos[1]) # Probando on itemgetter
szs

(1, 1.0, 2.0, ' Sí, bueno, sí, Juan Cartagena.')

In [8]:
# Ensayo de conversacion con timestamps
for segment in segmentos:
    aux_info = itemgetter("id", "start", "end", "text")(segment)
    print(f"[{aux_info[1]} --- {aux_info[2]}]: {aux_info[3]}")

[0.0 --- 1.0]:  Hola.
[1.0 --- 2.0]:  Sí, bueno, sí, Juan Cartagena.
[2.0 --- 3.0]:  Sí.
[3.0 --- 4.0]:  Hola, la policía de seguridad, ¿cómo estás?
[4.0 --- 5.0]:  Muy bien.
[5.0 --- 6.0]:  Qué bueno, me alegro.
[6.0 --- 7.0]:  Juan, vimos en nuestro sistema tu interés por asegurar tu moto con la polis a todo riesgo,
[7.0 --- 8.0]:  con placas RKQ, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX,
[8.0 --- 9.0]:  TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX,
[9.08 --- 10.08]:  TX.
[10.08 --- 11.08]:  Sí.
[11.08 --- 12.08]:  Sí, Juan.
[12.08 --- 13.08]:  Mierda.
[13.08 --- 14.08]:  Y luego me atreves a dar la decisión.
[14.08 --- 15.08]:  Sí.
[15.08 --- 16.08]:  Sí.
[16.08 --- 17.08]:  Me pide que me止es con nosotros.
[17.08 --- 18.08]:  Sí.
[18.08 --- 19.08]:  Luiz, su nombre es Juan Cartagena.
[19.08 --- 20.08]:  Sí.
[20.08 --- 21.08]:  Sí.
[21.08 --- 22.08]:  Hola, la policía de seguridad de Suura, ¿Cómo estás?
[22.08 --

In [9]:
# Intento con dataframe de pandas
import pandas as pd
df = pd.DataFrame(segmentos)
df.head(25)

Unnamed: 0,id,seek,start,end,text,tokens,temperature,avg_logprob,compression_ratio,no_speech_prob
0,0,0,0.0,1.0,Hola.,"[50364, 22637, 13, 50414]",0.0,-0.270972,2.248649,0.66259
1,1,0,1.0,2.0,"Sí, bueno, sí, Juan Cartagena.","[50414, 12375, 11, 11974, 11, 8600, 11, 17064,...",0.0,-0.270972,2.248649,0.66259
2,2,0,2.0,3.0,Sí.,"[50464, 12375, 13, 50514]",0.0,-0.270972,2.248649,0.66259
3,3,0,3.0,4.0,"Hola, la policía de seguridad, ¿cómo estás?","[50514, 22637, 11, 635, 6285, 2686, 368, 35415...",0.0,-0.270972,2.248649,0.66259
4,4,0,4.0,5.0,Muy bien.,"[50564, 39586, 3610, 13, 50614]",0.0,-0.270972,2.248649,0.66259
5,5,0,5.0,6.0,"Qué bueno, me alegro.","[50614, 23662, 11974, 11, 385, 44491, 340, 13,...",0.0,-0.270972,2.248649,0.66259
6,6,0,6.0,7.0,"Juan, vimos en nuestro sistema tu interés por...","[50664, 17064, 11, 49266, 465, 14726, 13245, 2...",0.0,-0.270972,2.248649,0.66259
7,7,0,7.0,8.0,"con placas RKQ, TX, TX, TX, TX, TX, TX, TX, T...","[50714, 416, 20831, 296, 497, 42, 48, 11, 314,...",0.0,-0.270972,2.248649,0.66259
8,8,0,8.0,9.0,"TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, TX, T...","[50764, 314, 55, 11, 314, 55, 11, 314, 55, 11,...",0.0,-0.270972,2.248649,0.66259
9,9,900,9.08,10.08,TX.,"[50368, 314, 55, 13, 50418]",0.8,-0.794644,1.789272,0.449881


In [11]:
df[df.temperature != 0]

Unnamed: 0,id,seek,start,end,text,tokens,temperature,avg_logprob,compression_ratio,no_speech_prob
9,9,900,9.08,10.08,TX.,"[50368, 314, 55, 13, 50418]",0.8,-0.794644,1.789272,0.449881
10,10,900,10.08,11.08,Sí.,"[50418, 12375, 13, 50468]",0.8,-0.794644,1.789272,0.449881
11,11,900,11.08,12.08,"Sí, Juan.","[50468, 12375, 11, 17064, 13, 50518]",0.8,-0.794644,1.789272,0.449881
12,12,900,12.08,13.08,Mierda.,"[50518, 376, 811, 2675, 13, 50568]",0.8,-0.794644,1.789272,0.449881
13,13,900,13.08,14.08,Y luego me atreves a dar la decisión.,"[50568, 398, 17222, 385, 412, 265, 977, 257, 4...",0.8,-0.794644,1.789272,0.449881
14,14,900,14.08,15.08,Sí.,"[50618, 12375, 13, 50668]",0.8,-0.794644,1.789272,0.449881
15,15,900,15.08,16.08,Sí.,"[50668, 12375, 13, 50718]",0.8,-0.794644,1.789272,0.449881
16,16,900,16.08,17.08,Me pide que me止es con nosotros.,"[50718, 1923, 280, 482, 631, 385, 30438, 279, ...",0.8,-0.794644,1.789272,0.449881
17,17,900,17.08,18.08,Sí.,"[50768, 12375, 13, 50818]",0.8,-0.794644,1.789272,0.449881
18,18,900,18.08,19.08,"Luiz, su nombre es Juan Cartagena.","[50818, 5047, 590, 11, 459, 13000, 785, 17064,...",0.8,-0.794644,1.789272,0.449881


## Ensayando con el pipeline de pyannote

In [8]:
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token="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")

# send pipeline to GPU (when available)
import torch
pipeline.to(torch.device("cuda"))

  torchaudio.set_audio_backend("soundfile")


<pyannote.audio.pipelines.speaker_diarization.SpeakerDiarization at 0x242f63a12d0>

In [13]:
f = open("14838701_2.WAV")
f.seekable()

True

In [29]:
# apply pretrained pipeline
diarization = pipeline("14838701_2.WAV")

ValueError: start is only allowed for seekable files

# Ensayo con WhisperX


In [3]:
import whisperx
import gc 

device = "cuda" 
audio_file = "14838701_2.WAV"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)

# 1. Transcribe with original whisper (batched)
model = whisperx.load_model("large-v2", device, compute_type=compute_type)

# save model to local path (optional)
# model_dir = "/path/"
# model = whisperx.load_model("large-v2", device, compute_type=compute_type, download_root=model_dir)

audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size, language="es")
print(result["segments"]) # before alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. Align whisper output
model_a, metadata = whisperx.load_align_model(language_code=result["language"], device=device)
result = whisperx.align(result["segments"], model_a, metadata, audio, device, return_char_alignments=False)

print(result["segments"]) # after alignment

# delete model if low on GPU resources
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. Assign speaker labels
diarize_model = whisperx.DiarizationPipeline(use_auth_token="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", device=device)

# add min/max number of speakers if known
diarize_segments = diarize_model(audio, num_speakers = 2)
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx.assign_word_speakers(diarize_segments, result)
print(diarize_segments)
print(result["segments"]) # segments are now assigned speaker IDs




  torchaudio.set_audio_backend("soundfile")


No language specified, language will be first be detected for each audio file (increases inference time).


Lightning automatically upgraded your loaded checkpoint from v1.5.4 to v2.2.2. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint C:\Users\usuario\.cache\torch\whisperx-vad-segmentation.bin`


Model was trained with pyannote.audio 0.0.1, yours is 3.1.1. Bad things might happen unless you revert pyannote.audio to 0.x.
Model was trained with torch 1.10.0+cu102, yours is 2.2.2+cu118. Bad things might happen unless you revert torch to 1.x.
[{'text': ' ¿Aló? Aló, buenas tardes, me vuelve un gusto hablar con el señor Alejandro. ¿Y con él habla? Con Natalia Montoya de Zúra, ¿cómo has estado? ¿De dónde, perdón? Natalia Montoya de Zúra Americana. Hola Natalia, ¿cómo estás? Muy bien, muchas gracias. Bueno, te estoy contactando para validar contigo si ya te llegó toda la documentación, la característica de la póliza, si ya la pudiste validar, o si aún no te ha llegado para reenviártela.', 'start': 22.534, 'end': 50.111}, {'text': ' Si está quedando la pista llegó al mismo día que volvamos. ¿Cómo? ¿Llegó el mismo día? Sí, llegó al mismo día. Ah, bueno, perfecto. Entonces, pues la idea era confirmar eso. La clínica de evidencia de tu póliza quedó desde el 23 de marzo del 2004 para que se

In [20]:
import pandas as pd
pd.DataFrame(result["word_segments"])

Unnamed: 0,word,start,end,score,speaker
0,¿Aló?,22.674,23.975,0.575,SPEAKER_00
1,"Aló,",24.035,24.155,0.344,SPEAKER_01
2,buenas,24.175,24.415,0.424,SPEAKER_01
3,"tardes,",24.475,24.695,0.387,SPEAKER_01
4,me,24.715,24.795,0.254,SPEAKER_01
...,...,...,...,...,...
143,Que,78.106,78.207,0.178,SPEAKER_00
144,estés,78.347,78.488,0.182,SPEAKER_00
145,"bien,",78.508,78.649,0.219,SPEAKER_00
146,hasta,78.669,78.850,0.243,SPEAKER_00


In [32]:
import pandas as pd
pd.DataFrame(result['segments'])

Unnamed: 0,start,end,text,words,speaker
0,22.674,23.975,¿Aló?,"[{'word': '¿Aló?', 'start': 22.674, 'end': 23....",SPEAKER_00
1,24.035,26.536,"Aló, buenas tardes, me vuelve un gusto hablar ...","[{'word': 'Aló,', 'start': 24.035, 'end': 24.1...",SPEAKER_01
2,27.877,28.598,¿Y con él habla?,"[{'word': '¿Y', 'start': 27.877, 'end': 27.957...",SPEAKER_00
3,29.098,31.319,"Con Natalia Montoya de Zúra, ¿cómo has estado?","[{'word': 'Con', 'start': 29.098, 'end': 29.25...",SPEAKER_01
4,32.32,33.0,"¿De dónde, perdón?","[{'word': '¿De', 'start': 32.32, 'end': 32.42,...",SPEAKER_00
5,33.801,35.382,Natalia Montoya de Zúra Americana.,"[{'word': 'Natalia', 'start': 33.801, 'end': 3...",SPEAKER_01
6,35.402,37.543,"Hola Natalia, ¿cómo estás?","[{'word': 'Hola', 'start': 35.402, 'end': 36.5...",SPEAKER_00
7,38.524,39.925,"Muy bien, muchas gracias.","[{'word': 'Muy', 'start': 38.524, 'end': 38.68...",SPEAKER_01
8,40.705,49.891,"Bueno, te estoy contactando para validar conti...","[{'word': 'Bueno,', 'start': 40.705, 'end': 40...",SPEAKER_01
9,50.811,53.373,Si está quedando la pista llegó al mismo día ...,"[{'word': 'Si', 'start': 50.811, 'end': 51.111...",SPEAKER_00


In [45]:
result["segments"]

[{'start': 22.674,
  'end': 23.975,
  'text': ' ¿Aló?',
  'words': [{'word': '¿Aló?',
    'start': 22.674,
    'end': 23.975,
    'score': 0.575,
    'speaker': 'SPEAKER_00'}],
  'speaker': 'SPEAKER_00'},
 {'start': 24.035,
  'end': 26.536,
  'text': 'Aló, buenas tardes, me vuelve un gusto hablar con el señor Alejandro.',
  'words': [{'word': 'Aló,',
    'start': 24.035,
    'end': 24.155,
    'score': 0.344,
    'speaker': 'SPEAKER_01'},
   {'word': 'buenas',
    'start': 24.175,
    'end': 24.415,
    'score': 0.424,
    'speaker': 'SPEAKER_01'},
   {'word': 'tardes,',
    'start': 24.475,
    'end': 24.695,
    'score': 0.387,
    'speaker': 'SPEAKER_01'},
   {'word': 'me',
    'start': 24.715,
    'end': 24.795,
    'score': 0.254,
    'speaker': 'SPEAKER_01'},
   {'word': 'vuelve',
    'start': 24.835,
    'end': 24.976,
    'score': 0.126,
    'speaker': 'SPEAKER_01'},
   {'word': 'un',
    'start': 24.996,
    'end': 25.076,
    'score': 0.375,
    'speaker': 'SPEAKER_01'},
   {

In [47]:
# Ensayo de conversacion con timestamps
from operator import itemgetter
for segment in result["segments"]:
    aux_info = itemgetter("start", "end", "text", "speaker")(segment)
    print(f"[{aux_info[0]} - {aux_info[1]}]  [{aux_info[3]}]: {aux_info[2]}")

[22.674 - 23.975]  [SPEAKER_00]:  ¿Aló?
[24.035 - 26.536]  [SPEAKER_01]: Aló, buenas tardes, me vuelve un gusto hablar con el señor Alejandro.
[27.877 - 28.598]  [SPEAKER_00]: ¿Y con él habla?
[29.098 - 31.319]  [SPEAKER_01]: Con Natalia Montoya de Zúra, ¿cómo has estado?
[32.32 - 33.0]  [SPEAKER_00]: ¿De dónde, perdón?
[33.801 - 35.382]  [SPEAKER_01]: Natalia Montoya de Zúra Americana.
[35.402 - 37.543]  [SPEAKER_00]: Hola Natalia, ¿cómo estás?
[38.524 - 39.925]  [SPEAKER_01]: Muy bien, muchas gracias.
[40.705 - 49.891]  [SPEAKER_01]: Bueno, te estoy contactando para validar contigo si ya te llegó toda la documentación, la característica de la póliza, si ya la pudiste validar, o si aún no te ha llegado para reenviártela.
[50.811 - 53.373]  [SPEAKER_00]:  Si está quedando la pista llegó al mismo día que volvamos.
[55.235 - 55.435]  [SPEAKER_01]: ¿Cómo?
[55.976 - 56.916]  [SPEAKER_00]: ¿Llegó el mismo día?
[56.936 - 58.438]  [SPEAKER_00]: Sí, llegó al mismo día.
[59.298 - 60.439]  [SPEA