In [20]:
!pip install pyannote.audio
!pip install pysrt
!pip install moviepy



In [21]:
import os
from pyannote.audio import Pipeline
import pysrt
from moviepy.editor import VideoFileClip
import multiprocessing

In [22]:
# Inicializamos el pipeline de diarización de Pyannote
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1",
                                    use_auth_token="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")

In [23]:
# Función para cargar y procesar el archivo de subtítulos SRT
def load_srt(subtitle_file):
    return pysrt.open(subtitle_file)

In [24]:
# Función para convertir los tiempos del subtítulo a segundos
def time_to_seconds(time_obj):
    return time_obj.hours * 3600 + time_obj.minutes * 60 + time_obj.seconds + time_obj.milliseconds / 1000

In [25]:
# Diarización de un archivo de audio
def diarize_audio(audio_file):
    diarization = pipeline(audio_file)
    segments = []
    for turn, _, speaker in diarization.itertracks(yield_label=True):
        segments.append({
            'speaker': speaker,
            'start': turn.start,
            'end': turn.end
        })
    return segments

In [26]:
# Función para alinear subtítulos con los segmentos de la diarización
def align_diarization_with_subtitles(segments, subtitles):
    aligned_segments = []
    for sub in subtitles:
        sub_start = time_to_seconds(sub.start)
        sub_end = time_to_seconds(sub.end)

        # Dividimos los diálogos si hay un guion (más de un hablante)
        dialogues = sub.text.split('-')

        fragment_alignment = []
        for i, dialogue in enumerate(dialogues):
            found = False
            for segment in segments:
                # Si el segmento de audio coincide con el tiempo del subtítulo
                if sub_start <= segment['end'] and sub_end >= segment['start']:
                    fragment_alignment.append({
                        'speaker': segment['speaker'],
                        'dialogue': dialogue.strip()  # Limpiamos el texto
                    })
                    found = True
                    break  # Detenemos si encontramos un match

            # Si no se encuentra un hablante coincidente, guardamos el diálogo sin cambios
            if not found:
                fragment_alignment.append({
                    'speaker': 'Unknown',  # O puedes dejarlo vacío
                    'dialogue': dialogue.strip()
                })

        # Agregamos el alineamiento del subtítulo con los diálogos
        aligned_segments.append({
            'start': sub.start,
            'end': sub.end,
            'dialogues': fragment_alignment
        })

    return aligned_segments

In [27]:
# Función para actualizar el archivo SRT con los hablantes
def update_srt_with_speakers(subtitles, aligned_segments):
    for sub, aligned in zip(subtitles, aligned_segments):
        # Reconstruimos el texto del subtítulo manteniendo la estructura
        new_text = ""
        for dialogue in aligned['dialogues']:
            new_text += f"Speaker {dialogue['speaker']}: {dialogue['dialogue']}\n"

        # Actualizamos el texto del subtítulo sin perder diálogos
        sub.text = new_text.strip()  # Mantenemos el formato correcto
    return subtitles

In [28]:
# Guardar los subtítulos actualizados en un nuevo archivo
def save_updated_srt(subtitles, output_file):
    subtitles.save(output_file, encoding='utf-8')

In [29]:
# Función principal para el procesamiento de un video
def process_video(video_path, subtitle_path, output_srt_path):
    try:
        print(f"Procesando video: {video_path}...")  # Añadir este print para ver el progreso
        # Extraer el audio del video
        video = VideoFileClip(video_path)
        audio_path = f"{os.path.splitext(video_path)[0]}_audio.wav"

        if not os.path.exists(audio_path):  # Solo extraer el audio si no existe
            video.audio.write_audiofile(audio_path, codec='pcm_s16le', fps=16000, nbytes=2)

        # Obtener los subtítulos
        subtitles = load_srt(subtitle_path)

        # Diarización del audio
        diarization_segments = diarize_audio(audio_path)

        # Alinear la diarización con los subtítulos
        aligned_segments = align_diarization_with_subtitles(diarization_segments, subtitles)

        # Actualizar los subtítulos con los hablantes
        updated_subtitles = update_srt_with_speakers(subtitles, aligned_segments)

        # Guardar los subtítulos actualizados
        save_updated_srt(updated_subtitles, output_srt_path)
        print(f"Subtítulos actualizados guardados en: {output_srt_path}")

        # Eliminar el archivo de audio temporal
        os.remove(audio_path)

    except Exception as e:
        print(f"Error procesando {video_path}: {e}")

In [41]:
path= '/content/drive/Shareddrives/Capstone/preprocessing_wip_Maite'

path_video= '/content/drive/Shareddrives/Capstone/preprocessing_wip_Maite/Breaking Bad 1x01.Piloto.(Spanish.English.Subs).HD.1080p.HEVC-AAC.by.Geot.mkv'

path_subtitles= '/content/drive/Shareddrives/Capstone/preprocessing_wip_Maite/breaking_bad_1x1_subs.srt'

process_video(path_video, path_video, path)

Procesando video: /content/drive/Shareddrives/Capstone/preprocessing_wip_Maite/Breaking Bad 1x01.Piloto.(Spanish.English.Subs).HD.1080p.HEVC-AAC.by.Geot.mkv...
Error procesando /content/drive/Shareddrives/Capstone/preprocessing_wip_Maite/Breaking Bad 1x01.Piloto.(Spanish.English.Subs).HD.1080p.HEVC-AAC.by.Geot.mkv: [Errno 21] Is a directory: '/content/drive/Shareddrives/Capstone/preprocessing_wip_Maite/'


In [30]:
# Función envolvente para uso en multiprocessing
def process_video_wrapper(args):
    return process_video(*args)

In [31]:
# Bucle para procesar todos los videos y subtítulos en la carpeta con multiprocessing
def process_videos_in_folder(video_dir):
    files_to_process = []
    for filename in os.listdir(video_dir):
        if filename.endswith(".mkv"):
            video_path = os.path.join(video_dir, filename)
            base_name = os.path.splitext(filename)[0]
            subtitle_file = f"{base_name}.srt"
            subtitle_path = os.path.join(video_dir, subtitle_file)

            if os.path.exists(subtitle_path):
                output_srt_path = os.path.join(video_dir, f"{base_name}_updated.srt")
                files_to_process.append((video_path, subtitle_path, output_srt_path))
            else:
                print(f"Subtítulos no encontrados para: {filename}")

    # Procesar los videos en paralelo con un número limitado de procesos
    print("Comenzando el procesamiento de videos en paralelo...")

    for args in files_to_process:
        process_video_wrapper(args)

    print("Procesamiento completo.")

In [32]:
# Ejemplo de uso
video_dir = '/content/drive/Shareddrives/Capstone/preprocessing_wip_Maite'
process_videos_in_folder(video_dir)

Subtítulos no encontrados para: Breaking Bad 1x01.Piloto.(Spanish.English.Subs).HD.1080p.HEVC-AAC.by.Geot.mkv
Comenzando el procesamiento de videos en paralelo...
Procesamiento completo.


In [33]:
import os

video_folder_path = r'/Desktop/Breaking_Bad'

if os.path.exists(video_folder_path):
    print("Directory exists")
else:
    print("Directory does not exist")

Directory does not exist
