In [2]:
import pandas as pd

In [15]:
def combine_text_chunks(srt_file, chunk_duration):
    # Open the SRT file with UTF-8 encoding
    with open(srt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    combined_chunks = []
    current_chunk = {'start': None, 'end': None, 'text': ''}
    current_duration = 0

    for line in lines:
        line = line.strip()
        if line.isdigit():  # Check if the line is a number (indicating a new chunk)
            if current_chunk['start'] is not None:
                combined_chunks.append(current_chunk)
                current_chunk = {'start': None, 'end': None, 'text': ''}
                current_duration = 0
        elif '-->' in line:  # Check if the line contains a timestamp
            start, end = line.split('-->')
            current_chunk['start'] = start.strip().replace(',', '.')  # Replace comma with period
            current_chunk['end'] = end.strip().replace(',', '.')  # Replace comma with period
            # Calculate duration in seconds
            start_time = sum(float(x) * 60 ** i for i, x in enumerate(reversed(start.strip().replace(',', '.').split(':'))))
            end_time = sum(float(x) * 60 ** i for i, x in enumerate(reversed(end.strip().replace(',', '.').split(':'))))
            current_duration = end_time - start_time
        elif line:  # Check if the line is not empty
            current_chunk['text'] += line + ' '

        # Check if the combined duration of the chunks exceeds the desired duration
        if current_duration >= chunk_duration:
            combined_chunks.append(current_chunk)
            current_chunk = {'start': None, 'end': None, 'text': ''}
            current_duration = 0

    if current_chunk['start'] is not None:
        combined_chunks.append(current_chunk)

    # Combine text chunks for each specified duration
    combined_chunks_with_duration = []
    current_text = ''

    for chunk in combined_chunks:
        combined_chunks_with_duration.append({'text': chunk['text'].strip(), 'duration': current_duration})

    # Combine chunks within each 5-minute interval
    final_combined_chunks = []
    current_text = ''
    current_duration = 0

    for chunk in combined_chunks_with_duration:
        if current_duration + chunk['duration'] <= chunk_duration:
            current_text += chunk['text'] + ' '
            current_duration += chunk['duration']
        else:
            final_combined_chunks.append(current_text.strip())
            current_text = chunk['text'] + ' '
            current_duration = chunk['duration']

    if current_text:
        final_combined_chunks.append(current_text.strip())

    return final_combined_chunks

# Example usage:
srt_file = 'mwg_vn_2.srt'
chunk_duration = 300  # Duration in seconds (5 minutes)
combined_chunks = combine_text_chunks(srt_file, chunk_duration)
for i, chunk in enumerate(combined_chunks, start=1):
    print(f"Chunk {i} - Duration: {chunk_duration} seconds\n{chunk}\n")


Chunk 1 - Duration: 300 seconds
[âm nhạc] [âm nhạc] [Vỗ tay] [âm nhạc] [âm nhạc] [Vỗ tay] [âm nhạc] [Vỗ tay] [âm nhạc] [âm nhạc] [âm nhạc] Kính thưa quý vị chương trình Đại hội sẽ tiến hành trong kết thúc tới Xin vui lòng quý vị ổn định chỗ ngồi chiếc điện thoại sang chế độ rung để chương trình diễn ra thành công tốt đẹp Xin trân trọng cảm ơn tất cả quý vị [âm nhạc] [âm nhạc] [âm nhạc] [âm nhạc] Kính thưa quý vị xin phép được nhắc lại chương trình của chúng tôi sẽ chính thức bắt đầu trong ít phút tới Xin mời quý vị vui lòng ổn định chỗ ngồi chuyển điện thoại sang chế độ rung để chương trình diễn ra thành công tốt đẹp Xin trân trọng cảm ơn tất cả quý vị [âm nhạc] [âm nhạc] Kính thưa quý vị thay mặt cho ban tổ chức tôi xin long trọng tuyên bố khai mạc chương trình đại hội cổ đông thường niên của công ty cổ phần Đầu tư thế giới đầu năm 2023 Xin phép được bắt đầu [Vỗ tay] lời đầu tiên xin phép Quốc Trung được thay mặt cho ban tổ chức xin được trân trọng kính lời chào đến tất cả quý vị đại 