In [43]:
import os
import cv2
import numpy as np
import json
from tqdm import tqdm

### 비디오 데이터 전처리 함수

In [44]:
def preprocess_video_every_3_seconds(video_path:str, frame_size:tuple, block_nums:int, frame_rate=3):
    """
    Extracts frames every 3 seconds from a video file, resizing them to frame_size and converting to grayscale.
    
    Args:
    video_path (str): Path to the video file.
    frame_size (tuple): Size (height, width) to resize frames.
    block_nums (int) : Total count for three-seconds-blocks
    frame_rate (int): Number of frames to extract per second within the 3-second window.

    Returns:
    List[numpy.ndarray]: List of sequences, where each sequence is a numpy array of shape (num_frames, height, width, 1).
    """

    vidcap = cv2.VideoCapture(video_path)
    fps = vidcap.get(cv2.CAP_PROP_FPS)
    interval = int(fps * 3)

    sequences = []
    while True:
        frames = []
        for _ in range(interval):
            success, frame = vidcap.read()
            if not success:
                break
            frame = cv2.resize(frame, frame_size, interpolation=cv2.INTER_AREA)
            gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
            gray_frame = np.expand_dims(gray_frame, axis=-1)  # 채널 수 늘려줌
            gray_frame = gray_frame.astype(np.float32) / 255.0 
            frames.append(gray_frame)

        if len(frames) == 0:
            break
        
        if len(frames) >= frame_rate : 
            sequences.append(np.array(frames[:frame_rate * 3]))  # 모든 frame이 3초단위로 들어갈 수 있도록 제어
        
        if len(sequences) > block_nums:
            break

    vidcap.release()
    return np.array(sequences[:-1])


In [45]:
def parse_annotations(annotations:list):
    """
    Extracts Every Annotation from json label file
    
    Args:
    annotations(List): List of Dictionary for annotations label with highlight and represent

    Returns:
    Dict: Whether each block is Highlight or not
    """
    highlight_map = {}
    
    for annot in annotations:
        block_num = annot['highlight']
        for num in block_num:
            highlight_map[num] = 1
            
    ret = [0] * len(highlight_map)
    for i, item in enumerate(highlight_map.items()):
        ret[item] = 1
                
    return highlight_map

#### Audio 데이터 전처리 함수

In [None]:
import librosa 
import librosa.display as dsp
from IPython.display import Audio
from moviepy.editor import VideoFileClip

In [None]:
def extract_audio(video_path, audio_path):
    # 비디오 파일 열기
    video_clip = VideoFileClip(video_path)
    
    # 오디오 추출 및 저장
    audio_clip = video_clip.audio
    audio_clip.write_audiofile(audio_path)

    # 파일 닫기
    video_clip.close()

In [None]:
def preprocess_audio(audio_path, sample_rate=22050, n_fft=2048, hop_length=512, n_mels=130, segment_duration=3):
    # 오디오 파일 로드
    audio, sr = librosa.load(audio_path, sr=sample_rate)
    
    # 세그먼트 길이 계산 (샘플 단위)
    segment_length = int(sr * segment_duration)
    
    # 오디오를 3초 단위로 세그먼트로 나누기
    segments = []
    num_segments = len(audio) // segment_length
    for i in range(num_segments):
        start_idx = i * segment_length
        end_idx = start_idx + segment_length
        segment = audio[start_idx:end_idx]
        
        # 멜 스펙트로그램 추출 및 디시벨 변환
        mel_spectrogram = librosa.feature.melspectrogram(y=segment, sr=sr, n_fft=n_fft, hop_length=hop_length, n_mels=n_mels)
        mel_spectrogram_db = librosa.power_to_db(mel_spectrogram, ref=np.max)
        
        segments.append(mel_spectrogram_db)
    
    return segments

In [None]:
# 무비 파일 경로
video_path = 'data/원천데이터/2~5분/test.mp4'
audio_path = 'audio.wav'

# 오디오 추출
extract_audio(video_path, audio_path)

### 전처리 진행

In [57]:
video_length = ['2~5분', '5~20분']
# video_length = ['2~5분']

In [58]:
new_video_data = []

for i, leng in enumerate(video_length):

    output_json_path = f'processed/label/processed_video_data.json'
    output_video_dir = 'processed/video/'
    output_wav_dir = 'processed/wav/'
    output_audio_dir = 'processed/audio/'

    json_path = f'data/라벨링데이터/video_summary_validation_data({leng}).json'
    video_path = f'data/원천데이터/{leng}/'

    with open(json_path, 'r', encoding='utf-8') as f:
        label_data = json.load(f)

    if i == 0:
        video_idx = 1

    for item in tqdm(label_data):
        input_video_name = item['filename'] + '.mp4'
        input_video_path = os.path.join(video_path, input_video_name)

        output_video_name = f"processed_video_{video_idx}.npy"
        output_video_path = os.path.join(output_video_dir, output_video_name)
        
        output_wav_name = f"processed_video_{video_idx}.wav"
        output_wav_path =  os.path.join(output_wav_dir, output_wav_name)

        output_audio_name = f"processed_audio_{video_idx}.npy"
        output_audio_path =  os.path.join(output_audio_dir, output_audio_name)

        if not os.path.exists(input_video_path):
            print(f"Not Found : {input_video_path}")
            continue


        ######################################
        # 오디오 데이터 분리 후 저장
        extract_audio(input_video_path, output_wav_path) # mp4에서 오디오(wav) 추출 및 저장

        ######################################
        # 영상 전처리 진행 및 저장
        blocks_num = item["three_secs"][-1] + 1
        # print(item)
        annotations = item['annots']

        output = preprocess_video_every_3_seconds(input_video_path, (256, 256), blocks_num)
        np.save(output_video_path, output)

        ######################################
        # 오디오 전처리 및 학습 가능 파일로 저장
        # 저장 및 동기화 시간을 고려하여 영상 전처리 후 마지막 순서에 배치
        mel_spectrogram_segments = preprocess_audio(output_audio_path)
        np.save(output_audio_path, mel_spectrogram_segments)


        category = item["category"]

        item['filename'] = output_video_name
        item['category'] = category.encode('utf-8').decode()
        item['path'] = output_video_path
        item['quality'] = '256 256' # 추 후에 데이터 사용할 때, split으로 사용할 수 있게 띄워쓰기로 구분

        video_idx += 1
        new_video_data.append(item)

# 전처리된 데이터에 대해 라벨을 새로 저장해줌
with open(output_json_path, 'w', encoding='utf-8') as f:
    json.dump(new_video_data, f, ensure_ascii=False, indent=2)

print(f"Process Finish :: {leng}")

100%|██████████| 99/99 [51:26<00:00, 31.18s/it]  
  0%|          | 0/200 [00:00<?, ?it/s]

Not Found : data/원천데이터/5~20분/f93e401a0d6bd398ad9052de637b292572dd4cdf414cd0fdeb4e12135740bec1-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201203190659-001-001.mp4
Not Found : data/원천데이터/5~20분/fbfc2db8d3c8f3de2103372b364db677be7173d56dbdee1780547950183e5593-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201226223458-001-001.mp4


  5%|▌         | 10/200 [07:54<2:34:24, 48.76s/it]

Not Found : data/원천데이터/5~20분/ef32bcc5875dd01be3770f4416442caf245d1acc65c8419f4207fc1c607485e0-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201218041238-001-001.mp4


 10%|█         | 20/200 [20:23<3:19:20, 66.45s/it]

Not Found : data/원천데이터/5~20분/edd99d21679b36e2a2865229df1475252bfdfacbf5106ab5574c8c49e499981a-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201217175508-001-001.mp4


 13%|█▎        | 26/200 [26:04<3:21:23, 69.44s/it]

Not Found : data/원천데이터/5~20분/f22ebfd0a3ac87120f8239c99ff75e5d982a83ef6893342cb304b3f61d803bc1-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201210202928-001-001.mp4


 16%|█▌        | 31/200 [33:49<3:59:45, 85.12s/it] 

Not Found : data/원천데이터/5~20분/f22ebfd0a3ac87120f8239c99ff75e5d982a83ef6893342cb304b3f61d803bc1-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201210193634-001-001.mp4


 18%|█▊        | 35/200 [36:27<2:29:05, 54.22s/it]

Not Found : data/원천데이터/5~20분/ee3a7cb142d2dce2212e1533890376a0f568d6be40d5fb481b005dd24ffb91ee-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201215184801-001-001.mp4


 19%|█▉        | 38/200 [40:14<2:54:23, 64.59s/it]

Not Found : data/원천데이터/5~20분/e3db601926585b1efaeecc99175c055397a78311ed57800827e23fa2da593296-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201218185216-001-001.mp4


 20%|██        | 41/200 [41:55<2:13:48, 50.49s/it]

Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128015706-001-001.mp4


 22%|██▏       | 43/200 [43:16<2:01:57, 46.61s/it]

Not Found : data/원천데이터/5~20분/e3db601926585b1efaeecc99175c055397a78311ed57800827e23fa2da593296-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201215234134-001-001.mp4
Not Found : data/원천데이터/5~20분/e3f4669f0d4daf951fa230f2a3d713c38cba4ae389d1544d432afd712b58ed67-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201215183401-001-001.mp4


 24%|██▎       | 47/200 [45:42<1:44:15, 40.89s/it]

Not Found : data/원천데이터/5~20분/f3baa34372190fbc87588bdf9516af96e06f8110bee5d8556a40955f9b7e6357-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201222193837-001-001.mp4


 25%|██▌       | 50/200 [47:15<1:34:26, 37.77s/it]

Not Found : data/원천데이터/5~20분/e3db601926585b1efaeecc99175c055397a78311ed57800827e23fa2da593296-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201215233820-001-001.mp4


 26%|██▌       | 52/200 [48:28<1:32:07, 37.34s/it]

Not Found : data/원천데이터/5~20분/dcf598dbee477bb5e8fd5c3570f0c12dd4ba33d6ae895423ee58eb845ec4fea0-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201208202054-001-001.mp4


 28%|██▊       | 56/200 [53:47<2:52:08, 71.72s/it]

Not Found : data/원천데이터/5~20분/fc9d91fba57666dcdb5e319811f9a08e102d59c7173123702005801dab13c3f8-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201209212320-001-001.mp4
Not Found : data/원천데이터/5~20분/fbfc2db8d3c8f3de2103372b364db677be7173d56dbdee1780547950183e5593-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201226222924-001-001.mp4


 30%|██▉       | 59/200 [54:34<1:45:02, 44.70s/it]

Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128015506-001-001.mp4
Not Found : data/원천데이터/5~20분/edd99d21679b36e2a2865229df1475252bfdfacbf5106ab5574c8c49e499981a-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201217165459-001-001.mp4


 31%|███       | 62/200 [56:47<1:42:28, 44.55s/it]

Not Found : data/원천데이터/5~20분/f27b28bd74b993d2e59c4e8c667366ea46f4200f8679cc172d2a974e6587bd83-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201208130713-001-001.mp4


 32%|███▏      | 64/200 [58:11<1:39:35, 43.94s/it]

Not Found : data/원천데이터/5~20분/e151a9d235f52a795c90c294ee5cfe0fe37024a33a1dc463c81292a49dc12812-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201126223040-001-001.mp4


 36%|███▌      | 72/200 [1:08:32<3:11:18, 89.67s/it]

Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128020210-001-001.mp4


 37%|███▋      | 74/200 [1:11:05<2:56:28, 84.04s/it]

Not Found : data/원천데이터/5~20분/e84566bed6b2a8a40fa19f70eba4768f30d2c55081e01033df9f9ab9be04a23e-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201214163752-001-001.mp4


 42%|████▎     | 85/200 [1:27:31<2:45:33, 86.38s/it] 

Not Found : data/원천데이터/5~20분/e24adbafd369be6a8585bafea727d7c29a4059891fcdac5b8a596d60c42e802e-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201217233044-001-001.mp4


 56%|█████▌    | 112/200 [2:09:11<2:12:53, 90.61s/it] 

Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128020412-001-001.mp4


 62%|██████▎   | 125/200 [2:38:55<3:47:26, 181.95s/it]

Not Found : data/원천데이터/5~20분/e3ee2dea78e4c0a03efa36c2158dc0695536e5ba7377799a4f715fb7b888986f-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201209111305-001-001.mp4


 67%|██████▋   | 134/200 [2:48:04<1:24:05, 76.44s/it] 

Not Found : data/원천데이터/5~20분/e8e4e737b7620527afbfcfe842b883b3cd5f7b9d2df248544326cef90214aa6c-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201120172953-001-001.mp4


 70%|███████   | 141/200 [2:58:10<1:13:36, 74.86s/it] 

Not Found : data/원천데이터/5~20분/f22ebfd0a3ac87120f8239c99ff75e5d982a83ef6893342cb304b3f61d803bc1-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201210202346-001-001.mp4


 72%|███████▎  | 145/200 [3:04:52<1:29:34, 97.72s/it] 

Not Found : data/원천데이터/5~20분/f2084d2c0ba24b4b78ed1deecf6ea9fcf1d0361272f34ade27e0c4b8da4ca3b8-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201127164440-001-001.mp4


 74%|███████▎  | 147/200 [3:06:19<1:05:59, 74.72s/it]

Not Found : data/원천데이터/5~20분/dcf598dbee477bb5e8fd5c3570f0c12dd4ba33d6ae895423ee58eb845ec4fea0-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201208202253-001-001.mp4


 77%|███████▋  | 154/200 [3:13:49<51:37, 67.34s/it]  

Not Found : data/원천데이터/5~20분/ee3a7cb142d2dce2212e1533890376a0f568d6be40d5fb481b005dd24ffb91ee-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201215185523-001-001.mp4


 78%|███████▊  | 156/200 [3:19:19<1:20:43, 110.07s/it]

Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128014710-001-001.mp4


 82%|████████▏ | 163/200 [3:34:58<55:19, 89.72s/it]   

Not Found : data/원천데이터/5~20분/fbfc2db8d3c8f3de2103372b364db677be7173d56dbdee1780547950183e5593-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201226225110-001-001.mp4


 84%|████████▍ | 168/200 [3:39:07<35:03, 65.74s/it]

Not Found : data/원천데이터/5~20분/eb4fdeda546490a94da694a90bac8e275bbc6dafad53eab7462b20b60a47a551-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201223085417-001-001.mp4
Not Found : data/원천데이터/5~20분/f778ec6d589c92d284d5085da7258896ca819e6ec20bcdfb62d76e87f01c34d5-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201128014313-001-001.mp4


 86%|████████▌ | 172/200 [3:40:12<16:46, 35.95s/it]

Not Found : data/원천데이터/5~20분/ec54717bbc2f64ef0088221825f50aa077eda73af13162a1c992b49afcd60996-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201201125402-001-001.mp4


 87%|████████▋ | 174/200 [3:40:48<12:45, 29.44s/it]

Not Found : data/원천데이터/5~20분/ff26a080e6bc32cc7685f63b745dcaa5f2f720bab560904a2cd74e344698259b-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201126203432-001-001.mp4
Not Found : data/원천데이터/5~20분/e89b9ba9f7007ba45173c2d75a8064c485e957900db6e7513b1257180742a371-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201217174628-001-001.mp4


 90%|█████████ | 180/200 [3:45:11<15:14, 45.72s/it]

Not Found : data/원천데이터/5~20분/e0147381fddfd268990295b0124ea72943e577859ed1f3a1f7bc05b08508acb4-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201208181240-001-001.mp4


 93%|█████████▎| 186/200 [3:53:37<19:59, 85.70s/it]

Not Found : data/원천데이터/5~20분/f0baca77d4cabb867c4baa15d655f2f6bedea3969192dd1d44bfd4729ac94c7d-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201203222106-001-001.mp4


 99%|█████████▉| 198/200 [4:17:22<03:49, 114.82s/it]

Not Found : data/원천데이터/5~20분/e89b9ba9f7007ba45173c2d75a8064c485e957900db6e7513b1257180742a371-유튜브 영상물(5~20분) 장면별 중요도 태그-100177-20201126181640-001-001.mp4


100%|██████████| 200/200 [4:24:22<00:00, 79.31s/it] 

Process Finish :: 5~20분





In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense
from tensorflow.keras.utils import to_categorical

In [8]:
# CNN 모델 생성 함수
def create_cnn_model(input_shape):
    model = Sequential([
        Conv2D(32, (3, 3), activation='relu', input_shape=input_shape),
        Conv2D(64, (3, 3), activation='relu'),
        Flatten(),
        Dense(128, activation='relu'),
        Dense(10, activation='softmax')
    ])
    return model

In [None]:
# 데이터 준비
X_train = np.expand_dims(mel_spectrogram, axis=-1)  # 데이터 차원 확장
y_train = to_categorical([label], num_classes=10)  # 라벨 인코딩

# 모델 학습
model.fit(X_train, y_train, epochs=10, batch_size=32)