In [None]:
# Date    :   2024-12-09
# Author  :   Dongwoo Yoon
# Contact :   dbsehddn0901@gmail.com


# 웹 크롤링 (Web Crawling)
해당 파일은 윈도우 로컬 환경에서 실행하였습니다.

### 1 . 필요한 라이브러리 설치
우선, Python으로 작업할 경우 필요한 라이브러리를 설치합니다.
- youtube-dl : 유튜브 동영상을 다운로드하기 위해 사용.
- yt-dlp : youtube-dl의 활성 포크(fork)로, 더 자주 업데이트되고 Shorts와 같은 새로운 형식도 잘 지원.
- moviepy : 동영상을 프레임으로 분리하기 위해 사용.
- opencv-python-headless : 이미지 처리 및 저장을 위해 사용.


In [None]:
!pip install youtube-dl yt-dlp moviepy opencv-python-headless

### 2 . 동영상 다운로드
~~youtube-dl을 사용하여 유튜브 동영상을 다운로드합니다.~~

yt_dlp를 사용하여 유튜브 동영상을 다운로드합니다.


In [9]:
import os
# import youtube_dl
import yt_dlp

def download_video(youtube_url, video_path):
    ydl_opts = {
        'format': 'best',
        'outtmpl': video_path
    }
    # with youtube_dl.YoutubeDL(ydl_opts) as ydl:
    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        ydl.download([youtube_url])

### 3 . 동영상 1초마다 캡쳐하기
MoviePy를 활용하여 동영상에서 1초마다 프레임을 추출합니다.

In [10]:
from moviepy.video.io.VideoFileClip import VideoFileClip

def capture_frames(video_path, output_folder):
    clip = VideoFileClip(video_path)
    duration = int(clip.duration)  # 동영상 총 길이 (초 단위)
    
    os.makedirs(output_folder, exist_ok=True)
    
    for second in range(duration):
        frame = clip.get_frame(second)  # 1초 단위로 프레임 추출
        output_path = os.path.join(output_folder, f'frame_{second}.jpg')
        
        # OpenCV를 활용한 이미지 저장
        import cv2
        cv2.imwrite(output_path, frame[:, :, ::-1])  # RGB에서 BGR로 변환하여 저장

    clip.close()


### 4 . 전체 실행
유튜브 주소를 입력받아 동영상을 다운로드하고, 프레임을 추출합니다.

이 코드를 실행하면:

1. video_path에 유튜브 동영상이 저장됩니다.
2. output_folder에 1초마다 캡쳐된 이미지가 frame_0.jpg, frame_1.jpg 형식으로 저장됩니다.

In [None]:
if __name__ == "__main__":
    videos = [
        {
            "youtube_url": "https://www.youtube.com/shorts/obGFn8M1Kao",
            "video_path": "short1.mp4",
            "output_folder": "short1"
        },
        {
            "youtube_url": "https://www.youtube.com/shorts/gsG5J1wEvU4",
            "video_path": "short2.mp4",
            "output_folder": "short2"
        },
        {
            "youtube_url": "https://www.youtube.com/shorts/nZPDmDmxIfc",
            "video_path": "short3.mp4",
            "output_folder": "short3"
        },
        {
            "youtube_url": "https://www.youtube.com/shorts/uNyLK47PfuM",
            "video_path": "short4.mp4",
            "output_folder": "short4"
        },
        {
            "youtube_url": "https://www.youtube.com/shorts/3iKQ1XDZEqc",
            "video_path": "short5.mp4",
            "output_folder": "short5"
        },
        {
            "youtube_url": "https://www.youtube.com/shorts/obGFn8M1Kao",
            "video_path": "short6.mp4",
            "output_folder": "short6"
        }
    ]

    for video in videos:

        youtube_url = video["youtube_url"]
        video_path = video["video_path"]
        output_folder = video["output_folder"]
        
        print(f"Processing video: {youtube_url}")

        # 동영상 다운로드 및 프레임 추출
        download_video(youtube_url, video_path)
        capture_frames(video_path, output_folder)

        print(f"Frames saved in {output_folder}")


In [3]:
def count_images_in_folder(folder_path):
    try:
        # 폴더 안의 파일 리스트 가져오기
        files = os.listdir(folder_path)
        # 확장자가 이미지 파일인 경우만 필터링
        image_files = [file for file in files if file.endswith(('.png', '.jpg', '.jpeg'))]
        return len(image_files)
    except FileNotFoundError:
        # 폴더가 존재하지 않는 경우 0 반환
        print(f"Folder not found: {folder_path}")
        return 0

if __name__ == "__main__":
    folders = [
        "short1",
        "short2",
        "short3",
        "short4",
        "short5",
        "short6"
    ]

    total_images = 0  # 전체 이미지 개수를 저장할 변수

    print("Counting images in each folder:")
    for folder in folders:
        image_count = count_images_in_folder(folder)
        total_images += image_count
        print(f"Folder '{folder}' contains {image_count} images.")

    print("\nSummary:")
    print(f"Total images across all folders: {total_images}")


Counting images in each folder:
Folder 'short1' contains 34 images.
Folder 'short2' contains 22 images.
Folder 'short3' contains 20 images.
Folder 'short4' contains 17 images.
Folder 'short5' contains 36 images.
Folder 'short6' contains 34 images.

Summary:
Total images across all folders: 163


In [4]:
import os
import shutil

def copy_images_to_all_folder(source_folders, destination_folder):
    # 'all' 폴더 생성
    os.makedirs(destination_folder, exist_ok=True)
    image_count = 0  # 복사된 이미지 수를 세기 위한 변수

    for folder in source_folders:
        try:
            # 폴더 안의 파일 리스트 가져오기
            files = os.listdir(folder)
            # 확장자가 이미지 파일인 경우만 필터링
            image_files = [file for file in files if file.endswith(('.png', '.jpg', '.jpeg'))]
            
            for image_file in image_files:
                # 원본 파일 경로
                source_path = os.path.join(folder, image_file)
                # 대상 파일 경로
                destination_path = os.path.join(destination_folder, image_file)
                
                # 이름 충돌 방지: 동일한 이름의 파일이 있으면 번호 추가
                if os.path.exists(destination_path):
                    base, ext = os.path.splitext(image_file)
                    counter = 1
                    while os.path.exists(destination_path):
                        destination_path = os.path.join(destination_folder, f"{base}_{counter}{ext}")
                        counter += 1
                
                # 파일 복사
                shutil.copy2(source_path, destination_path)
                image_count += 1
        
        except FileNotFoundError:
            print(f"Folder not found: {folder}")
        except Exception as e:
            print(f"Error processing folder '{folder}': {e}")

    print(f"Total images copied to '{destination_folder}': {image_count}")

if __name__ == "__main__":
    source_folders = [
        "short1",
        "short2",
        "short3",
        "short4",
        "short5",
        "short6"
    ]
    destination_folder = "all"

    copy_images_to_all_folder(source_folders, destination_folder)


Total images copied to 'all': 163
