In [None]:
# 📌 1. 필요한 라이브러리 불러오기
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

# Jupyter Notebook 안에서 이미지 바로 출력되도록 설정
%matplotlib inline

# 📌 2. 데이터 경로 설정
RAW_DATA_DIR = '../data/raw'

# 이미지와 텍스트 파일 목록 확인
all_files = os.listdir(RAW_DATA_DIR)
image_files = [f for f in all_files if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
text_files = [f for f in all_files if f.lower().endswith('.txt')]

print(f"✅ 총 이미지 파일 수: {len(image_files)}개")
print(f"✅ 총 텍스트 파일 수: {len(text_files)}개")

# 📌 3. 샘플 이미지 5장 시각화
sample_images = image_files[:5]

plt.figure(figsize=(15, 5))
for i, fname in enumerate(sample_images):
    img_path = os.path.join(RAW_DATA_DIR, fname)
    try:
        img = Image.open(img_path)
        plt.subplot(1, 5, i + 1)
        plt.imshow(img)
        plt.axis('off')
        plt.title(fname[:10])
    except Exception as e:
        print(f"❌ {fname} 로드 실패: {e}")
plt.show()

# 📌 4. 샘플 텍스트 3개 출력
for fname in text_files[:3]:
    text_path = os.path.join(RAW_DATA_DIR, fname)
    try:
        with open(text_path, 'r', encoding='utf-8') as f:
            content = f.read()
            print(f"📄 {fname} (앞 300자):\n")
            print(content[:300])
            print('-'*60)
    except Exception as e:
        print(f"❌ {fname} 읽기 실패: {e}")

# 📌 5. 깨진 이미지 파일 검사
def is_broken_image(path):
    try:
        img = Image.open(path)
        img.verify()  # 검증만 수행
        return False
    except:
        return True

broken = [f for f in image_files if is_broken_image(os.path.join(RAW_DATA_DIR, f))]
print(f"❗ 깨진 이미지 파일 수: {len(broken)}개")
if broken:
    print("🔴 깨진 파일 목록:")
    print(broken)
else:
    print("🟢 깨진 파일 없음")
