In [5]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import TimeDistributed, Dropout, Bidirectional, LSTM, Dense, Flatten

# === Violence Detection MoBiLSTM Model ===
model = Sequential([
    # (1) CNN feature sequence input
    TimeDistributed(
        Flatten(),  # 입력은 (16, 2, 2, 1280)
        input_shape=(16, 2, 2, 1280),
        name="time_distributed"
    ),
    Dropout(0.5, name="dropout"),

    # (2) Flatten frame features → sequence
    TimeDistributed(Flatten(), name="time_distributed_1"),

    # (3) BiLSTM sequence encoder
    Bidirectional(LSTM(32, return_sequences=False), name="bidirectional"),
    Dropout(0.5, name="dropout_1"),

    # (4) Fully-connected classifier
    Dense(256, activation='relu', name="dense"),
    Dropout(0.5, name="dropout_2"),
    Dense(128, activation='relu', name="dense_1"),
    Dropout(0.5, name="dropout_3"),
    Dense(64, activation='relu', name="dense_2"),
    Dropout(0.5, name="dropout_4"),
    Dense(32, activation='relu', name="dense_3"),
    Dropout(0.5, name="dropout_5"),
    Dense(2, activation='softmax', name="dense_4")
])

# === Load weights ===
model.load_weights("/Users/jeongjihoon/hackathon/new_violence_detection_model.weights.h5")

print("✅ Violence Detection Model 가중치 로드 성공!")
model.summary()

✅ Violence Detection Model 가중치 로드 성공!


In [6]:
import cv2
import numpy as np
import os
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import TimeDistributed, Dropout, Bidirectional, LSTM, Dense, Flatten
from tensorflow.keras.applications import MobileNetV2

In [7]:
# === 1️⃣ 경로 설정 ===
VIDEO_PATH = "/Users/jeongjihoon/Downloads/archive (1)/Real Life Violence Dataset/Violence/V_341.mp4"
OUTPUT_PATH = "/Users/jeongjihoon/Desktop/output.mp4"
CAPTURE_DIR = "/Users/jeongjihoon/Desktop/violence_captures"
os.makedirs(CAPTURE_DIR, exist_ok=True)

model = Sequential([
    TimeDistributed(Flatten(), input_shape=(16, 2, 2, 1280), name="time_distributed"),
    Dropout(0.5, name="dropout"),
    TimeDistributed(Flatten(), name="time_distributed_1"),
    Bidirectional(LSTM(32, return_sequences=False), name="bidirectional"),
    Dropout(0.5, name="dropout_1"),
    Dense(256, activation="relu", name="dense"),
    Dropout(0.5, name="dropout_2"),
    Dense(128, activation="relu", name="dense_1"),
    Dropout(0.5, name="dropout_3"),
    Dense(64, activation="relu", name="dense_2"),
    Dropout(0.5, name="dropout_4"),
    Dense(32, activation="relu", name="dense_3"),
    Dropout(0.5, name="dropout_5"),
    Dense(2, activation="softmax", name="dense_4")
])

In [3]:
import cv2
import numpy as np
import os
import tensorflow as tf
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import (
    TimeDistributed, Dropout, Bidirectional, LSTM,
    Dense, Flatten
)
from tensorflow.keras.applications import MobileNetV2

# === 1️⃣ 경로 설정 ===
VIDEO_PATH = "/Users/jeongjihoon/Downloads/archive (1)/Real Life Violence Dataset/Violence/V_341.mp4"  # 분석할 영상
OUTPUT_PATH = "/Users/jeongjihoon/Desktop/output.mp4"     # 결과 영상 저장 경로
CAPTURE_DIR = "/Users/jeongjihoon/Desktop/violence_captures"  # 폭력 캡처 저장 폴더
os.makedirs(CAPTURE_DIR, exist_ok=True)

# === 2️⃣ Feature extractor (MobileNetV2) ===
feature_extractor = MobileNetV2(
    weights='imagenet',
    include_top=False,     # fully connected 제거
    pooling=None,          # (2,2,1280) 그대로 유지
    input_shape=(64, 64, 3)
)
print("✅ Feature extractor 준비 완료:", feature_extractor.output_shape)

# === 3️⃣ Violence Detection Model ===
model = Sequential([
    TimeDistributed(Flatten(), input_shape=(16, 2, 2, 1280), name="time_distributed"),
    Dropout(0.5, name='dropout'),
    TimeDistributed(Flatten(), name='time_distributed_1'),
    Bidirectional(LSTM(32, return_sequences=False), name='bidirectional'),
    Dropout(0.5, name='dropout_1'),
    Dense(256, activation='relu', name='dense'),
    Dropout(0.5, name='dropout_2'),
    Dense(128, activation='relu', name='dense_1'),
    Dropout(0.5, name='dropout_3'),
    Dense(64, activation='relu', name='dense_2'),
    Dropout(0.5, name='dropout_4'),
    Dense(32, activation='relu', name='dense_3'),
    Dropout(0.5, name='dropout_5'),
    Dense(2, activation='softmax', name='dense_4')
])

# === 4️⃣ 가중치 로드 ===
model.load_weights("/Users/jeongjihoon/hackathon/new_violence_detection_model.weights.h5")
print("✅ Violence Detection 모델 가중치 로드 완료!")

# === 5️⃣ 분석 파라미터 ===
SEQUENCE_LENGTH = 16
IMG_SIZE = (64, 64)
frame_buffer = []
capture_count = 0
MAX_CAPTURES = 8

# === 6️⃣ 비디오 로드 ===
cap = cv2.VideoCapture(VIDEO_PATH)
if not cap.isOpened():
    raise RuntimeError("❌ 비디오 파일을 열 수 없습니다.")

fps = cap.get(cv2.CAP_PROP_FPS)
width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fourcc = cv2.VideoWriter_fourcc(*'mp4v')
out = cv2.VideoWriter(OUTPUT_PATH, fourcc, fps, (width, height))

print("🎥 폭력 감지 중... (Q로 종료)")

# === 7️⃣ 프레임 분석 루프 ===
while True:
    ret, frame = cap.read()
    if not ret:
        break

    # Resize + Normalize
    resized = cv2.resize(frame, IMG_SIZE)
    resized = cv2.cvtColor(resized, cv2.COLOR_BGR2RGB)
    resized = np.expand_dims(resized, axis=0) / 255.0

    # === MobileNetV2 Feature 추출 ===
    features = feature_extractor.predict(resized, verbose=0)  # (1, 2, 2, 1280)
    features = np.squeeze(features, axis=0)                   # (2, 2, 1280)
    frame_buffer.append(features)

    if len(frame_buffer) > SEQUENCE_LENGTH:
        frame_buffer.pop(0)

    label_text = "Analyzing..."
    color = (255, 255, 0)

    # === 16프레임 단위로 폭력 판별 ===
    if len(frame_buffer) == SEQUENCE_LENGTH:
        sequence = np.expand_dims(np.array(frame_buffer, dtype=np.float32), axis=0)  # (1,16,2,2,1280)
        print("🧩 입력 시퀀스 shape:", sequence.shape)

        preds = model.predict(sequence, verbose=0)
        pred_label = np.argmax(preds)
        confidence = preds[0][pred_label]

        # === 폭력 감지 ===
        if pred_label == 1 and confidence > 0.7:
            label_text = f" VIOLENCE DETECTED ({confidence*100:.1f}%)"
            color = (0, 0, 255)

            if capture_count < MAX_CAPTURES:
                capture_path = os.path.join(CAPTURE_DIR, f"capture_{capture_count+1}.jpg")
                cv2.imwrite(capture_path, frame)
                capture_count += 1
                print(f"🚨 폭력 감지! 캡처 저장됨: {capture_path}")
        else:
            label_text = f" SAFE ({confidence*100:.1f}%)"
            color = (0, 255, 0)

    # === 결과 표시 및 저장 ===
    cv2.putText(frame, label_text, (30, 50), cv2.FONT_HERSHEY_SIMPLEX, 1.0, color, 3)
    out.write(frame)
    cv2.imshow("Violence Detection Demo", frame)

    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

# === 8️⃣ 종료 ===
cap.release()
out.release()
cv2.destroyAllWindows()

print("✅ 분석 완료!")
print(f"🎞️ 결과 영상 저장: {OUTPUT_PATH}")
print(f"🖼️ 캡처 이미지 저장 폴더: {CAPTURE_DIR}")

  feature_extractor = MobileNetV2(


✅ Feature extractor 준비 완료: (None, 2, 2, 1280)
✅ Violence Detection 모델 가중치 로드 완료!
🎥 폭력 감지 중... (Q로 종료)
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_1.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_2.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_3.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_4.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_5.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_6.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_7.jpg
🧩 입력 시퀀스 shape: (1, 16, 2, 2, 1280)
🚨 폭력 감지! 캡처 저장됨: /Users/jeongjihoon/Desktop/violence_captures/capture_8.jpg
🧩 

In [7]:
pip install chardet charset-normalizer
#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

Note: you may need to restart the kernel to use updated packages.


In [21]:
import requests
import json

# ✅ 새 API 엔드포인트
API_URL = "https://api-inference.huggingface.co/models/Qwen/Qwen2-VL-7B-Instruct"
headers = {"Authorization": "Bearer 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"}  # 토큰 그대로 사용 가능

image_paths = [
    "/Users/jeongjihoon/Desktop/violence_captures/capture_1.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_2.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_3.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_4.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_5.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_6.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_7.jpg",
    "/Users/jeongjihoon/Desktop/violence_captures/capture_8.jpg"
]

data = {
    "inputs": {
        "text": (
            "이 8장의 CCTV 이미지를 분석하여 폭력이나 위협적 상황이 있다면 "
            "6하원칙(누가, 언제, 어디서, 무엇을, 어떻게, 왜)에 따라 "
            "경찰 보고서 형식으로 작성하라."
        )
    }
}

files = [("images", (f"frame{i}.jpg", open(path, "rb"), "image/jpeg")) for i, path in enumerate(image_paths)]

response = requests.post(API_URL, headers=headers, data={"inputs": json.dumps(data)}, files=files, timeout=120)

if response.status_code != 200:
    print(f"❌ API 요청 실패 ({response.status_code})")
    print(response.text)
else:
    try:
        print(json.dumps(response.json(), indent=2, ensure_ascii=False))
    except json.JSONDecodeError:
        print("⚠️ 응답이 JSON 형식이 아닙니다.")
        print(response.text)

❌ API 요청 실패 (404)
Not Found


In [49]:
import os
from openai import OpenAI
import base64
import mimetypes  # 파일 타입 추측용

# --- 1. 로컬 이미지를 Base64로 인코딩하는 함수 ---
def encode_image_to_base64(image_path):
    """로컬 이미지 파일을 읽어 Base64 데이터 URI로 인코딩합니다."""
    mime_type, _ = mimetypes.guess_type(image_path)
    if not mime_type or not mime_type.startswith('image'):
        raise ValueError("알 수 없거나 유효하지 않은 이미지 파일입니다.")

    with open(image_path, "rb") as image_file:
        encoded_string = base64.b64encode(image_file.read()).decode('utf-8')
    
    return f"data:{mime_type};base64,{encoded_string}"

# --- 2. OpenAI(Hugging Face Router) 클라이언트 설정 ---
client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.environ["HF_TOKEN"],
)

# --- 3. 이미지 경로 ---
local_image_path = "/Users/jeongjihoon/Desktop/violence_captures/capture_1.jpg"

# --- 4. 프롬프트 ---
prompt = (
    "다음 이미지는 CCTV에서 포착된 폭력 사건 장면입니다.\n"
    "사진 속 상황을 관찰하여, 누가 어떤 행동을 하는지, 장소와 상황의 흐름을 자연스럽게 설명하세요.\n"
    "마치 경찰 보고서 초안처럼, 사건의 개요를 객관적이고 간결한 한 문단으로 요약하세요.\n"
    "직역형 표현 대신 자연스러운 서술문 형태로 써주세요."
)

# --- 5. 모델 호출 ---
try:
    base64_image_url = encode_image_to_base64(local_image_path)

    completion = client.chat.completions.create(
        model="Qwen/Qwen2.5-VL-7B-Instruct:hyperbolic",
        messages=[
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": prompt},
                    {"type": "image_url", "image_url": {"url": base64_image_url}},
                ],
            }
        ],
    )

    print("🧾 결과:\n")
    # ✅ 핵심 수정: message 객체에서 content를 직접 출력
    print(completion.choices[0].message.content)

except FileNotFoundError:
    print(f"오류: '{local_image_path}' 파일을 찾을 수 없습니다.")
except Exception as e:
    print(f"오류 발생: {e}")

🧾 결과:

양쪽에서 남성이 서로 무언가에 항의하는 듯이 서로를 이리저리 패싸우고 있습니다. 두 남성은 각각 다른 방향으로 이동하며 서로를 향해 몸을 굴리고 있습니다. 배경에는 버스와 건물이 보이며, 이는 아마도 도시의 버스 정류장이나 같은 곳으로 보입니다. 이들의 행동은 경찰 조사의 대상이 될 만한 상황으로 보입니다.


In [53]:
import os
from openai import OpenAI
import base64
import mimetypes

# --- 1. Base64 인코딩 함수 ---
def encode_image_to_base64(image_path):
    mime_type, _ = mimetypes.guess_type(image_path)
    if not mime_type or not mime_type.startswith("image"):
        raise ValueError(f"유효하지 않은 이미지 파일: {image_path}")
    with open(image_path, "rb") as f:
        encoded = base64.b64encode(f.read()).decode("utf-8")
    return f"data:{mime_type};base64,{encoded}"

# --- 2. 클라이언트 설정 ---
client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.environ["HF_TOKEN"],
)

# --- 3. 이미지 경로 리스트 (총 8장) ---
image_folder = "/Users/jeongjihoon/Desktop/violence_captures"
image_paths = [os.path.join(image_folder, f"capture_{i}.jpg") for i in range(1, 9)]

# --- 4. 프롬프트 ---
prompt = (
    "다음 8장의 이미지는 CCTV에서 연속적으로 포착된 폭력 사건입니다.\n"
    "이미지 속 인물의 행동, 위치, 상황 변화를 관찰하여 사건 전체를 자연스럽게 요약하세요.\n"
    "한 문단으로 간결하게 작성하고, 불필요한 설명은 제외하세요."
)

# --- 5. 4장씩 나눠서 처리 ---
def summarize_images(image_subset):
    base64_images = [
        {"type": "image_url", "image_url": {"url": encode_image_to_base64(p)}}
        for p in image_subset
    ]
    messages = [
        {"role": "user", "content": [{"type": "text", "text": prompt}] + base64_images}
    ]
    completion = client.chat.completions.create(
        model="Qwen/Qwen2.5-VL-7B-Instruct:hyperbolic",
        messages=messages,
    )
    return completion.choices[0].message.content

# --- 6. 두 구간으로 나눠 요청 ---
try:
    print("🧩 1차 (1~4장) 요약 중...")
    summary1 = summarize_images(image_paths[:4])

    print("🧩 2차 (5~8장) 요약 중...")
    summary2 = summarize_images(image_paths[4:])

    # --- 7. 최종 요약 ---
    print("\n🧠 최종 사건 요약 생성 중...\n")
    combined_prompt = (
        "다음은 CCTV 폭력 사건의 두 구간 요약입니다.\n"
        f"1️⃣ {summary1}\n"
        f"2️⃣ {summary2}\n\n"
        "이 두 내용을 바탕으로, 사건 전체를 한 문단으로 짧고 명확하게 요약하세요.\n"
        "사건의 핵심 내용만 남기고 군더더기는 생략하세요."
    )

    final_completion = client.chat.completions.create(
        model="Qwen/Qwen2.5-VL-7B-Instruct:hyperbolic",
        messages=[{"role": "user", "content": [{"type": "text", "text": combined_prompt}]}],
    )

    print("\n✅ 최종 사건 요약:\n")
    print(final_completion.choices[0].message.content)

except Exception as e:
    print(f"⚠️ 오류 발생: {e}")

🧩 1차 (1~4장) 요약 중...
🧩 2차 (5~8장) 요약 중...

🧠 최종 사건 요약 생성 중...


✅ 최종 사건 요약:

남성 A가 차량에 세우는 남성 B를 돕다가 차량 옆을 지나간 남성 C가 폭력 사건을 목격했다. 이 사건은 공공 차량이 주차된 곳에서 피의자와 피해자가 그란지로 달려들어 싸우는 것으로, 피해자는 공개적으로 눈을 맞추며 싸우고 있다. 주변에는 다른 인물들이 관찰하고 있다.
