# 1차 시도

In [None]:
import json
import os
import cv2
import numpy as np
import tensorflow as tf
from tensorflow.keras.applications import MobileNetV2


In [None]:
# 1. 데이터 경로 설정
folder_path = 'sample_2'

# 2. 데이터 준비를 위한 리스트
images = []
landmarks_list = []

# 3. 랜드마크 수 정의
EXPECTED_LANDMARKS = 106

# 4. 폴더 내 모든 파일 처리
for filename in os.listdir(folder_path):
    if filename.endswith('.png'):
        # 이미지 로드
        image_path = os.path.join(folder_path, filename)
        image = cv2.imread(image_path)
        image = cv2.resize(image, (224, 224))  # 모델 입력 크기로 조정
        image = image / 255.0  # 정규화

        # 해당 JSON 파일 경로 설정
        if filename.endswith('.json'):
            json_path = os.path.join(folder_path, json_filename)

        if os.path.exists(json_path):
            with open(json_path, 'r') as f:
                data = json.load(f)

            # 랜드마크 좌표 추출
            points = np.array(data['annotation']['points'])

            # 랜드마크 수에 따른 처리
            num_landmarks = points.shape[0]
            if num_landmarks >= EXPECTED_LANDMARKS:
                selected_landmarks = points[:EXPECTED_LANDMARKS]  # 첫 106개 랜드마크 사용
            else:
                selected_landmarks = np.zeros((EXPECTED_LANDMARKS, 2))
                selected_landmarks[:num_landmarks] = points  # 기존 랜드마크 넣기
                selected_landmarks[num_landmarks:] = np.mean(points, axis=0)  # 평균값으로 채우기

            # 정규화
            points_normalized = selected_landmarks / [image.shape[1], image.shape[0]]
            landmarks = points_normalized.flatten()  # 1D 배열로 변환
            
            # 이미지와 랜드마크 모두 추가
            images.append(image)
            landmarks_list.append(landmarks)
            
# 5. 데이터 배열로 변환
images = np.array(images)
landmarks_list = np.array(landmarks_list)

# 6. 모델 구축 및 학습 과정
base_model = MobileNetV2(input_shape=(224, 224, 3), include_top=False, weights='imagenet')
x = tf.keras.layers.Flatten()(base_model.output)
x = tf.keras.layers.Dense(512, activation='relu')(x)
output = tf.keras.layers.Dense(EXPECTED_LANDMARKS * 2, activation='linear')(x)  # 136 랜드마크

model = tf.keras.Model(inputs=base_model.input, outputs=output)
model.compile(optimizer='adam', loss='mean_squared_error')

# 7. 모델 학습
model.fit(images, landmarks_list, epochs=3, batch_size=32)


In [None]:
# 1. 데이터 경로 설정
folder_path = 'sample_2'

# 2. 데이터 준비를 위한 리스트
images = []
landmarks_list = []

# 3. 랜드마크 수 정의
EXPECTED_LANDMARKS = 106
selected_landmarks = np.zeros((EXPECTED_LANDMARKS, 2))

for filename in os.listdir(folder_path):
    if filename.endswith('.json'):
        json_path = os.path.join(folder_path, filename)

    if filename.endswith('.png'):
        image_path = os.path.join(folder_path, filename)

    if os.path.exists(json_path):
        with open(json_path, 'r') as f:
            data = json.load(f)

        points = np.array(data['annotation']['points'])
        num_landmarks = points.shape[0]
        

        image = cv2.imread(image_path)
        image = cv2.resize(image, (224, 224))  # 모델 입력 크기로 조정
        image = image / 255.0  # 정규화


        selected_landmarks[:num_landmarks] = points
        points_normalized = selected_landmarks / [image.shape[1], image.shape[0]]
        landmarks = points_normalized.flatten() 
        
        images.append(image)
        landmarks_list.append(landmarks)

print(images.shape)

# 6. 모델 구축 및 학습 과정
# base_model = MobileNetV2(input_shape=(224, 224, 3), include_top=False, weights='imagenet')
# x = tf.keras.layers.Flatten()(base_model.output)
# x = tf.keras.layers.Dense(512, activation='relu')(x)
# output = tf.keras.layers.Dense(EXPECTED_LANDMARKS * 2, activation='linear')(x)  # 136 랜드마크

# model = tf.keras.Model(inputs=base_model.input, outputs=output)
# model.compile(optimizer='adam', loss='mean_squared_error')

# # 7. 모델 학습
# model.fit(images, landmarks_list, epochs=3, batch_size=32)
# base_model.input

In [None]:
# 모델 저장
model.save('mobilenetv2_face_detection.h5')  # 원하는 파일 경로와 이름을 입력하세요.

In [None]:
import cv2
import numpy as np
import tensorflow as tf

# 웹캠 시작
cap = cv2.VideoCapture(0)

# 랜드마크 수 정의
EXPECTED_LANDMARKS = 68

# 모델 로드 (모델이 저장된 경로에 맞게 수정하세요)
model = tf.keras.models.load_model('mobilenetv2_face_detection.h5')

while True:
    ret, frame = cap.read()
    if not ret:
        break
    
    # 이미지 전처리
    img = cv2.resize(frame, (224, 224))  # 모델 입력 크기로 조정
    img = img / 255.0  # 정규화
    img = np.expand_dims(img, axis=0)  # 배치 차원 추가

    # 랜드마크 예측
    predicted_landmarks = model.predict(img)
    landmarks = predicted_landmarks.reshape((EXPECTED_LANDMARKS, 2)) * np.array([frame.shape[1], frame.shape[0]])  # 원래 크기로 변환

    # 예측된 랜드마크를 이미지에 그리기
    for (x, y) in landmarks.astype(int):
        cv2.circle(frame, (x, y), 2, (0, 255, 0), -1)  # 랜드마크 포인트

    # 이미지 표시
    cv2.imshow('Landmark Prediction', frame)

    # 'q' 키를 눌러 종료
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 자원 해제
cap.release()
cv2.destroyAllWindows()


In [None]:
import matplotlib.pyplot as plt

# 랜드마크 시각화 함수 정의
def visualize_landmarks(images, landmarks_list, num_images=3):
    for i in range(min(num_images, len(images))):  # 최대 num_images 개수만큼 반복
        image = images[i]
        landmarks = landmarks_list[i].reshape((EXPECTED_LANDMARKS, 2))  # 2D 배열로 변환
        
        # 이미지 시각화
        plt.imshow(image)
        plt.scatter(landmarks[:, 0] * image.shape[1], landmarks[:, 1] * image.shape[0], c='red', s=10)  # 랜드마크 포인트
        plt.title(f'Landmarks for Image {i + 1}')
        plt.axis('off')
        plt.show()

# 랜드마크 시각화 함수 호출
visualize_landmarks(images, landmarks_list, num_images=3)


In [None]:
import cv2
import mediapipe as mp
import numpy as np
import time

mp_face_mesh = mp.solutions.face_mesh
face_mesh = mp_face_mesh.FaceMesh(static_image_mode=False, max_num_faces=1, min_detection_confidence=0.5)

cap = cv2.VideoCapture(0)

base_pitch = None
drowsiness_count = 0
drowsiness_threshold = 3
last_drowsiness_time = time.time()
last_count_time = time.time()
blink_start_time = None

while True:
    ret, image = cap.read()
    if not ret:
        break

    image = cv2.resize(image, (800, int(image.shape[0] * 800 / image.shape[1])))
    image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    results = face_mesh.process(image_rgb)

    if results.multi_face_landmarks:
        for face_landmarks in results.multi_face_landmarks:
            landmarks = []
            for landmark in face_landmarks.landmark:
                h, w, _ = image.shape
                x, y, z = int(landmark.x * w), int(landmark.y * h), landmark.z
                landmarks.append((x, y, z))

            nose_tip = landmarks[1]
            chin = landmarks[152]
            pitch = np.arctan2(chin[1] - nose_tip[1], chin[2] - nose_tip[2])
            pitch_degrees = np.degrees(pitch)

            if base_pitch is None:
                base_pitch = pitch_degrees

            adjusted_pitch = pitch_degrees - base_pitch
            cv2.putText(image, f"Pitch: {adjusted_pitch:.2f}°", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
            cv2.putText(image, f"first: {base_pitch:.2f}°", (10, 70), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

            current_time = time.time()
            if adjusted_pitch <= -0:
                if current_time - last_drowsiness_time >= 2:
                    drowsiness_count += 1
                    last_drowsiness_time = current_time
                    last_count_time = current_time

                if drowsiness_count >= drowsiness_threshold:
                    if blink_start_time is None:
                        blink_start_time = current_time
           
            if current_time - last_count_time >= 10:
                drowsiness_count = 0

            if drowsiness_count >= drowsiness_threshold:
                if (time.time() - blink_start_time) % 0.5 < 0.25:
                    font_scale = 5
                    text = "sleep"
                    text_size = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, font_scale, 2)[0]
                    text_x = (image.shape[1] - text_size[0]) // 2
                    text_y = (image.shape[0] + text_size[1]) // 2
                    cv2.putText(image, text, (text_x, text_y), cv2.FONT_HERSHEY_SIMPLEX, font_scale, (0, 0, 255), 2)

            cv2.putText(image, f"Drowsiness Count: {drowsiness_count}", (10, 110), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 255, 255), 2)

    cv2.imshow('Face Mesh', image)

    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()


In [None]:
import cv2
import mediapipe as mp
import dlib
import numpy as np
import time

# Mediapipe 초기화
mp_face_mesh = mp.solutions.face_mesh
face_mesh = mp_face_mesh.FaceMesh(static_image_mode=False, max_num_faces=1, min_detection_confidence=0.5)

# dlib의 얼굴 탐지기 및 랜드마크 예측기 초기화
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat')

# 웹캠 초기화
cap = cv2.VideoCapture(0)

# 고개 기울기 기준값 및 졸음 감지 변수
base_pitch = None
drowsiness_count = 0
drowsiness_threshold = 3
last_drowsiness_time = time.time()
last_count_time = time.time()
blink_start_time = None

def get_pitch_and_roll(landmarks):
    # 코 끝 (랜드마크 30)과 턱 (랜드마크 8)을 이용해 피치 계산
    nose_tip = np.array([landmarks.part(30).x, landmarks.part(30).y])
    chin = np.array([landmarks.part(8).x, landmarks.part(8).y])
    
    # 얼굴 기울기 (피치)
    pitch = np.arctan2(chin[1] - nose_tip[1], chin[0] - nose_tip[0])
    pitch_degrees = np.degrees(pitch)
    
    # 두 눈 사이를 기준으로 얼굴의 롤(좌우 기울기) 계산
    left_eye = np.array([landmarks.part(36).x, landmarks.part(36).y])
    right_eye = np.array([landmarks.part(45).x, landmarks.part(45).y])
    eye_delta_y = left_eye[1] - right_eye[1]
    eye_delta_x = left_eye[0] - right_eye[0]
    roll = np.arctan2(eye_delta_y, eye_delta_x)
    roll_degrees = np.degrees(roll)
    
    return pitch_degrees, roll_degrees

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # 이미지 크기 조정 및 Mediapipe 얼굴 랜드마크 추출
    image_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    results = face_mesh.process(image_rgb)

    if results.multi_face_landmarks:
        for face_landmarks in results.multi_face_landmarks:
            # Mediapipe로 얼굴 랜드마크를 추출하여 화면에 표시
            for landmark in face_landmarks.landmark:
                h, w, _ = frame.shape
                x, y = int(landmark.x * w), int(landmark.y * h)
                cv2.circle(frame, (x, y), 1, (0, 255, 0), -1)

    # dlib을 이용한 추가 얼굴 랜드마크 처리 (더 정밀한 각도 계산)
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    faces = detector(gray)

    for face in faces:
        landmarks = predictor(gray, face)  # dlib 랜드마크 추출

        # dlib에서 피치와 롤 계산
        pitch_degrees, roll_degrees = get_pitch_and_roll(landmarks)

        # 기준 피치 설정 (최초 프레임에서 설정)
        if base_pitch is None:
            base_pitch = pitch_degrees

        # 조정된 피치 값 (기준값과의 차이)
        adjusted_pitch = pitch_degrees - base_pitch

    # 화면에 피치와 롤 출력
    cv2.putText(frame, f"Pitch: {adjusted_pitch:.2f}°", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
    cv2.putText(frame, f"Roll: {roll_degrees:.2f}°", (10, 70), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

    # 졸음 감지 로직
    current_time = time.time()
    if adjusted_pitch <= -15:  # 고개가 많이 숙여졌을 때
        if current_time - last_drowsiness_time >= 2:  # 2초 이상 유지 시 졸음 카운트 증가
            drowsiness_count += 1
            last_drowsiness_time = current_time
            last_count_time = current_time

        if drowsiness_count >= drowsiness_threshold:  # 졸음 감지 임계값 초과 시
            if blink_start_time is None:
                blink_start_time = current_time

    # 10초 이상 지나면 졸음 카운트 초기화
    if current_time - last_count_time >= 10:
        drowsiness_count = 0

    # 졸음 경고 표시
    if drowsiness_count >= drowsiness_threshold:
        if (time.time() - blink_start_time) % 0.5 < 0.25:  # 깜박이는 경고 메시지
            font_scale = 5
            text = "SLEEP"
            text_size = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, font_scale, 2)[0]
            text_x = (frame.shape[1] - text_size[0]) // 2
            text_y = (frame.shape[0] + text_size[1]) // 2
            cv2.putText(frame, text, (text_x, text_y), cv2.FONT_HERSHEY_SIMPLEX, font_scale, (0, 0, 255), 2)

    # 졸음 카운트 출력
    cv2.putText(frame, f"Drowsiness Count: {drowsiness_count}", (10, 110), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 255, 255), 2)

    # 결과 이미지 출력
    cv2.imshow('Mediapipe + Dlib Face Landmarks', frame)

    # 'q'를 누르면 종료
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()


# 2차 시도

In [None]:
from tensorflow.keras.applications import MobileNet
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D
from tensorflow.keras.models import Model

# MobileNet 모델 로드 (ImageNet으로 사전 학습된 가중치 사용)
base_model = MobileNet(weights='imagenet', include_top=False, input_shape=(224, 224, 3))

# GlobalAveragePooling2D로 피처 추출
x = base_model.output
x = GlobalAveragePooling2D()(x)

# 출력 레이어: 회귀 문제이므로 Dense 레이어에 유닛 하나 추가
# (여기서는 머리 각도를 예측하므로 활성화 함수는 사용하지 않음)
predictions = Dense(1)(x)

# 새로운 모델 정의
model = Model(inputs=base_model.input, outputs=predictions)

# 사전 학습된 레이어는 고정하고 학습되지 않도록 설정
for layer in base_model.layers:
    layer.trainable = False

# 모델 컴파일
model.compile(optimizer='adam', loss='mean_squared_error')


In [None]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(rescale=1./255, validation_split=0.2)

train_generator = datagen.flow_from_directory(
    'C:/_AppleBanana/TrainData/GradeData2/train',
    target_size=(224, 224),
    batch_size=32,
    class_mode='raw',  # 각도 예측이므로 회귀 문제로 설정
    subset='training'
)

validation_generator = datagen.flow_from_directory(
    'C:/_AppleBanana/TrainData/GradeData2/test',
    target_size=(224, 224),
    batch_size=32,
    class_mode='raw',
    subset='validation'
)


# 3차 시도

## 원본 데이터와 랜드마크 데이터 매칭 함수

In [None]:
import os
import json
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.preprocessing.image import load_img, img_to_array

# 이미지 크기 설정 (MobileNet의 기본 입력 크기)
IMG_SIZE = (224, 224)

def load_data(image_dir, label_dir):
    images = []
    labels = []
    
    # 이미지와 JSON 파일 매칭을 위해 이미지 파일명 목록 생성
    image_files = {}
    json_files = {}

    # 하위 폴더 포함 이미지 파일 목록 생성
    for root, _, files in os.walk(image_dir):
        for f in files:
            if f.endswith('.png'):
                base_filename = f.split('.')[0]
                image_files[base_filename] = os.path.join(root, f)

    # 하위 폴더 포함 JSON 파일 목록 생성
    for root, _, files in os.walk(label_dir):
        for f in files:
            if f.endswith('.json'):
                base_filename = f.split('.')[0]
                json_files[base_filename] = os.path.join(root, f)

    # 이미지 파일명 기준으로 매칭
    for base_filename, img_path in image_files.items():
        if base_filename in json_files:
            # 이미지 로드 및 전처리
            img = load_img(img_path, target_size=IMG_SIZE)
            img_array = img_to_array(img) / 255.0  # 정규화
            images.append(img_array)

            # 해당 이미지의 라벨 로드 및 전처리
            label_path = json_files[base_filename]
            with open(label_path, 'r') as f:
                label_data = json.load(f)
                
                # 이미지 원본 크기 정보 (width, height)
                orig_width = label_data['width']
                orig_height = label_data['height']
                
                # 첫 번째 annotation 정보에서 랜드마크 추출
                landmark = label_data['annotation'][0]['landmark']
                
                # 원본 크기에 대한 랜드마크 좌표를 리사이징된 이미지 크기에 맞게 변환
                resized_landmarks = []
                for (x, y) in landmark:
                    resized_x = (x / orig_width) * IMG_SIZE[0]
                    resized_y = (y / orig_height) * IMG_SIZE[1]
                    resized_landmarks.extend([resized_x, resized_y])  # (x, y) 좌표를 1D 리스트로 확장
                
                labels.append(resized_landmarks)

    return np.array(images), np.array(labels)


## 데이터셋 폴더 지정

In [None]:
# 경로 설정
image_dir = 'C:/_AppleBanana/TrainData/GradeData2/train'
label_dir = 'C:/_AppleBanana/TrainData/GradeData2/test'

# 데이터 로드
X, y = load_data(image_dir, label_dir)

# 데이터 형태 확인
print(f"이미지 데이터 형태: {X.shape}")
print(f"라벨 데이터 형태: {y.shape}")

# 줄어든 이미지 하나 시각화 (첫 번째 이미지 사용)
def show_image_with_landmarks(img, landmarks):
    plt.imshow(img)
    landmarks = np.array(landmarks).reshape(-1, 2)  # (x, y) 쌍으로 변환
    plt.scatter(landmarks[:, 0], landmarks[:, 1], c='r', marker='x')  # 빨간색 x로 랜드마크 표시
    plt.show()

# 첫 번째 이미지와 랜드마크 표시
show_image_with_landmarks(X[1000], y[1000])

## 초기 모델 학습 및 저장

In [None]:
import os
import json
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.callbacks import ReduceLROnPlateau

# MobileNetV2 모델 불러오기 (ImageNet weights 사용, 마지막 layer 제외)
base_model = tf.keras.applications.MobileNetV2(input_shape=(224, 224, 3), include_top=False, weights='imagenet')
base_model.trainable = False  # 사전 훈련된 가중치를 고정 X

# 모델 정의
model = models.Sequential([
    base_model,
    layers.GlobalAveragePooling2D(),
    layers.Dense(1024, activation='relu'),  # L2 정규화
    layers.BatchNormalization(),  # 배치 정규화
    layers.Dropout(0.3),  # 50% 드롭아웃 적용
    layers.Dense(10)  # 5개의 랜드마크, 각 (x, y) 좌표
])

def smooth_l1_loss(y_true, y_pred):
    diff = tf.abs(y_true - y_pred)
    less_than_one = tf.cast(tf.less(diff, 1.0), tf.float32)
    loss = less_than_one * 0.5 * diff**2 + (1.0 - less_than_one) * (diff - 0.5)
    return tf.reduce_mean(loss)

# 모델 컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 조기 종료 설정 (검증 손실이 5 epoch 동안 향상되지 않으면 학습 중단)
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

# 학습률이 향상되지 않으면 학습률 감소
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.00001)

# 모델 학습
model.fit(X, y, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])

# 모델 저장
model.save('mobilenetv2_face_detection.h5')  # 원하는 파일 경로와 이름을 입력하세요.


## 추가 데이터셋 폴더 지정

In [None]:
# 경로 설정
image_dir = 'D:/TrainData/GradeData1_full/Validation/train'
label_dir = 'D:/TrainData/GradeData1_full/Validation/test'

# 데이터 로드
X, y = load_data(image_dir, label_dir)

# 데이터 형태 확인
print(f"이미지 데이터 형태: {X.shape}")
print(f"라벨 데이터 형태: {y.shape}")

# 줄어든 이미지 하나 시각화 (첫 번째 이미지 사용)
def show_image_with_landmarks(img, landmarks):
    plt.imshow(img)
    landmarks = np.array(landmarks).reshape(-1, 2)  # (x, y) 쌍으로 변환
    plt.scatter(landmarks[:, 0], landmarks[:, 1], c='r', marker='x')  # 빨간색 x로 랜드마크 표시
    plt.show()

# 첫 번째 이미지와 랜드마크 표시
# show_image_with_landmarks(X[0], y[0])


## 모델 추가 학습

In [None]:
import os
import json
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.image import load_img, img_to_array
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau

# 저장된 모델 불러오기 (compile=False로 설정)
model = tf.keras.models.load_model('mobilenetv2_face_detection_tuning_GD1.h5', compile=False)

# Fine-tuning을 위해 특정 레이어의 학습을 허용 (예: 마지막 몇 개 레이어)
base_model = model.layers[0]  # MobileNetV2 base model
base_model.trainable = True  # MobileNetV2 모델의 모든 레이어 학습 가능하도록 설정

# 모델 재컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 조기 종료 및 학습률 감소 콜백 재설정
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=1e-6)

# 추가 학습
model.fit(X, y, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])

# 모델 다시 저장
model.save('mobilenetv2_face_detection_tuning_GD1.h5')


## 랜드마크 예측 시각화

In [None]:
# 학습 후 예측된 랜드마크 시각화
def predict_and_show(model, img):
    img = np.expand_dims(img, axis=0)  # 배치 차원 추가
    pred_landmarks = model.predict(img)
    show_image_with_landmarks(img[0], pred_landmarks[0])
    show_image_with_landmarks(X[1], y[1])

# 첫 번째 이미지에 대한 예측 결과 시각화
predict_and_show(model, X[1])

# 4차 시도

## 임포트

In [None]:
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.callbacks import ReduceLROnPlateau
from tensorflow.keras import layers, models
from tensorflow.keras.preprocessing.image import load_img, img_to_array
import json
import matplotlib.pyplot as plt
import numpy as np
import os
import tensorflow as tf

## 함수 모음

In [None]:
# 이미지 크기 설정 (MobileNet의 기본 입력 크기)
IMG_SIZE = (224, 224)

def load_data(image_dir, label_dir):
    images = []
    labels = []
    
    # 이미지와 JSON 파일 매칭을 위해 이미지 파일명 목록 생성
    image_files = {}
    json_files = {}

    # 하위 폴더 포함 이미지 파일 목록 생성
    for root, _, files in os.walk(image_dir):
        for f in files:
            if f.endswith('.png'):
                base_filename = f.split('.')[0]
                image_files[base_filename] = os.path.join(root, f)

    # 하위 폴더 포함 JSON 파일 목록 생성
    for root, _, files in os.walk(label_dir):
        for f in files:
            if f.endswith('.json'):
                base_filename = f.split('.')[0]
                json_files[base_filename] = os.path.join(root, f)

    # 이미지 파일명 기준으로 매칭
    for base_filename, img_path in image_files.items():
        if base_filename in json_files:
            # 이미지 로드 및 전처리
            img = load_img(img_path, target_size=IMG_SIZE)
            img_array = img_to_array(img) / 255.0  # 정규화
            images.append(img_array)

            # 해당 이미지의 라벨 로드 및 전처리
            label_path = json_files[base_filename]
            with open(label_path, 'r') as f:
                label_data = json.load(f)
                
                # 이미지 원본 크기 정보 (width, height)
                orig_width = label_data['width']
                orig_height = label_data['height']
                
                # 첫 번째 annotation 정보에서 랜드마크 추출
                landmark = label_data['annotation'][0]['landmark']
                
                # 원본 크기에 대한 랜드마크 좌표를 리사이징된 이미지 크기에 맞게 변환
                resized_landmarks = []
                for (x, y) in landmark:
                    resized_x = (x / orig_width) * IMG_SIZE[0]
                    resized_y = (y / orig_height) * IMG_SIZE[1]
                    resized_landmarks.extend([resized_x, resized_y])  # (x, y) 좌표를 1D 리스트로 확장
                
                labels.append(resized_landmarks)

    return np.array(images), np.array(labels)

# 줄어든 이미지 하나 시각화 (첫 번째 이미지 사용)
def show_image_with_landmarks(img, landmarks):
    plt.imshow(img)
    landmarks = np.array(landmarks).reshape(-1, 2)  # (x, y) 쌍으로 변환
    plt.scatter(landmarks[:, 0], landmarks[:, 1], c='r', marker='x')  # 빨간색 x로 랜드마크 표시
    plt.show()

def smooth_l1_loss(y_true, y_pred):
    diff = tf.abs(y_true - y_pred)
    less_than_one = tf.cast(tf.less(diff, 1.0), tf.float32)
    loss = less_than_one * 0.5 * diff**2 + (1.0 - less_than_one) * (diff - 0.5)
    return tf.reduce_mean(loss)

# 줄어든 이미지 하나 시각화 (첫 번째 이미지 사용)
def show_image_with_landmarks(img, landmarks):
    plt.imshow(img)
    landmarks = np.array(landmarks).reshape(-1, 2)  # (x, y) 쌍으로 변환
    plt.scatter(landmarks[:, 0], landmarks[:, 1], c='r', marker='x')  # 빨간색 x로 랜드마크 표시
    plt.show()


## 데이터셋 경로 설정

In [None]:
# 경로 설정
image_dir = 'D:/TrainData/GradeData1_full/Validation/train'
label_dir = 'D:/TrainData/GradeData1_full/Validation/test'

# 데이터 로드
X, y = load_data(image_dir, label_dir)

# 데이터 형태 확인
print(f"이미지 데이터 형태: {X.shape}")
print(f"라벨 데이터 형태: {y.shape}")

# 첫 번째 이미지와 랜드마크 표시
show_image_with_landmarks(X[1000], y[1000])


## 모델 학습

In [None]:
# MobileNetV2 모델 불러오기 (ImageNet weights 사용, 마지막 layer 제외)
base_model = tf.keras.applications.MobileNetV2(input_shape=(224, 224, 3), include_top=False, weights='imagenet')
base_model.trainable = False  # 사전 훈련된 가중치를 고정 X

# 모델 정의
model = models.Sequential([
    base_model,
    layers.GlobalAveragePooling2D(),
    layers.Dense(1024, activation='relu'),  # L2 정규화
    layers.BatchNormalization(),  # 배치 정규화
    layers.Dropout(0.3),  # 50% 드롭아웃 적용
    layers.Dense(10)  # 5개의 랜드마크, 각 (x, y) 좌표
])

# 모델 컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 조기 종료 설정 (검증 손실이 5 epoch 동안 향상되지 않으면 학습 중단)
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

# 학습률이 향상되지 않으면 학습률 감소
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.00001)

# 모델 학습
model.fit(X, y, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])

# 모델 저장
model.save('mobilenetv2_GD1_F_V.h5')  # 원하는 파일 경로와 이름을 입력하세요.


## 모델 추가 학습

In [None]:
# 저장된 모델 불러오기 (compile=False로 설정)
model = tf.keras.models.load_model('mobilenetv2_GD1_F_V.h5', compile=False)

# Fine-tuning을 위해 특정 레이어의 학습을 허용 (예: 마지막 몇 개 레이어)
base_model = model.layers[0]  # MobileNetV2 base model
base_model.trainable = True  # MobileNetV2 모델의 모든 레이어 학습 가능하도록 설정

# 모델 재컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 조기 종료 및 학습률 감소 콜백 재설정
early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=1e-6)

# 추가 학습
model.fit(X, y, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping, reduce_lr])

# 모델 다시 저장
model.save('mobilenetv2_GD1_F_V.h5')


## 예측 시각화

In [None]:
# 학습 후 예측된 랜드마크 시각화
def predict_and_show(model, img):
    img = np.expand_dims(img, axis=0)  # 배치 차원 추가
    pred_landmarks = model.predict(img)
    show_image_with_landmarks(img[0], pred_landmarks[0])
    show_image_with_landmarks(X[10], y[10])

# 첫 번째 이미지에 대한 예측 결과 시각화
predict_and_show(model, X[10])

# 5차 시도

## 임포트

In [None]:
from tensorflow.keras import layers, models
from tensorflow.keras.applications import MobileNet
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.preprocessing.image import load_img, img_to_array
import json
import matplotlib.pyplot as plt
import numpy as np
import os
import tensorflow as tf

## 데이터 로딩 함수

In [4]:
def load_data(image_dir, label_dir):
    images = []
    labels = []
    
    # 이미지와 JSON 파일 매칭을 위해 이미지 파일명 목록 생성
    image_files = {}
    json_files = {}

    # 하위 폴더 포함 이미지 파일 목록 생성
    for root, _, files in os.walk(image_dir):
        for f in files:
            if f.endswith('.png'):
                base_filename = f.split('.')[0]
                image_files[base_filename] = os.path.join(root, f)

    # 하위 폴더 포함 JSON 파일 목록 생성
    for root, _, files in os.walk(label_dir):
        for f in files:
            if f.endswith('.json'):
                base_filename = f.split('.')[0]
                json_files[base_filename] = os.path.join(root, f)

    # 이미지 파일명 기준으로 매칭
    for base_filename, img_path in image_files.items():
        if base_filename in json_files:
            # 이미지 로드 및 전처리
            img = load_img(img_path, target_size=IMG_SIZE)
            img_array = img_to_array(img) / 255.0  # 정규화
            images.append(img_array)

            # 해당 이미지의 라벨 로드 및 전처리
            label_path = json_files[base_filename]
            with open(label_path, 'r') as f:
                label_data = json.load(f)
                
                # 이미지 원본 크기 정보 (width, height)
                orig_width = label_data['width']
                orig_height = label_data['height']
                
                # 첫 번째 annotation 정보에서 랜드마크 추출
                landmark = label_data['annotation'][0]['landmark']
                
                # 원본 크기에 대한 랜드마크 좌표를 리사이징된 이미지 크기에 맞게 변환
                resized_landmarks = []
                for (x, y) in landmark:
                    resized_x = (x / orig_width) * IMG_SIZE[0]
                    resized_y = (y / orig_height) * IMG_SIZE[1]
                    resized_landmarks.extend([resized_x, resized_y])  # (x, y) 좌표를 1D 리스트로 확장
                
                labels.append(resized_landmarks)

    return np.array(images), np.array(labels)
    

## 데이터 경로 지정

In [5]:
# 이미지 크기 및 배치 사이즈 설정
IMG_SIZE = (224, 224)
BATCH_SIZE = 32

# 데이터 경로 설정
train_img_dir = 'D:/TrainData/GradeData1_full/Training/train'
train_label_dir = 'D:/TrainData/GradeData1_full/Training/test'
val_img_dir = 'D:/TrainData/GradeData1_full/Validation/train'
val_label_dir = 'D:/TrainData/GradeData1_full/Validation/test'

# 훈련 및 검증 데이터셋 로드
train_images, train_labels = load_data(train_img_dir, train_label_dir)
val_images, val_labels = load_data(val_img_dir, val_label_dir)

print("Train images shape:", train_images.shape)  # (N, 224, 224, 3)
print("Train labels shape:", train_labels.shape)  # (N, 10)
print("Validation images shape:", val_images.shape)  # (M, 224, 224, 3)
print("Validation labels shape:", val_labels.shape)  # (M, 10)




KeyboardInterrupt: 

In [None]:
# 모델 구성
base_model = MobileNet(weights='imagenet', include_top=False, input_shape=(224, 224, 3))
base_model.trainable = False  # 사전 학습된 가중치 고정

model = tf.keras.Sequential([
    base_model, 
    layers.GlobalAveragePooling2D(), 
    layers.Dense(128, activation='relu'), 
    layers.Dense(10)  # 5개의 랜드마크 좌표 (x, y) 5쌍이므로 출력 뉴런 수는 10
])

# 모델 컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mean_absolute_error'])

# 모델 학습
model.fit(train_images, train_labels, validation_data=(val_images, val_labels), batch_size=BATCH_SIZE, epochs=10)