In [5]:
raw_path = '/home/ec2-user/SageMaker/data/NG'
folder_path = '/home/ec2-user/SageMaker/sein/NG_edge'
defect_images = [
    {'file': '971.bmp', 'category': 'dent'},     # 패임
    {'file': '883.bmp', 'category': 'torn'},     # 찢김
    {'file': '4748.bmp', 'category': 'bubble'},  # 기포
    {'file': '3940.bmp', 'category': 'foreignsub'} # 이물질
]

In [6]:
import cv2
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 폴더에서 이미지를 로드하는 함수
def load_images_from_folder(folder_path):
    """지정된 폴더에서 이미지를 로드합니다."""
    images = []
    for filename in os.listdir(folder_path):  # 폴더 내의 모든 파일 확인
        if filename.endswith(('.bmp', '.png', '.jpg')):  # 이미지 파일 확장자 확인
            img_path = os.path.join(folder_path, filename)
            img = cv2.imread(img_path)  # 이미지를 로드
            if img is not None:
                # 이미지를 전처리 (enhanced, edges 반환)
                _, _, _, enhanced, edges = preprocess_image(img)
                images.append({
                    'filename': filename, 
                    'enhanced': enhanced, 
                    'edges': edges
                })
    return images

In [7]:
import os
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.linear_model import LogisticRegression
import cv2
import math

In [8]:
from skimage.feature import graycomatrix, graycoprops
from sklearn.manifold import TSNE

def visualize_plots(images, predictions, probabilities, filenames):
    """결과 시각화 함수"""
    # 클래스별 예측 개수 시각화
    plt.figure(figsize=(12, 5))
    
    # 1. 클래스별 분포 그래프
    plt.subplot(121)
    classes = ['dent', 'torn', 'bubble', 'foreignsub']
    class_counts = [np.sum(predictions == i) for i in range(len(classes))]
    
    plt.bar(classes, class_counts)
    plt.title('Distribution of Predicted Classes')
    plt.ylabel('Number of Images')
    plt.xticks(rotation=45)
    
    # 2. t-SNE를 사용한 군집 시각화
    plt.subplot(122)
    tsne = TSNE(n_components=2, random_state=42)
    features_2d = tsne.fit_transform(probabilities)
    
    colors = ['red', 'blue', 'green', 'purple']
    for i, class_name in enumerate(classes):
        mask = predictions == i
        plt.scatter(features_2d[mask, 0], features_2d[mask, 1], 
                   c=colors[i], label=class_name, alpha=0.6)
    
    plt.title('Clustering Visualization')
    plt.legend()
    plt.tight_layout()
    plt.show()
    
    return {
        'class_distribution': dict(zip(classes, class_counts)),
        'clustering': features_2d
    }




def visualize_results(images, predictions, probabilities, filenames):
    """결과를 시각화합니다. 한 줄에 6개의 이미지를 표시합니다."""
    categories = ['dent', 'torn', 'bubble', 'foreignsub']
    n_images = len(images)
    n_cols = 6
    n_rows = math.ceil(n_images / n_cols)
    
    # 결과를 저장할 리스트 생성
    results = []
    
    # 이미지 그리드 생성
    fig = plt.figure(figsize=(20, 3*n_rows))
    for i, img_data in enumerate(images):
        plt.subplot(n_rows, n_cols, i + 1)
        plt.imshow(img_data['image'], cmap='gray')
        
        # 예측 결과 및 신뢰도
        pred_category = categories[predictions[i]]
        prob = probabilities[i][predictions[i]] * 100
        
        # 결과 저장
        results.append({
            'file': filenames[i],
            'prediction': pred_category,
            'confidence': prob
        })
        
        # 타이틀에 파일명과 예측 결과 표시
        plt.title(f"{filenames[i]}\n{pred_category}\n{prob:.1f}%", 
                 fontsize=8, pad=5)
        plt.axis('off')
    
    plt.tight_layout()
    plt.show()
    
    # 예측 결과 출력
    print("\n예측 결과:")
    for r in results:
        print(f"File: {r['file']:<20} Prediction: {r['prediction']:<12} Confidence: {r['confidence']:.1f}%")
    
    return results

ModuleNotFoundError: No module named 'skimage'

In [4]:
from skimage.feature import graycomatrix, graycoprops
from sklearn.manifold import TSNE

def visualize_plots(images, predictions, probabilities, filenames):
    """결과 시각화 함수"""
    # 클래스별 예측 개수 시각화
    plt.figure(figsize=(12, 5))
    
    # 1. 클래스별 분포 그래프
    plt.subplot(121)
    classes = ['dent', 'torn', 'bubble', 'foreignsub']
    class_counts = [np.sum(predictions == i) for i in range(len(classes))]
    
    plt.bar(classes, class_counts)
    plt.title('Distribution of Predicted Classes')
    plt.ylabel('Number of Images')
    plt.xticks(rotation=45)
    
    # 2. t-SNE를 사용한 군집 시각화
    plt.subplot(122)
    tsne = TSNE(n_components=2, random_state=42)
    features_2d = tsne.fit_transform(probabilities)
    
    colors = ['red', 'blue', 'green', 'purple']
    for i, class_name in enumerate(classes):
        mask = predictions == i
        plt.scatter(features_2d[mask, 0], features_2d[mask, 1], 
                   c=colors[i], label=class_name, alpha=0.6)
    
    plt.title('Clustering Visualization')
    plt.legend()
    plt.tight_layout()
    plt.show()
    
    return {
        'class_distribution': dict(zip(classes, class_counts)),
        'clustering': features_2d
    }




def visualize_results(images, predictions, probabilities, filenames):
    """결과를 시각화합니다. 한 줄에 6개의 이미지를 표시합니다."""
    categories = ['dent', 'torn', 'bubble', 'foreignsub']
    n_images = len(images)
    n_cols = 6
    n_rows = math.ceil(n_images / n_cols)
    
    # 결과를 저장할 리스트 생성
    results = []
    
    # 이미지 그리드 생성
    fig = plt.figure(figsize=(20, 3*n_rows))
    for i, img_data in enumerate(images):
        plt.subplot(n_rows, n_cols, i + 1)
        plt.imshow(img_data['image'], cmap='gray')
        
        # 예측 결과 및 신뢰도
        pred_category = categories[predictions[i]]
        prob = probabilities[i][predictions[i]] * 100
        
        # 결과 저장
        results.append({
            'file': filenames[i],
            'prediction': pred_category,
            'confidence': prob
        })
        
        # 타이틀에 파일명과 예측 결과 표시
        plt.title(f"{filenames[i]}\n{pred_category}\n{prob:.1f}%", 
                 fontsize=8, pad=5)
        plt.axis('off')
    
    plt.tight_layout()
    plt.show()
    
    # 예측 결과 출력
    print("\n예측 결과:")
    for r in results:
        print(f"File: {r['file']:<20} Prediction: {r['prediction']:<12} Confidence: {r['confidence']:.1f}%")
    
    return results

ModuleNotFoundError: No module named 'skimage'

In [3]:
import os
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.semi_supervised import LabelPropagation
from sklearn.metrics.pairwise import rbf_kernel
import cv2
import math
from skimage.feature import graycomatrix, graycoprops
from sklearn.manifold import TSNE

def create_training_data(images, defect_images):
    """학습 데이터를 생성합니다."""
    features = []
    labels = []
    filenames = []
    categories = {'dent': 0, 'torn': 1, 'bubble': 2, 'foreignsub': 3}
    
    # 레이블이 있는 데이터와 없는 데이터 구분
    labeled_files = {d['file'].lower(): d['category'] for d in defect_images}
    
    labeled_count = 0
    for img_data in images:
        features.append(extract_features(img_data['image']))
        filenames.append(img_data['filename'])
        
        # 파일명을 소문자로 변환하여 비교
        if img_data['filename'].lower() in labeled_files:
            labels.append(categories[labeled_files[img_data['filename'].lower()]])
            labeled_count += 1
        else:
            labels.append(-1)
    
    print(f"Found {labeled_count} labeled images out of {len(images)} total images")
    
    if labeled_count == 0:
        raise ValueError("No labeled data found! Please check if the image filenames match with defect_images.")
    
    return np.array(features), np.array(labels), filenames

def extract_features(image):
    """특징 추출 함수 개선"""
    features = []
    
    # 1. 엣지 검출 강화
    edges = cv2.Canny(image, 50, 150)
    edge_density = np.mean(edges) / 255.0
    
    # 2. 로컬 컨트라스트 특징
    local_std = np.std(image.astype(float))
    
    # 3. 텍스처 특징 추출
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) if len(image.shape) == 3 else image
    glcm = graycomatrix(gray, [1], [0, np.pi/4, np.pi/2, 3*np.pi/4])
    contrast = graycoprops(glcm, 'contrast')[0]
    dissimilarity = graycoprops(glcm, 'dissimilarity')[0]
    
    # 4. 블롭 검출
    params = cv2.SimpleBlobDetector_Params()
    params.minThreshold = 10
    params.maxThreshold = 200
    params.filterByArea = True
    params.minArea = 20
    detector = cv2.SimpleBlobDetector_create(params)
    keypoints = detector.detect(gray)
    blob_count = len(keypoints)
    
    # 5. 엣지 방향성 분석
    sobelx = cv2.Sobel(gray, cv2.CV_64F, 1, 0, ksize=3)
    sobely = cv2.Sobel(gray, cv2.CV_64F, 0, 1, ksize=3)
    edge_angles = np.arctan2(sobely, sobelx)
    angle_hist, _ = np.histogram(edge_angles, bins=8, range=(-np.pi, np.pi))
    
    # 특징 벡터 구성
    features.extend([
        edge_density,
        local_std,
        *contrast,
        *dissimilarity,
        blob_count,
        *angle_hist
    ])
    
    return np.array(features)

def train_semi_supervised(features, labels):
    """반지도 학습 모델 개선"""
    # 데이터 증강
    augmented_features = []
    augmented_labels = []
    for i, (feat, label) in enumerate(zip(features, labels)):
        if label != -1:  # 레이블이 있는 데이터만 증강
            noise = np.random.normal(0, 0.1, feat.shape)
            augmented_features.append(feat + noise)
            augmented_labels.append(label)
    
    features = np.vstack([features, augmented_features])
    labels = np.concatenate([labels, augmented_labels])
    
    # 모델 파라미터 조정
    model = LabelPropagation(
        kernel='rbf',
        gamma=3,  # gamma 값 조정
        max_iter=2000,
        tol=1e-6
    )
    
    # 모델 학습
    model.fit(features, labels)
    
    # 예측 및 확률 계산
    predictions = model.predict(features)
    probabilities = model.predict_proba(features)
    
    return predictions, probabilities


def compute_class_weights(labels):
    """클래스 불균형 처리를 위한 가중치 계산"""
    unique_labels = np.unique(labels[labels != -1])
    class_counts = np.array([np.sum(labels == label) for label in unique_labels])
    weights = 1.0 / class_counts
    weights = weights / np.sum(weights) * len(unique_labels)
    return dict(zip(unique_labels, weights))

def main(folder_path, defect_images):
    """메인 실행 함수"""
    print("Loading images...")
    images = load_images_from_folder(folder_path)
    
    print(f"Loaded {len(images)} images")
    print("\nImage filenames in folder:")
    for img in images[:5]:  # 처음 5개 파일명만 출력
        print(f"- {img['filename']}")
    
    print("\nLabeled images we're looking for:")
    for defect in defect_images:
        print(f"- {defect['file']} ({defect['category']})")
    
    print("\nExtracting features...")
    features, labels, filenames = create_training_data(images, defect_images)
    
    print("\nStandardizing features...")
    scaler = StandardScaler()
    scaled_features = scaler.fit_transform(features)
    
    print("Reducing dimensionality...")
    pca = PCA(n_components=min(20, scaled_features.shape[1]))
    reduced_features = pca.fit_transform(scaled_features)
    print(f"Reduced features shape: {reduced_features.shape}")
    
    print("\nTraining semi-supervised model...")
    predictions, probabilities = train_semi_supervised(reduced_features, labels)
    
    print("Visualizing plots...")
    results = visualize_plots(images, predictions, probabilities, filenames)
    
    print("Visualizing results...")
    results = visualize_results(images, predictions, probabilities, filenames)
    
    return results


if __name__ == "__main__":
    folder_path = '/home/ec2-user/SageMaker/sein/NG_edge'
    defect_images = [
    # dent 예시 이미지들
    {'file': 'edge_971.bmp', 'category': 'dent'},
    {'file': 'edge_4439.bmp', 'category': 'dent'},
    {'file': 'edge_4447.bmp', 'category': 'dent'},
    {'file': 'edge_2659.bmp', 'category': 'dent'},
    {'file': 'edge_2667.bmp', 'category': 'dent'},
    {'file': 'edge_2675.bmp', 'category': 'dent'},
    
    # torn 예시 이미지들
    {'file': 'edge_883.bmp', 'category': 'torn'},
    {'file': 'edge_4563.bmp', 'category': 'torn'},
    {'file': 'edge_4875.bmp', 'category': 'torn'},
    {'file': 'edge_1755.bmp', 'category': 'torn'},
    {'file': 'edge_4987.bmp', 'category': 'torn'},
    {'file': 'edge_2642.bmp', 'category': 'torn'},
    {'file': 'edge_4683.bmp', 'category': 'torn'},
    
    # bubble 예시 이미지들
    {'file': 'edge_4748.bmp', 'category': 'bubble'},
    {'file': 'edge_4597.bmp', 'category': 'bubble'},
    {'file': 'edge_4588.bmp', 'category': 'bubble'},
    {'file': 'edge_4322.bmp', 'category': 'bubble'},
    {'file': 'edge_4377.bmp', 'category': 'bubble'},
    {'file': 'edge_4383.bmp', 'category': 'bubble'},
    {'file': 'edge_4345.bmp', 'category': 'bubble'},
    {'file': 'edge_4343.bmp', 'category': 'bubble'},
    {'file': 'edge_4612.bmp', 'category': 'bubble'},
    {'file': 'edge_4347.bmp', 'category': 'bubble'},
    {'file': 'edge_4362.bmp', 'category': 'bubble'},
    
    # foreignsub 예시 이미지들
    {'file': 'edge_3940.bmp', 'category': 'foreignsub'},
    {'file': 'edge_4306.bmp', 'category': 'foreignsub'},
    {'file': 'edge_4483.bmp', 'category': 'foreignsub'},
    {'file': 'edge_4491.bmp', 'category': 'foreignsub'},
]
    main(folder_path, defect_images)

ModuleNotFoundError: No module named 'skimage'

In [None]:
import os
import shutil

def save_images_by_classification(folder_path, results, output_folder):
    """
    분류 결과를 기반으로 각 클래스별 디렉터리를 생성하고 이미지를 저장합니다.

    Args:
        folder_path (str): 원본 이미지가 저장된 폴더 경로.
        results (list): 분류된 파일 이름, 예측된 클래스, 신뢰도를 포함하는 리스트.
        output_folder (str): 분류된 파일을 저장할 기본 디렉터리 경로.
    """
    # 클래스별 디렉터리 생성
    for result in results:
        category = result['category']  # 클래스 이름
        class_folder = os.path.join(output_folder, category)
        os.makedirs(class_folder, exist_ok=True)
        
        # 원본 파일 경로
        original_path = os.path.join(folder_path, result['filename'])
        
        # 새로운 파일 이름과 저장 경로
        new_filename = f"{result['filename']}"  # 기존 이름 그대로 사용
        save_path = os.path.join(class_folder, new_filename)
        
        # 파일 복사
        if os.path.exists(original_path):
            shutil.copy(original_path, save_path)
            print(f"파일 저장: {original_path} -> {save_path}")
        else:
            print(f"파일 없음: {original_path}")
    
    print("\n모든 파일이 클래스별 디렉터리에 저장되었습니다.")

# 실행 예시
if __name__ == "__main__":
    # 원본 이미지 폴더
    folder_path = '/home/ec2-user/SageMaker/sein/NG_edge'
    
    # 새로 저장할 디렉터리 경로
    output_folder_path = '/home/ec2-user/SageMaker/sein/NG_classified_by_category'
    
    # 함수 호출
    save_images_by_classification(folder_path, results, output_folder_path)