# 반도체 소자 이상 탐지 AI 경진대회
- https://dacon.io/competitions/official/236224/overview/description

## 1. 데이터 전처리

In [81]:
import pandas as pd

df = pd.read_csv('./train.csv')
image_list = list(df['img_path'])

In [82]:
from torchvision import transforms
from PIL import Image

# 전처리 파이프라인 정의
preprocess = transforms.Compose([
    transforms.Resize((224, 224)),  # 이미지 크기를 224x224로 조정합니다.
    transforms.ToTensor(),          # 이미지를 텐서로 변환합니다.
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 이미지를 정규화합니다.
])

def preprocess_images(image_list):
    """
    이미지 리스트를 전처리하는 함수
    :param image_list: 전처리할 이미지들의 리스트
    :return: 전처리된 이미지들의 리스트
    """
    processed_images = []
    for image in image_list:
        processed_image = preprocess(image)
        processed_images.append(processed_image)
    return processed_images

# 전처리할 이미지 리스트 생성
image_paths = image_list                              # 전처리할 이미지 파일 경로 리스트
images = [Image.open(path) for path in image_paths]  # 이미지 파일들을 이미지 객체로 읽어옵니다.

# 이미지들 전처리
processed_images = preprocess_images(images)

# 전처리된 이미지들을 이용하여 추가적인 작업 수행 가능
# 예를 들어, 전처리된 이미지들을 모델의 입력으로 사용할 수 있습니다.

In [119]:
processed_images

[tensor([[[ 0.4166,  0.5364,  0.5193,  ...,  0.3994,  0.5878,  0.6563],
          [ 0.5536,  0.5364,  0.4851,  ...,  0.4508,  0.4851,  0.5193],
          [ 0.4851,  0.5022,  0.4337,  ...,  0.3652,  0.4851,  0.4508],
          ...,
          [ 0.4508,  0.4508,  0.3994,  ...,  0.1083,  0.2282,  0.2282],
          [ 0.4166,  0.4851,  0.4337,  ...,  0.0741,  0.2282,  0.2453],
          [ 0.4851,  0.4508,  0.4508,  ...,  0.2111,  0.1939,  0.1939]],
 
         [[-0.1625, -0.1275, -0.1275,  ..., -0.1099, -0.0749, -0.0574],
          [-0.0924, -0.1975, -0.1625,  ..., -0.1450, -0.1099, -0.0399],
          [-0.1450, -0.1975, -0.2150,  ..., -0.1800, -0.1625, -0.0749],
          ...,
          [-0.1975, -0.2500, -0.3025,  ..., -0.3901, -0.4076, -0.3200],
          [-0.2150, -0.1625, -0.2150,  ..., -0.3725, -0.3025, -0.2850],
          [-0.1450, -0.2500, -0.3200,  ..., -0.3725, -0.3375, -0.3200]],
 
         [[-0.1487, -0.1835, -0.2010,  ..., -0.0615, -0.1138,  0.0082],
          [-0.2184, -0.2184,

In [113]:
from sklearn import svm
import numpy as np

# 전처리된 이미지 데이터를 행렬로 변환
X_train = np.array([img.numpy() for img in processed_images])

# 전처리된 이미지 데이터를 2차원으로 평탄화
X_train_flat = X_train.reshape(X_train.shape[0], -1)

# One-Class SVM 모델 초기화
svm_model = svm.OneClassSVM(nu=0.05, kernel='rbf', gamma=0.1)

# 모델 학습
svm_model.fit(X_train_flat)

# 이상치 탐지
y_pred = svm_model.predict(X_train_flat)

# 이상치 탐지 결과 출력
print("이상치 탐지 결과:")
for i, pred in enumerate(y_pred):
    if pred == -1:
        print(f"이미지 {i+1}은(는) 이상치입니다.")
    else:
        print(f"이미지 {i+1}은(는) 정상입니다.")

이상치 탐지 결과:
이미지 1은(는) 정상입니다.
이미지 2은(는) 정상입니다.
이미지 3은(는) 정상입니다.
이미지 4은(는) 정상입니다.
이미지 5은(는) 정상입니다.
이미지 6은(는) 정상입니다.
이미지 7은(는) 정상입니다.
이미지 8은(는) 정상입니다.
이미지 9은(는) 정상입니다.
이미지 10은(는) 정상입니다.
이미지 11은(는) 정상입니다.
이미지 12은(는) 이상치입니다.
이미지 13은(는) 이상치입니다.
이미지 14은(는) 이상치입니다.
이미지 15은(는) 이상치입니다.
이미지 16은(는) 이상치입니다.
이미지 17은(는) 이상치입니다.
이미지 18은(는) 이상치입니다.
이미지 19은(는) 이상치입니다.
이미지 20은(는) 이상치입니다.
이미지 21은(는) 이상치입니다.
이미지 22은(는) 이상치입니다.
이미지 23은(는) 이상치입니다.
이미지 24은(는) 이상치입니다.
이미지 25은(는) 이상치입니다.
이미지 26은(는) 이상치입니다.
이미지 27은(는) 이상치입니다.
이미지 28은(는) 이상치입니다.
이미지 29은(는) 정상입니다.
이미지 30은(는) 정상입니다.
이미지 31은(는) 정상입니다.
이미지 32은(는) 정상입니다.
이미지 33은(는) 정상입니다.
이미지 34은(는) 정상입니다.
이미지 35은(는) 정상입니다.
이미지 36은(는) 정상입니다.
이미지 37은(는) 정상입니다.
이미지 38은(는) 정상입니다.
이미지 39은(는) 정상입니다.
이미지 40은(는) 정상입니다.
이미지 41은(는) 정상입니다.
이미지 42은(는) 정상입니다.
이미지 43은(는) 정상입니다.
이미지 44은(는) 정상입니다.
이미지 45은(는) 정상입니다.
이미지 46은(는) 정상입니다.
이미지 47은(는) 정상입니다.
이미지 48은(는) 정상입니다.
이미지 49은(는) 정상입니다.
이미지 50은(는) 정상입니다.
이미지 51은(는) 정상입니다.
이미지 52은(는) 정상입니다.
이미지 53은(는) 정상입니다.
이미지 54은(는) 정상입니다.
이미지 55은(는

In [114]:
y_pred

array([ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1], dtype=int64)

In [115]:
y_pred = np.where(y_pred == -1, 1, 0)
y_pred

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [116]:
print('정상  :', np.count_nonzero(y_pred == 0))
print('비정상:', np.count_nonzero(y_pred == 1))

정상  : 145
비정상: 68


In [None]:
# test 1
정상  : 145
비정상: 68
    
# test 2 - Normalize(mean, std) 변경
정상  : 145
비정상: 68
    
# test 3 - nu: 0.03
정상  : 145
비정상: 68