# Wafer Map Defect Classification

## 프로젝트 개요
반도체 공정에서 생성되는 웨이퍼 맵 데이터는 엔지니어가 불량의 원인을 식별하는 데 중요한 세부 정보를 제공합니다. 이러한 불량 패턴을 자동으로 식별하여 반도체 공정에서 웨이퍼 생산 공정을 개선할 수 있습니다.

본 프로젝트에서는 1만6천장의 이미지 데이터를 기반으로 웨이퍼 맵의 불량을 자동으로 분류하는 검사기를 만들고자 합니다.

아래의 이미지는 학습 데이터에서 시각화 한 예시로 이미지의 제목은 불량 유형을 의미합니다.

이미지에서 노란색 Pixel은 정상 다이(Die, 1) 검은색 Pixel은 비정상 다이(Die, 2)를 의미합니다.

![img](https://i.imgur.com/3nBXUU7_d.webp?maxwidth=760&fidelity=grand)


## 데이터 설명
#### 파일 구조
- train.csv
    - 학습을 위하여 활용되는 데이터 셋입니다.
- test.csv
    - 테스트를 위하여 제공되는 데이터 셋입니다.
- submission.csv
    - 예측한 불량 유형을 submission 파일에 작성한 후 제출합니다.

#### 데이터 구조 설명
- lotName : Lot 이름
- waferId : 해당 Lot에서의 Wafer 순서
- dieSize : 다이(Die)의 개수
- pixel_1 ~ pixcel 676 : 다이(Die)에 대한 정보
  - 0 : 26 x 26 이미지 형태를 유지를 위한 정보
  - 1 : 정상 Die 
  - 2 : 비정상 Die
- label : 불량 유형
    - 0: 'Center'
    - 1: 'Donut'
    - 2: 'Edge-Loc'
    - 3: 'Edge-Ring'
    - 4: 'Loc'
    - 5: 'Near-full'
    - 6: 'Random'
    - 7: 'Scratch'
    - 8: 'none'


## 프로젝트 구성
* 데이터 로드 (load data, train.csv, test.csv)
* 데이터 전처리 및 특성 공학 (train.csv, test.csv)
* 모델 생성 및 검증 (train.csv)
* 평가 데이터 예측 (test.csv)
* 결과 제출 및 점수 확인

## 제출 이력 및 순위 조회
[평가시스템](http://manage.jaen.kr)에 접속하여 확인 가능
> 로그인 -> 프로젝트 -> 웨이퍼 맵 불량 유형 분류 -> 리더보드

### 접속 정보
- ID : `~~~@sk.com`
- PWD : `mysuni`

## 환경 설정

In [1]:
project_name = "웨이퍼 맵 불량 유형 분류" # 프로젝트 이름
class_info = "4차수 B반" # 차수 정보
email = "mysuni_4b" # 회사 이메일을 넣어주세요. (~~~@sk.com)

## 모듈 설치 및 데이터 다운로드

In [2]:
!pip install --upgrade mySUNI



You should consider upgrading via the 'c:\users\baem1n\anaconda3\python.exe -m pip install --upgrade pip' command.


In [3]:
from mySUNI import cds

In [4]:
cds.download_project(project_name, class_info, email)

프로젝트: 웨이퍼 맵 불량 유형 분류
파일 정보

train.csv:	 data\웨이퍼 맵 불량 유형 분류\train.csv
test.csv:	 data\웨이퍼 맵 불량 유형 분류\test.csv
submission.csv:	 data\웨이퍼 맵 불량 유형 분류\submission.csv



## 모듈 import 
필요한 모듈을 import 합니다. 필요에 따라 추가 패키지를 load 할 수 있습니다.

In [5]:
import os
import datetime
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# Data 경로 설정
DATA_DIR = 'data'

# train 데이터셋 로드 (train.csv)
train = pd.read_csv(os.path.join(DATA_DIR, project_name, 'train.csv'))
                                 
# test 데이터셋 로드 (test.csv)
test = pd.read_csv(os.path.join(DATA_DIR, project_name, 'test.csv'))

# submission 파일 로드 (submission.csv)
submission = pd.read_csv(os.path.join(DATA_DIR, project_name, 'submission.csv'))

2개의 데이터 셋트를 나누어 제공합니다.
1. train: 학습용 데이터 세트. 정답 값이라고 할 수 있는 `label` 값이 같이 제공됩니다.
2. test: 예측용 데이터 세트. 정답 값이 빠진 `feature` 들만 제공됩니다. 우리는 이 `feature`를 활용하여 예측을 진행합니다.
3. submission: 정답 제출용 데이터 세트. 주어진 형식에 맞춰 정답 값을 기입하고 제출합니다.

In [32]:
#test.csv를 예측한 결과 대입
submission['label'] =
submission

Unnamed: 0,lotName,label
0,lot7,8
1,lot7,8
2,lot7,8
3,lot7,8
4,lot7,8
...,...,...
15707,lot42180,8
15708,lot42180,8
15709,lot42180,8
15710,lot42180,8


# 순서대로 평가가 진행됩니다. 실행은 1회만 해주세요.

- 느리다고 중지 후 다시 평가 코드를 실행하는 경우 제출 과정에서 패널티가 발생할 수 있습니다. (제출 횟수 이슈 발생 가능)

In [33]:
cds.submit(submission) # 제출 파일 생성 및 결과 제출

파일을 저장하였습니다. 파일명: submission-00-08-06.csv
제출 여부 :success
오늘 제출 횟수 : 2
제출 결과:0.8898462428324244


# 축하드립니다. 모델의 성능을 개선하여 더 좋은 점수를 획득해보세요!