# 머신러닝 챌런지 평가지

#### - 머신러닝 챌런지 목표 
1. 실습내용을 바탕으로 새로운 인공지능 모델 학습 및 평가를 통해 최적의 hyper-parameter 찾기(Grid search)
2. 평가 데이터에 대해 진단결과를 출력할 수 있도록 코드를 작성

#### - 데이터 설명
: 로봇 스폿용접 정상과 고장 데이터 (실습 데이터와 센서 종류와 데이터 크기는 동일하고 시간열만 제거한 데이터)
- Normal Data    : 정상조건에서 수집한 센서 데이터 (실습데이터와 같은 조건이지만 다른 데이터)
- Abnormal1 Data : 전극 팁 마모 조건에서 수집한 센서 데이터 (실습데이터와 같은 조건이지만 다른 데이터)
- Abnormal2 Data : 전극 비정렬 조건에서 수집한 센서 데이터

. 

. 

.

## 머신러닝 챌런지 수행 단계 가이드


#### (1) 주어진 데이터를 사용해 직접 특징 추출/선택 및 머신러닝을 수행

- 데이터 전처리 과정부터 모델 학습 및 평가하는 코드까지 하나의 코드 파일로 작성 후 제출


- 학습용 데이터 : Train_Data 폴더 내 "Normal_1 ~ 180", "Abnormal1_1 ~ 180", "Abnormal2_1 ~ 180" 총 540개 파일


- 평가용 데이터 : Test_Data 폴더 내 "Normal_1 ~ 20", "Abnormal1_1 ~ 20", "Abnormal2_1 ~ 20" 총 60개 파일


- 어떤 특징을 사용 및 상위 몇 개의 특징을 선택할지는 자유롭게 결정


- 특징 선택 방법은 t-Test가 아닌 ANOVA를 이용
#### > Tip! ANOVA 라이브러리 import 코드 : <font color=red>'from scipy.stats import f_oneway'</font>


- P_value_Rank는 제공된 "Data" 폴더 내 저장


- 머신러닝을 위한 학습 및 평가데이터 레이블(Label)은 직접 만들어 사용(평가데이터 레이블은 제공된 "Data" 폴더 안에 저장!)


- ANN을 이용한 <font color=red>3가지 Class(정상/고장1/고장2)</font>를 진단하는 모델 설계


- ANN 구조 설계에 제한은 두지 않으나 <font color=red>iteration은 300으로 고정, 뉴런 수는 4/8/16, learningRate는 0.01/0.005/0.001</font>로 바꿔가며 총 <font color=red>9개의 모델 학습</font>


- 학습된 모델은 검증을 하지 않고 주어진 평가용 데이터를 통해 정확도 측정


- <font color=red>9개의 모델을 모두 학습 및 평가하는 셀을 각각 만들기 (Markdown cell을 이용해 model1, model2 등 명시)</font>


- <font color=red>[필수]</font> 진단 정확도가 가장 높은 머신러닝 모델은 제공된 "Data" 폴더 안에 저장! (모델의 파일이름은 양식 따로 없음)


- 저장이 완료된 코드 파일은 상단 메뉴에서 'Kernel' > 'Restart & Clear Output' 수행 후 코드를 재실행하고 제출
#### > 학습코드 파일명 : <font color=blue>ML_Train_ST(수강생 번호) (예시 : 'ML_Train_ST0.ipynb' // 'ML_Train_ST00.ipynb')</font>


- [예시이미지 참조] 각 모델 진단 정확도를 DataFrame으로 정리해서 캡처 후 이미지 파일로 제출

  (정확도는 소수 둘째자리까지 표시, 이미지 파일 확장자는 jpg 또는 png)
#### > 이미지 파일명 : <font color=blue>ANN_Result_ST(수강생 번호) (예시 : 'ANN_Result_ST0.jpg' // 'ANN_Result_ST00.png')</font>
#### * Tip! DataFrame의 index 변경 방법 검색



#### (2) 학습완료 후 현재 코드파일에서 "저장된 머신러닝 모델 파일" 및 "평가 데이터+레이블" 불러와서 진단 결과 출력하도록 코드 작성
- 코드 작성이 완료되면 'Kernel > Restart & Clear Output' 수행 후 저장하고 제출
#### > 해당 파일명 : <font color=blue>ML_Challenge_ST(수강생 번호) (예시 : 'ML_Challenge_ST0.ipynb' // 'ML_Challenge_ST00.ipynb')</font>


#### (3) 학습 코드 파일(.ipynb), 현재 코드파일(.ipynb), 모델 진단 정확도 이미지 파일 및 "Data" 폴더 함께 1개 압축파일(.zip)로 만들어 제출
- 압축파일 이름 ST(수강생 번호)_ML (예시 : 'ST00_ML.zip'  //  'ST0_ML.zip')

.

.

.



### 필요한 라이브러리 import
- numpy, pandas 등 필요한 라이브러리들 불러오기

In [None]:
import pandas            as pd
import numpy             as np
import seaborn           as sb
import scipy.stats       as sp
import matplotlib.pyplot as plt
import tensorflow        as tf
import pywt
from tensorflow import keras
from tensorflow.keras import layers

### 학습완료된 머신러닝 모델 불러오기
- 진단 정확도가 가장 높은 머신러닝 모델 불러오기 

In [None]:
BestModel = keras.models.load_model("./Data/ANN_Bestmodel.h5")

### 평가 데이터 & 레이블 불러오기

In [None]:
NoOfTestData    = 20
NoOfSensor  = 3    # 가속도(Acceleration), 전압(Voltage), 전류(Current)
NoOfFeature = 10   # 특징 개수:10개 (순서: Max, Min, Mean, RMS, Variance, Skewness, Kurtosis, Crest factor, Impulse factor, Shape factor)

TimeFeatureTest_Normal   = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))
TimeFeatureTest_Abnormal1 = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))
TimeFeatureTest_Abnormal2 = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))

for i in range(NoOfTestData):
    
    # 데이터 불러오기
    temp_test_path1 = './Test_Data/Normal_%d'%(i+1)   # Normal 데이터 파일 경로
    temp_test_path2 = './Test_Data/Abnormal1_%d'%(i+1) # Abnormal1 데이터 파일 경로
    temp_test_path3 = './Test_Data/Abnormal2_%d'%(i+1) # Abnormal2 데이터 파일 경로
    temp_test_data1 = pd.read_csv(temp_test_path1 , sep=',' , header=None) # 임시 Normal 데이터
    temp_test_data2 = pd.read_csv(temp_test_path2 , sep=',' , header=None) # 임시 Abnormal 데이터
    temp_test_data3 = pd.read_csv(temp_test_path3 , sep=',' , header=None) # 임시 Abnormal 데이터
    
    
Test_Label_forANN = np.array(pd.read_csv('./Data/Test_Label_forANN', sep=",", header=None))

.

.

.



### 데이터 특징 추출
* 학습에 사용된 데이터 특징과 동일하게 추출 (순서도 동일)

In [None]:
def rms(x): # RMS 함수 정의
    return np.sqrt(np.mean(x**2))

In [None]:
NoOfTestData    = 20
NoOfSensor  = 3    # 가속도(Acceleration), 전압(Voltage), 전류(Current)
NoOfFeature = 10   # 특징 개수:10개 (순서: Max, Min, Mean, RMS, Variance, Skewness, Kurtosis, Crest factor, Impulse factor, Shape factor)

TimeFeatureTest_Normal   = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))
TimeFeatureTest_Abnormal1 = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))
TimeFeatureTest_Abnormal2 = np.zeros((NoOfSensor*NoOfFeature , NoOfTestData))

for i in range(NoOfTestData):
    
    # Time Domain 특징값 추출
    for j in range(NoOfSensor):
        
        # Normal Time Domain Feature
        TimeFeatureTest_Normal[10*j+0, i] = np.max(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+1, i] = np.min(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+2, i] = np.mean(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+3, i] = rms(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+4, i] = np.var(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+5, i] = sp.skew(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+6, i] = sp.kurtosis(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+7, i] = np.max(temp_test_data1.iloc[:,j])/rms(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+8, i] = rms(temp_test_data1.iloc[:,j])/np.mean(temp_test_data1.iloc[:,j])
        TimeFeatureTest_Normal[10*j+9, i] = np.max(temp_test_data1.iloc[:,j])/np.mean(temp_test_data1.iloc[:,j])
        
        # Abnormal1 Time Domain Feature
        TimeFeatureTest_Abnormal1[10*j+0, i] = np.max(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+1, i] = np.min(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+2, i] = np.mean(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+3, i] = rms(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+4, i] = np.var(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+5, i] = sp.skew(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+6, i] = sp.kurtosis(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+7, i] = np.max(temp_test_data2.iloc[:,j])/rms(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+8, i] = rms(temp_test_data2.iloc[:,j])/np.mean(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal1[10*j+9, i] = np.max(temp_test_data2.iloc[:,j])/np.mean(temp_test_data2.iloc[:,j])
        
        # Abnormal2 Time Domain Feature
        TimeFeatureTest_Abnormal2[10*j+0, i] = np.max(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+1, i] = np.min(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+2, i] = np.mean(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+3, i] = rms(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+4, i] = np.var(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+5, i] = sp.skew(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+6, i] = sp.kurtosis(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+7, i] = np.max(temp_test_data2.iloc[:,j])/rms(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+8, i] = rms(temp_test_data2.iloc[:,j])/np.mean(temp_test_data2.iloc[:,j])
        TimeFeatureTest_Abnormal2[10*j+9, i] = np.max(temp_test_data2.iloc[:,j])/np.mean(temp_test_data2.iloc[:,j])
        
print(TimeFeatureTest_Normal.shape)
print(TimeFeatureTest_Abnormal1.shape)
print(TimeFeatureTest_Abnormal2.shape)

In [None]:
# Wavelet options

MotherWavelet = pywt.Wavelet('haar')   # Mother wavelet (모함수) 지정
Level   = 8                            # Wavelet 분해 레벨 지정
select  = 8                            # 특징추출 영역 고주파 영역부터 개수 지정 (d1~)

In [None]:
#Frequency Domain 특징값 추출 (Wavelet Transform 기반)
FreqFeatureTest_Normal   = np.zeros(shape=(NoOfSensor*NoOfFeature*select , NoOfTestData))
FreqFeatureTest_Abnormal1 = np.zeros(shape=(NoOfSensor*NoOfFeature*select , NoOfTestData))
FreqFeatureTest_Abnormal2 = np.zeros(shape=(NoOfSensor*NoOfFeature*select , NoOfTestData))

for i in range(NoOfTestData):
    
    # 데이터 불러오기
    temp_test_path1 = './Test_Data/Normal_%d'%(i+1)   # Normal 데이터 파일 경로
    temp_test_path2 = './Test_Data/Abnormal1_%d'%(i+1) # Abnormal1 데이터 파일 경로
    temp_test_path3 = './Test_Data/Abnormal2_%d'%(i+1) # Abnormal2 데이터 파일 경로
    temp_test_data1 = pd.read_csv(temp_test_path1 , sep=',' , header=None) # 임시 Normal 데이터
    temp_test_data2 = pd.read_csv(temp_test_path2 , sep=',' , header=None) # 임시 Abnormal1 데이터
    temp_test_data3 = pd.read_csv(temp_test_path3 , sep=',' , header=None) # 임시 Abnormal2 데이터
    Coef1      = pywt.wavedec(temp_test_data1, MotherWavelet, level=Level, axis=0)
    Coef2      = pywt.wavedec(temp_test_data2, MotherWavelet, level=Level, axis=0)
    Coef3      = pywt.wavedec(temp_test_data3, MotherWavelet, level=Level, axis=0)
    
    # Frequency Domain 특징값 추출
    for j in range(NoOfSensor):
        
        for k in np.arange(select):
            coef1 = Coef1[Level-k]
            coef2 = Coef2[Level-k]
            coef3 = Coef3[Level-k]
            
            # Normal Frequency Domain Feature
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+0 , i] = np.max(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+1 , i] = np.min(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+2 , i] = np.mean(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+3 , i] = np.var(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+4 , i] = rms(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+5 , i] = sp.skew(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+6 , i] = sp.kurtosis(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+7 , i] = np.max(coef1[:,j])/rms(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+8 , i] = rms(coef1[:,j])/np.mean(coef1[:,j])
            FreqFeatureTest_Normal[NoOfFeature*j*select+k*NoOfFeature+9 , i] = np.max(coef1[:,j])/np.mean(coef1[:,j])
            
            # Abnormal1 Frequency Domain Feature
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+0 , i] = np.max(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+1 , i] = np.min(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+2 , i] = np.mean(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+3 , i] = np.var(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+4 , i] = rms(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+5 , i] = sp.skew(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+6 , i] = sp.kurtosis(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+7 , i] = np.max(coef2[:,j])/rms(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+8 , i] = rms(coef2[:,j])/np.mean(coef2[:,j])
            FreqFeatureTest_Abnormal1[NoOfFeature*j*select+k*NoOfFeature+9 , i] = np.max(coef2[:,j])/np.mean(coef2[:,j])
            
            # Abnormal2 Frequency Domain Feature
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+0 , i] = np.max(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+1 , i] = np.min(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+2 , i] = np.mean(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+3 , i] = np.var(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+4 , i] = rms(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+5 , i] = sp.skew(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+6 , i] = sp.kurtosis(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+7 , i] = np.max(coef3[:,j])/rms(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+8 , i] = rms(coef3[:,j])/np.mean(coef3[:,j])
            FreqFeatureTest_Abnormal2[NoOfFeature*j*select+k*NoOfFeature+9 , i] = np.max(coef3[:,j])/np.mean(coef3[:,j])

print(FreqFeatureTest_Normal.shape)
print(FreqFeatureTest_Abnormal1.shape)
print(FreqFeatureTest_Abnormal2.shape)

In [None]:
Test_Normal = np.concatenate([TimeFeatureTest_Normal,FreqFeatureTest_Normal] , axis=0)
Test_Abnormal1 = np.concatenate([TimeFeatureTest_Abnormal1,FreqFeatureTest_Abnormal1] , axis=0)
Test_Abnormal2 = np.concatenate([TimeFeatureTest_Abnormal2,FreqFeatureTest_Abnormal2] , axis=0)
Normal_TestData = pd.DataFrame(Test_Normal)
Abnormal1_TestData = pd.DataFrame(Test_Abnormal1)
Abnormal2_TestData = pd.DataFrame(Test_Abnormal2)

### 데이터 특징 선택
* 주의 : 평가 데이터로 별도의 ANOVA를 수행(P-value 계산)하지 말 것 >> 학습 과정에서 선택된 특징과 동일한 특징 선택 및 동일한 순서로 배열

In [None]:
P_value_Rank = pd.read_csv('./Data/P_value_Rank' , header=None)
P_value_Rank

In [None]:
Number = 20

Normal_SelectedTestFeatues   = np.zeros((Number,NoOfTestData))
Abnormal1_SelectedTestFeatues = np.zeros((Number,NoOfTestData))
Abnormal2_SelectedTestFeatues = np.zeros((Number,NoOfTestData))

for i in range(Number):
    
    index         = int(P_value_Rank.iloc[i,0])
    Normal_SelectedTestFeatues[i,:]   = Normal_TestData.iloc[index,:].values
    Abnormal1_SelectedTestFeatues[i,:] = Abnormal1_TestData.iloc[index,:].values
    Abnormal2_SelectedTestFeatues[i,:] = Abnormal2_TestData.iloc[index,:].values

# 정상, 고장 특징값 합치기    
TestFeatureSelected = pd.DataFrame(np.concatenate([Normal_SelectedTestFeatues, Abnormal1_SelectedTestFeatues, Abnormal2_SelectedTestFeatues] , axis=1))
TestFeatureSelected.shape

In [None]:
Test_Data = pd.DataFrame(np.transpose(TestFeatureSelected))
Test_Data.shape

.

.

.



### 평가 데이터의 진단 결과 출력 및 정확도 평가
- 상기 불러온 평가 데이터 60개의 특징(선택된)데이터 및 레이블을 이용하여 머신러닝 모델의 정확도 평가

In [None]:
Data  = np.array(Test_Data)

In [None]:
Loss, Accuracy = BestModel.evaluate(Data, Test_Label_forANN, verbose=0)

print('Accuracy : {:.2f}%'.format(Accuracy*100))

In [None]:
Predict_y = BestModel.predict(Data)
pd.DataFrame(Predict_y)

.

.

.



.

.

.



수고하셨습니다!