# 수리적 머신러닝 분류화 과제_25.3.17
## 120240106 수학과 김건휘

## 사용할 Dataset : Wine
**Dataset 출처** : https://quadram.ac.uk/ , https://www.timeseriesclassification.com/description.php?Dataset=Wine

**Dataset Description** : 	Food spectrographs of two types of wine. The classes are Cabernet Sauvignon' and 'Shiraz'. Obtained using Fourier transform infrared (FTIR) spectroscopy with attenuated total reflectance (ATR) sampling.

**Dataset 구조 설명** :
첫 번째 열은 Class로 1과 2
2 ~ 235 열은 해당 Wine의 feature

    **234개의 feature란?**
    - FTIR 장비는 특정한 주파수 범위(예: 4000cm⁻¹ ~ 400cm⁻¹)에서 적외선을 쏨
    - 각각의 주파수에서 흡광도(Absorbance)를 측정 → 이 값들이 특징(feature) 벡터가 됨
    - 234개의 데이터 포인트는 234개의 서로 다른 주파수에서 측정된 흡광도 값을 의미

## 데이터 전처리

### Dataset 불러오기

위 주소에서 Dataset 다운로드 후, Colab 파일에 업로드

In [None]:
# 압축 폴더 이름 설정
img_folder_nm = 'Wine'

# 다운로드된 압축 파일 이름
img_zipfile_nm = 'Wine.zip'

In [None]:
# 압축 풀기
%%capture
!unzip {img_zipfile_nm} -d {img_folder_nm}

### Dataset 합치기
만약 Train Dataset과 Test Dataset이 구분되어 있었다면, 원본 데이터로 만들어주는 작업

In [None]:
from pathlib import Path

In [None]:
train_csv = Path('/content/Wine/Wine_TRAIN.txt')
valid_csv = Path('/content/Wine/Wine_TEST.txt')

In [None]:
import pandas as pd

In [None]:
train_df = pd.read_csv(train_csv, delim_whitespace=True, header=None)
train_df

In [None]:
valid_df = pd.read_csv(valid_csv, delim_whitespace=True, header=None)
valid_df

In [None]:
# concatenate train and valid set together

df = pd.concat([train_df, valid_df])
df.shape

### Label, Feature 분리

In [None]:
X = df.iloc[:, 1:]  # 특징 데이터
y = df.iloc[:, 0]   # 클래스 라벨

### Train/Test 분할

예제 코드처럼 60퍼센트로 설정 시, Class가 1 인 데이터들이 지배적으로 들어가게 됨.
(위의 데이터프레임 구조 df 확인)

In [None]:
# n_samples = len(y)
# train_size = int(n_samples * 0.6)  # 60%를 학습 데이터로 사용

클래스 비율을 적절히 뽑을 수 있는 stratify를 이용

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.4,         # 테스트 세트 40%
    random_state=42,       # 재현성을 위한 난수 고정
    shuffle=True,          # 데이터를 섞어서 분할
    stratify=y             # 클래스 비율 동일하게 유지
)

In [None]:
X_train

In [None]:
y_train

## SVM을 이용한 분류

In [None]:
from sklearn import svm

In [None]:
classifier = svm.SVC(C = 2.0, gamma = 0.001)
classifier.fit(X_train, y_train)

In [None]:
# 예측
y_pred = classifier.predict(X_test)
# 테스트 데이터 레이블 값 : y_test

### 성능 평가

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score
import matplotlib.pyplot as plt

In [None]:
# 성능 평가
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

In [None]:
# pos_label을 1.0으로 설정
print("Precision (Class=1.0):", precision_score(y_test, y_pred, pos_label=1.0))
print("Recall (Class=1.0):", recall_score(y_test, y_pred, pos_label=1.0))
print("F1-Score (Class=1.0):", f1_score(y_test, y_pred, pos_label=1.0))