<a href="https://colab.research.google.com/github/NaYunJeong/K-Digital-Training-Class/blob/main/Aug08_2_SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 머신러닝 알고리즘 : data가 가진 특성(feature) 들을 비교해서 data들의 패턴을 찾아가는 것

# 1. 군집(Clustering)

군집분석은 비지도 학습 방법 : 정답을 따로 알려주지는 않고 비슷한 데이터끼리 묶어놓는 것

군집의 수, 속성 (label)이 사전에 알려져 있지 않을 때 사용하는 분석 방법

데이터들 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법

ex) k-means, h-cluster 알고리즘 등

군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측한다기 보다는 이렇게 나누어질 수 있구나 ~ 정도의 지식을 발견하는 것에 적합

순수 데이터상의 특징으로 유사도를 정의해서 그룹을 만들어 냄

데이터와 함께 입력하는 정답을 레이블(label)이라고 부름

# 2. 분류 (Classification)

군집이랑 반대로 지도 학습 방법으로, 각 개체별로 그룹의 label이 사전에 알려져 있을 때 사용하는 분석 방법

기존에 존재하는 데이터의 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정

# 3. 이 둘의 차이점

군집은 각 개체의 범주가 군집의 정보를 모를 때, 데이터 자체의 특성에 대해 알고자 하는 목적,

분류는 label이 있을 때, 새로운 데이터의 그룹을 예측하기 위한 목적

# SVM (Support Vector Machine)

대표적인 머신러닝 기법 중 하나

상당히 높은 인식 성능을 자랑

A or B 라는 두 가지의 패턴이 있을 때 A or B 패턴을 구분하는 방법을 찾는 것

어떤 패턴을 가지고 있는지 잘 모르는 경우에도 SVM을 이용하여 제대로 분류할 수 있는 확률이 높음

# 정규화 (Normalization)
- 데이터를 특정 구간으로 바꾸는 방법 (ex: 0 ~ 1 or 0 ~ 100)
- 식 : (측정값 - 최소값) / (최대값 - 최소값)
- 데이터 군에서 특정 데이터가 가지는 위치를 알고 싶을 때 사용

# 표준화 (Standardization)
- 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법
- 식 : (측정값 - 평균) / 표준편차
- 이상치 처리하는데 효과적임




In [24]:
import random

In [25]:
# 비만도를 측정하는 함수
def bimando(h, w):
  bmi = w / (h / 100) ** 2
  if bmi < 18.5 : return 'thin'
  elif bmi < 25 : return 'normal'
  return 'fat'

f = open('bmi.csv', 'w', encoding='UTF-8')
f.write('height,weight,status\n')

s = {'thin' : 0, 'normal' : 0, 'fat' : 0}

for i in range(20000):
  h = random.randint(120, 200)   # 120 <= h <= 200
  w = random.randint(35, 90)    # 35 <= w <= 90
  status = bimando(h, w)
  s[status] += 1
  f.write("{0},{1},{2}\n".format(h, w, status))
f.close()
print(s)

{'thin': 5354, 'normal': 5430, 'fat': 9216}


In [26]:
import pandas as pd
biman = pd.read_csv('bmi.csv')
biman.head()

Unnamed: 0,height,weight,status
0,149,36,thin
1,135,76,fat
2,172,73,normal
3,131,80,fat
4,160,36,thin


In [27]:
# column(열)로 자르고 정규화 시키기
status = biman['status']

# 정규화
w = biman['weight'] / 100   # 최대 100kg 라고 가정
h = biman['height'] / 200   # 최대 2m 로 가정
wh = pd.concat([w, h], axis=1)    # 두개의 데이터 합치기(열방향)
wh.head()

Unnamed: 0,weight,height
0,0.36,0.745
1,0.76,0.675
2,0.73,0.86
3,0.8,0.655
4,0.36,0.8


In [28]:
from sklearn.model_selection import train_test_split
from sklearn import svm, metrics
import matplotlib.pyplot as plt

In [29]:
# train_data(학습 전용), test_data(테스트 전용) 로 data 나누기
data_train, data_test, status_train, status_test = train_test_split(wh, status, test_size=0.3)

# data 학습시키기
clf = svm.SVC()
clf.fit(data_train, status_train)

# data 예측하기
predict = clf.predict(data_test)

# 결과 test하기
score = metrics.accuracy_score(status_test, predict)  # 정확도가 평가
report = metrics.classification_report(status_test, predict)  # 두 클래스의 정밀도와 재현율을 평가
# 정밀도 : 모델이 'fat'이라고 분류한 것 중에서 실제로 'fat'인 것의 비율
# 재현율 : 실제 'fat'인 것 중에서 모델이 'fat'이라고 예측한 것의 비율

print(score)
print('---------------')
print(report)

0.994
---------------
              precision    recall  f1-score   support

         fat       1.00      1.00      1.00      2737
      normal       0.99      0.99      0.99      1610
        thin       1.00      0.99      1.00      1653

    accuracy                           0.99      6000
   macro avg       0.99      0.99      0.99      6000
weighted avg       0.99      0.99      0.99      6000

