# 머신러닝 알고리즘 :  
data가 가진 특성(feature)들을 비교해서 data들의 패턴을 찾아가는 것   
   
# 1. Clustering(군집)   
비지도 학습 방법 : unsupervised learning   
정답 set을 따로 알려주지 않고 비슷한 데이터끼리 묶는 과정   
입력값에 대한 목표치가 주어지지 않음   

군집의 수, 속성 (label)이 사전에 주어지지 않는 경우 사용하는 분석 방법   
데이터간의 유사도를 정의하고, 유사도에 가까운 것 부터 순서대로 합쳐가는 방법   
ex)k-means, h-cluster 등등   
   
정답지 없이, 데이터의 특성만으로 그룹을 만들어냄   

# 2. Classification(분류)   
   
Supervised learning(지도 학습)   
그룹의 label이 사전에 주어진 경우 사용하는 분석 방법   
   
기존에 존재하는 데이터의 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정   
   
# 3. 두 방식의 차이점   
Clustering은 데이터 자체에 대한 특성을 알고자 하는 목적,   
Classification은 목표 label이 있을 때, 새로운 데이터가 속할 그룹을 예측하기 위한 목적


# SVM (Support Vector Machine)   
대표적인 머신러닝 기법 중 하나   
상당히 높은 인식 성능을 자랑   
   
A or B 라는 두 가지의 패턴이 있을 때, A,B를 구분하는 방법을 찾는 것   
   
패턴에 대한 정보가 없을 경우에도 SVM을 통해 Classification 구현이 가능함
   
# 정규화(Normalization)   
- 데이터들을 특정 구간으로 바꾸는 방법   
- ex) 각각의 수치들을 0~1 사이 값으로 치환   
- (측정값 - 최소값) / (최대값 - 최소값)   
- 데이터 군에서 특정 데이터가 가지는 위치를 알고 싶을 때 사용
# 표준화(Standardization)   
- 데이터를 0을 중심으로 양쪽에 데이터를 분포시키는 방법
- 정규분포처럼 데이터의 분포를 알아보기 위한 방식
- (측정값 - 평균) / 표준편차   
- 이상치 처리하는데 효과적(outlier)

In [1]:
import random

In [7]:
# 비만도를 측정하는 함수
def bimando(h,w):
  bmi = w / (h/100)**2
  if bmi < 18.5 : return "thin"
  if bmi < 25 : return "normal"
  return "fat"

f = open('bmi.csv', 'w', encoding="utf-8")
f.write('height,weight,status\n')

s = {'thin':0, 'normal':0, 'fat':0}
for i in range(20000):
  h = random.randint(120,200) # 120<=h<=200
  w = random.randint(35,90) # 35<=w<=90
  status = bimando(h,w)
  s[status] += 1
  f.write('{0},{1},{2}\n'.format(h,w,status))
f.close()
print(s)

{'thin': 5272, 'normal': 5485, 'fat': 9243}


In [8]:
import pandas as pd
biman = pd.read_csv('bmi.csv')
biman.head()

Unnamed: 0,height,weight,status
0,158,38,thin
1,159,87,fat
2,155,67,fat
3,170,40,thin
4,146,62,fat


In [10]:
# column(열)로 추출
status  = biman['status']

# 정규화 진행
w = biman['weight'] / 100 # 최대값 100kg 이라 가정
h = biman['height'] / 200 # 최대값 200cm 이라 가정
wh = pd.concat([w,h], axis=1)
wh.head()

Unnamed: 0,weight,height
0,0.38,0.79
1,0.87,0.795
2,0.67,0.775
3,0.4,0.85
4,0.62,0.73


In [11]:
from sklearn.model_selection import train_test_split
from sklearn import svm, metrics
import matplotlib.pyplot as plt

In [12]:
# train_data(학습 전용), test_data() 두 가지로 데이터 구분
# test_size => 30%만 테스트 데이터로 사용, 나머지 70%는 학습용 데이터
# status가 학습 결과 데이터 들어갈 곳
data_train, data_test, status_train, status_test = train_test_split(wh, status, test_size =0.3)

# data 학습시키기
clf = svm.SVC()
clf.fit(data_train, status_train)

# data 예측하기
predict = clf.predict(data_test)

# 결과 test
# status_test 와 모델의 예측치(predict)가 얼마나 일치할까?
# 정확도가 출력됨
score = metrics.accuracy_score(status_test, predict)

# 파라미터로 주어진 클래스에 대한 정밀도, 재현율을 리턴함
# positive 0 , negative 1 : 예측값이 기준 레이블과 같은가
# True, False : 그 예측이 맞았는가
# 정밀도(Precision) : True Positive / True Positive + False Positive
# 재현율(Recall) : TP / (TP + FN)
report = metrics.classification_report(status_test, predict)
print(score)
print('------------')
print(report)

0.9925
------------
              precision    recall  f1-score   support

         fat       0.99      1.00      1.00      2757
      normal       0.99      0.98      0.99      1583
        thin       0.99      0.99      0.99      1660

    accuracy                           0.99      6000
   macro avg       0.99      0.99      0.99      6000
weighted avg       0.99      0.99      0.99      6000

