## SVM(Support Vector Machine)
- 선을 구성하는 매개변수를 조정해서 요소들을 구분하고 선을 찾아 이를 기반으로 패턴을 인식
- 패턴들과 거리(마진)을 최대로 만드는 것이 가장 좋은 결과를 얻음.

---
### SVM을 활용한 비만도(BMI) 측정 예측
- BMI = 몸무게(Kg) / (키(m)) * 키(m)
- BMI가 18.5 이상 25미만일때가 표준 몸무게 입니다.

### BMI Data생성


In [18]:
# 데이터를 획득하기 위해 무작위로 2만명의 데이터 생성
# 키(cm), 몸무게(Kg), Label(저체중(thin), 정상체중(normal), 비만(fat))의 컬럼을 가지는 csv생성

import random

# BMI를 계산해서 레이블 리턴하는 함수
def calc_bmi(h, w):
    bmi = w / ((h/100) ** 2)
    if bmi <18.5 : return "thin"
    if bmi < 25: return "normal"
    return "fat"

# 파일 준비하기
fp = open('../data/bmi.csv', "w", encoding="utf-8")
fp.write("height,weight,label\r\n")

# 무작위로 데이터 생성

cnt = {
    "thin" : 0,
    "normal": 0,
    "fat" : 0
}

for i in range(20000):
    h = random.randint(120, 200)
    w = random.randint(35, 120)
    label = calc_bmi(h,w)
    cnt[label] +=1
    fp.write(f'{h},{w},{label}\r\n')

fp.close()
print("ok", cnt)

ok {'thin': 3323, 'normal': 3724, 'fat': 12953}


---
### BMI공식을 사용하지 않고 BMI예측

In [19]:
import pandas as pd

In [20]:
tbl = pd.read_csv("../data/bmi.csv")

In [21]:
tbl.head()

Unnamed: 0,height,weight,label
0,132,104,fat
1,147,52,normal
2,132,94,fat
3,192,69,normal
4,195,87,normal


In [23]:
label = tbl['label']
w = tbl['weight'] / tbl['weight'].max()
h = tbl['height'] / tbl['height'].max()
wh = pd.concat([w, h], axis=1)
wh.head()

Unnamed: 0,weight,height
0,0.866667,0.66
1,0.433333,0.735
2,0.783333,0.66
3,0.575,0.96
4,0.725,0.975


In [25]:
# 학습과 테스트 분리
from sklearn.model_selection import train_test_split

train_data, test_data, train_target, test_target = train_test_split(
                                                    wh,
                                                    label,
                                                    random_state=42,
                                                    stratify=label,
                                                    test_size=0.2
)



In [27]:
from sklearn import svm, metrics


clf = svm.SVC()
clf.fit(train_data, train_target)

In [29]:
clf.score(train_data, train_target)

0.9955

In [28]:
clf.score(test_data, test_target)

0.99675

In [30]:
pred = clf.predict(test_data)