# 머신러닝 개요

## 머신러닝 종류

- 지도 학습

- 비지도 학습

- 강화학습

## 지도 학습

- 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법

- 분류와 회귀로 나눠진다.

ex) 스팸 메일 분류, 집 가격 예측, 손글씨 숫자 판별, 신용카드 의심거래 감지, 의료영상 이미지기반 종양판단

## 비지도 학습

- 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터를 학습시키는 방법

- 데이터의 숨겨진 특징, 구조, 패턴 파악

- 데이터를 비슷한 특성끼리 묶는 클러스터링과 차원축소 등이 있다.

ex) 블로그 글 주제 구분, 고개 취향별 그룹화, 웹사이트 비정상 접근 탐지, 이미지 감색 처리

## 강화 학습

- 지도학습과 비슷하지만 완전한 답(Label)을 제공하지 않는 특징이 있다.

- 기계는 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습

ex) 게임이나 로봇 학습

## 머신러닝 vs 딥러닝

구분 표

## scikit-learn

- 파이썬에 머신러닝 프레임워크 라이브러리

- 회귀, 분류, 군집, 차원축소, 특성공학, 전처리, 교차검증, 파이프라인 등 머신러닝에 필요한 기능 제공

- 학습을 위한 샘플 데이터 제공

### Scikit-learn 으로 XOR 연산 학습해보기

- XOR 연산 ?

    - 두 값이 서로 같으면 0, 다르면 1 (배타적 논리 합)

In [2]:
from sklearn import svm

In [4]:
# XOR의 계산 결과 데이터
xor_input = [
    # P, Q, R
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 1],
    [1, 1, 0]
]

In [6]:
# 학습을 위해 데이터와 레이블 분리하기
xor_data = []
xor_label = []

for row in xor_input:
    p = row[0]
    q = row[1]
    r = row[2]

    xor_data.append([p, q])
    xor_label.append(r)

In [8]:
# 데이터 학습시키기
model = svm.SVC()
model.fit(xor_data, xor_label)

SVC()

In [10]:
# 데이터 예측하기
pre = model.predict(xor_data)

print("예측 데이터: ", xor_data)
print("예측 결과: ", pre)

예측 데이터:  [[0, 0], [0, 1], [1, 0], [1, 1]]
예측 결과:  [0 1 1 0]


In [12]:
# 결과 확인하기
ok, total = 0, 0

for idx, answer in enumerate(xor_label):
    p = pre[idx]
    if p == answer:
        ok += 1
    total += 1

print("정답률: ", ok/total)


정답률:  1.0


## Pandas 라이브러리를 사용하여 코드 간략화

In [14]:
import pandas as pd
from sklearn import svm, metrics
from sklearn.neighbors import KNeighborsClassifier

In [16]:
# XOR 연산
xor_input = [
    # P, Q, R
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 1],
    [1, 1, 0]
]

In [18]:
# 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류하기
xor_df = pd.DataFrame(xor_input)
xor_data = xor_df[[0, 1]]
xor_label = xor_df[2]

In [20]:
# 데이터 학습과 예측하기
# model = svm.SVC()
model = KNeighborsClassifier(n_neighbors=1)
model.fit(xor_data, xor_label)
pre = model.predict(xor_data)

In [22]:
# 정답률 구하기
ac_score = metrics.accuracy_score(xor_label, pre)

print("정답률: ", ac_score)

정답률:  1.0


### 진행 순서

1. clf = 머신러닝 모델 생성
2. clf.fit(문제, 답)
3. cls.predict(값을 얻고 싶은 데이터)
4. ac_score = 


clf(classifier) - scikit-learn 에서 Estimator 인스턴스인 분류기를 지칭

## 모델 저장과 불러오기
## Pickle

In [24]:
import pickle

# 저장하기
with open('./data/xor_model.pkl', 'wb') as f:
    pickle.dump(model, f)

In [26]:
# 불러오기
with open('./data/xor_model.pkl', 'rb') as f:
    model = pickle.load(f)

# 문제
x_test = [
    [1, 1]
]

# 모델 예측
y_pred = model.predict(x_test)
print(y_pred)

[0]


## joblib

In [28]:
import joblib 

joblib.dump(model, './data/xor_model_2.pkl')

['./data/xor_model_2.pkl']

## scikit-learn 연습 01

### AND 연산 모델 작성

ADD 연산 ?

- 두 값이 서로 참이면 1, 아니면 0

In [30]:
and_data = [
    [0, 0, 0],
    [0, 1, 0],
    [1, 0, 0],
    [1, 1, 1]
]

and_df = pd.DataFrame(and_data)
x = and_df[[0, 1]]
y = and_df[2]

model = svm.SVC()
model.fit(x, y)

pred = model.predict(x)

acc = metrics.accuracy_score(y, pred)

print("정답률: ", acc)

정답률:  1.0


## 분류 ? 회귀 ?

- 구분이 어려운 경우가 많다.