# 머신러닝의 종류

## 지도 학습
- 분류
- 회귀
- 추천 시스템
- 시각/음석 인식,감지
- 텍스트마이닝, NPL

## 비지도 학습
- 클러스트링(군집화)
- 차원축소
- 강화학습

# 머신러닝 학습 방법

- 거리 기반 학습
- 수식 기반 학습
- 논리 기반 학습
- 확률 기반 학습(Naive bayes)

## 1. 거리 기반 학습으로 AND 논리를 학습하는 모델을 만들자
- 머신러닝모델 종류: KNN, SVM

In [1]:
# AND 논리 선언
data = [[0,0,0],
       [0,1,0],
       [1,0,0],
       [1,1,1]]

# 입력된 데이터(x1, x2)에서 가장 가까운 데이터의 라벨을 출력하는 함수 작성
def distanceML(x1, x2):
    # 최종 결과값
    result = 0
    # 최소 거리를 비교하기 위한 값
    minDis = float('inf')
    
    # 특성 데이터에서 한 행씩 데이터를 가져온다
    for row in data:
        # 특성 데이터와 라벨 데이터를 분리
        X = row[0:2]   # 특성 데이터 (전건, 후건의 참 거짓 여부)
        y = row[2]   # 라벨 데이터 (명제의 참 거짓 여부)
        
        # 입력된 데이터 (x1, x2)와 각 특성데이터간의 거리 계산
        # abs : 절대값을 계산 (음수를 없애기 위해서 - 거리는 음수가 없기 때문에) / 제곱으로 계산할 수 도 있다.
        dis = abs(x1-X[0]) + abs(x2-X[1])
        
        # 거리가 최소인 데이터로 갱신
        if minDis > dis :
            minDis = dis   
            result = y
    # 거리가 가장 작은 데이터의 라벨값을 반환
    return result
            
print(distanceML(0, 0))    
print(distanceML(1, 0))
print(distanceML(0, 1))
print(distanceML(1, 1))

0
0
0
1


In [2]:
# OR 논리 선언
data = [[0,0,0],
       [0,1,1],
       [1,0,1],
       [1,1,1]]

def distanceML(x1, x2):
    result = 0
    minDis = 99
    for row in data:
        X = row[0:2]  
        y = row[2]  
        dis = abs(x1-X[0]) + abs(x2-X[1])
        
        if minDis > dis :
            minDis = dis  
            result = y

    return result
            
print(distanceML(0, 0))    
print(distanceML(1, 0))
print(distanceML(0, 1))
print(distanceML(1, 1))

0
1
1
1


In [3]:
# XOR 논리 선언
data = [[0,0,0],
       [0,1,1],
       [1,0,1],
       [1,1,0]]


def distanceML(x1, x2):
    result = 0
    minDis = 99

    for row in data:
        X = row[0:2]  
        y = row[2]  
        dis = abs(x1-X[0]) + abs(x2-X[1])
        
        if minDis > dis :
            minDis = dis  
            result = y

    return result
            
print(distanceML(0, 0))    
print(distanceML(1, 0))
print(distanceML(0, 1))
print(distanceML(1, 1))

0
1
1
0


#### (예제) 비만 판독기 

In [4]:
data2 = [[150, 40, "저체중"],
        [200, 100, "비만"],
        [180, 150, "비만"],
        [160, 40, "저체중"],
        [170, 70, "정상"]]

def distanceML(x1, x2):
    result = 0
    minDis = 99

    for row in data2:
        X = row[0:2]  
        y = row[2]  
        dis = abs(x1-X[0]) + abs(x2-X[1])
        
        if minDis > dis :
            minDis = dis  
            result = y
            #거리 기반 방법에서는 특성 데이터들의 가중치를 고려하지 않으면 정확한 값이 나오지 않는다.

    return result

distanceML(170,55)

'정상'

## 2. 수식 기반 학습으로 AND 논리를 학습하는 모델을 만들자

- Lienar, Regression(선형회귀), Rideg, Lasso
- Logistic Regression
- (확률 모델을 사용하기도 한다... 근데 어려움)

In [5]:
# AND 논리 선언
data = [[0,0,0],
       [0,1,0],
       [1,0,0],
       [1,1,1]]

    # y=ax + b 1차 함수의 기울기는 수식기반 학습에서 가중치로 작용한다.
    # 와이 절편은 바이어싱 해준다 --> 0부터 시작하는게 아니라 y절편만큼 이동한 거리에서 시작한다.
    #AND = W1*A + W2*B +b 

def andML(x1,x2):
    w1, w2, b = 0.5, 0.5, 0   #여러분이 직접 맞춰보세요  (-1,0과 1.0 사이 값을 넣어서 )
    
    #AND 논리를 만드는 수식
    temp = (w1*x1) + (w2*x2) + b

    if temp <= 0.5:
        return 0
    else:
        return 1
    
print(andML(0,0))
print(andML(0,1))
print(andML(1,0))
print(andML(1,1))

0
0
0
1


## 3. 논리 기반 학습으로 AND 논리를 학습하는 모델을 만들자
- Decision Tree (의사결정)

In [6]:
#AND 논리 선언
data = [[0,0,0],
       [0,1,0],
       [1,0,0],
       [1,1,1]]

def logicalML(x1, x2):
    if x1 == 0 and x2 == 0 :
        return 0
    if x1 == 1 and x2 == 0 :
        return 0
    if x1 == 0 and x2 == 1 :
        return 0
    if x1 == 1 and x2 == 1 :
        return 1
    
    #나중에 사용하게 될 머신러닝 모델들이 거리, 가중치, 조건문을 자동으로 만들어준다.
    
print(logicalML(0,0))
print(logicalML(0,1))
print(logicalML(1,0))
print(logicalML(1,1))

0
0
0
1


# Scikit-learn 프레임워크를 활용

- Scikit-learn 프레임 워크 : 머신러닝과 관련된 데이터, 모델, 함수 등을 다양하게 제공하는 가장 많이 활용되는 머신러닝 프레임워크

In [1]:
import sklearn
print(sklearn.__version__)

1.1.0


In [10]:
#AND 논리 선언
data = [[0,0,0],
       [0,1,0],
       [1,0,0],
       [1,1,1]]

# pandas 데이터로 변환
import pandas as pd
dfAnd = pd.DataFrame(data, columns=["A", "B", "AND"])
dfAnd

Unnamed: 0,A,B,AND
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1


In [11]:
#특성데이터와 라벨데이터로 분리
X = dfAnd.iloc[:, :2]
X

Unnamed: 0,A,B
0,0,0
1,0,1
2,1,0
3,1,1


In [18]:
y = dfAnd.iloc[:, 2]   # 인덱싱하면 시리즈 데이터로 잘림 (가능하면 인덱싱으로 잘라내야한다!!!)
y1 = dfAnd.iloc[:, 2:]   # 슬라이싱으로 자르면 데이터프레임으로 잘림 두개 섞어서 쓰면 오류남 시리즈는(4,0) 데이터프레임은 (4,1)
print(y)
y1

0    0
1    0
2    0
3    1
Name: AND, dtype: int64


Unnamed: 0,AND
0,0
1,0
2,0
3,1


In [14]:
#KNN 분류 모델을 로드
from sklearn.neighbors import KNeighborsClassifier

# 모델 선언
#n_neighbors : 가까이에 있는 참고하는 데이터의 수 
knn_model = KNeighborsClassifier(n_neighbors=1)

#특성 데이터와 라벨 데이터를 입력해서 훈련
knn_model.fit(X,y)

In [21]:
#새로운 데이터를 입력해서 예측
new_X = [[1,1], [0,1], [1,0], [0,0]]  # 데이터 프레임으로 위에서 학습했는데 리스트로 넣어서 에러뜸

#predict() : 생성된 모델을 이용해서 새로운 특성데이터의 라벨데이터를 예측
pred_y = knn_model.predict(new_X)
pred_y



array([1, 0, 0, 0])

In [22]:
# 평가(score, accuracy_score) - 정확도 구하는 함수
# score(): 훈련하고 나서 특성데이터와 라벨데이터로 정확도를 계산   <- 기본 함수로 포함하고 있음
# accuracy_score(): 예측한 라벨과 원래 라벨을 비교하여 정확도를 계산  <- 도함수를 임포트 해줘야함 
print(knn_model.score(X,y))

from sklearn.metrics import accuracy_score
print(accuracy_score(pred_y, new_y))

# 머신러닝에서는 정확도 100%가 나오면 과대적합일 확률이 높다

1.0
1.0
