# 머신러닝 학습 방법

- 거리 기반 학습
- 수식 기반 학습
- 논리 기반 학습
- 확률 기반 학습(나이브 베이즈 Naive Bayes )

## 거리 기반 학습으로 AND 논리를 학습하는 모델을 만들자

- 머신러닝 모델 종류: knn, svm


In [1]:
# AND 논리선언
data=[[0,0,0],
     [0,1,0],
     [1,0,0],
     [1,1,1]]
data

[[0, 0, 0], [0, 1, 0], [1, 0, 0], [1, 1, 1]]

In [2]:
data2=[[150,40,"저체중"],
      [200,100,'비만'],
      [180,150,"초고도 비만"],
      [160,40,"저체중"],
      [170,70,"정상"]]
data2

[[150, 40, '저체중'],
 [200, 100, '비만'],
 [180, 150, '초고도 비만'],
 [160, 40, '저체중'],
 [170, 70, '정상']]

In [3]:
# 함수를 선언해서 거리기반을 판단 모델을 만들어 보자
#입력된 데이터(x1,x2)에서 가장 가까운 데이터의 라벨을 출력
def distanceML(x1,x2):
    #최종 결과값을 저장하기 위한 변수
    result=0
    #최소 거리를 비교하기 위한 값
    minDis=99
    
    #전체 데이터에서 한행씩 데이터를 가져온다.
    #특성 데이터와 라벨 데이터를 분리
    for row in data2:
        X=row[:2]
        y=row[-1]
        
        #print(X,y)
        #입력된 데이터 (X1, X2)와 각 특성데이터 간의 거리 계산
        dis=abs(x1-X[0])+abs(x2-X[1]) # 같은 위치의 값끼리 빼 주어서 서로의 거리를 계산 한다. # 거리는 음수가 없으므로 절대값 or 제곱을 이용한다. 
        
        #거리가 최소인 데이터를 찾아서 라벨 값을 반환
        if minDis> dis:
            minDis=dis
            result=y
    
    #거리가 가장 작은 데이터의 라벨값을 반환
    return result
        
print(distanceML(180,125))


초고도 비만


## 수식 기반 학습으로 AND 논리를 학습하는 모델을 만들자

- Linear Regression (선형 회귀), Ridge, Lasso
- Logisitic Regression

In [4]:
data=[[0,0,0],
     [0,1,0],
     [1,0,0],
     [1,1,1]]
data

[[0, 0, 0], [0, 1, 0], [1, 0, 0], [1, 1, 1]]

In [5]:
def andML(x1,x2):
    w1,w2,b= 1,1,-1 #여러분이 직접 맞춰보세요(-1.0과 1.0 사이에 실수값)
    
    # and 논리를 만드는 수식
    temp= w1 *x1 +w2 *x2+b
    
    if temp<=0.5:
              
        return 0
    
    else:
        
        return 1
    
print(andML(0,0))
print(andML(0,1))
print(andML(1,0))
print(andML(1,1))

0
0
0
1


## 논리 기반 학습으로 AND논리를 학습하는 모델을 만들자

- Decision Tree(의사결정)

In [6]:
def logicalML(x1,x2):
    if x1== 0 and x2==0:
        return 0
    elif x1==1 and x2==0:
        return 0
    elif x1==0 and x2==1:
        return 0
    elif x1==1 and x2==1:
        return 1
    
print(logicalML(0,0))
print(logicalML(0,1))
print(logicalML(1,0))
print(logicalML(1,1))

0
0
0
1


## 앙상블 (Ensemble)

- 랜덤 포레스트 (Random Forest), Adaboost, GBM, Xgboost, LightGBM등등 
- 여러개의 모델을 사용해서 투표나 확률을 계산하는 방식 -voting, stacking
- 데이터를 쪼개서 적용하는 방식 -bagging, boosting


# scikit- learn 프레임 워크를 활용한 학습
- scikit-learn 프레임 워크 : 머신러닝과 관련된 데이터, 모델, 함수등을 다양하게 제공하는 가장 많이 사용되는 머신러닝 프레임 워크 

In [15]:
# AND 논리선언
data=[[0,0,0],
     [0,1,0],
     [1,0,0],
     [1,1,1]]
data

#데이터를 pandas 데이터로 변환
import pandas as pd
df=pd.DataFrame(data, columns=['A','B','AND'])
df

Unnamed: 0,A,B,AND
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1


In [22]:
#특성데이터와 라벨데이터로 분리
X=df.iloc[:,:2]
y=df.iloc[:,-1]

y1=df.iloc[:,2:]

In [25]:
print(y.shape)
print(y1.shape)

(4,)
(4, 1)


In [29]:
#knn 모델을 로드
from sklearn.neighbors import KNeighborsClassifier

#모델 생성
#n_neighbors: 가까이에 있는 참고하는 데이터의 수
knn_model= KNeighborsClassifier(n_neighbors=1)

#특성데이터와 라벨 데이터를 입력해서 훈련 - fit(특성데이터, 라벨데이터)
knn_model.fit(X,y)

KNeighborsClassifier(n_neighbors=1)

In [30]:
# 새로운 데이터를 입력해서 예측
new_X=[[1,1],[0,1],[0,0],[1,0]]
new_y=[1,0,0,0]

pred_y=knn_model.predict(pd.DataFrame(new_X))
pred_y



array([1, 0, 0, 0], dtype=int64)

In [35]:
# 성능 평가하기(score, accuracy_score)- 정확도 구하는 함수
#score(): 훈련하고 나서 특성데이터와 라벨 데이터로 정확도를 계산
#accuracy_score: 예측한 라벨과 원래 라벨을 비교하여 정확도를 계산
from sklearn.metrics import accuracy_score

print(knn_model.score(X,y))
print(accuracy_score(pred_y,new_y))

1.0
1.0
