# 문제정의
- AND 연산 
- 훈련데이터와 테스트 데이터 이해하기
- AND 연산의 결과를 도출하는 머신러닝 모델 학습하고 이해하기 

# 데이터 만들기


In [84]:
# 필요한 도구 불러오기 
import numpy as np
import pandas as pd

In [85]:
# 데이터프레임 형태로 만들기 
# 행 : 8, 열 : 3
dict = {"A" : [0, 0, 1, 1, 1, 0, 1, 0],
        "B" : [0, 1, 0, 1, 0, 0, 1, 1],
       "AandB" : [0, 0, 0, 1, 0, 0, 1, 0]}
dataFrame = pd.DataFrame(dict)
dataFrame

Unnamed: 0,A,B,AandB
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1
4,1,0,0
5,0,0,0
6,1,1,1
7,0,1,0


- 'A', 'B' : 문제데이터, 특성, feature, 독립변수, X(대문자), 속성
- 'AandB' : 정답데이터, target, Label, 종속변수, y(소문자)

# 데이터 전처리 
- 컬럼인덱싱으로 문제데이터(X)와 정답데이터(y)로 분리하기 
- 문제를 전처리하기 위해서 문제와 정답을 분리한다

In [86]:
# 문제데이터
dataFrame[["A","B"]]
dataFrame.iloc[:,0:2]
X = dataFrame.loc[:,['A','B']]

# 정답데이터
y = dataFrame["AandB"]
y


0    0
1    0
2    0
3    1
4    0
5    0
6    1
7    0
Name: AandB, dtype: int64

## 학습을 위해 문제데이터를 훈련용 데이터와 테스트용 데이터로 분할
- 훈련 ==> 학습용
- 테스트 ==> 검증용

In [87]:
# 훈련용과 테스트용 분할  (7:3으로 자주사용)
# 훈련데이터 X,y: 0~5번까지 포함해서 행 슬라이싱
# 테스트 데이터 X,y: 6~7번까지 포함해서 행 슬라이싱
X_train = X.loc[:5, :] #훈련용 문제
X_test =  X.loc[6:, :] #테스트용 문제
y_train = y[:6] #훈련용 정답
y_test = y[6:] #테스트용 정답 


In [88]:
# 데이터 크기 확인 -> .shape 
print("훈련용 문제 :",X_train.shape)
print("검증용 문제 :",X_test.shape)
print("훈련용 정답 :",y_train.shape)
print("검증용 정답 :",y_test.shape)

훈련용 문제 : (6, 2)
검증용 문제 : (2, 2)
훈련용 정답 : (6,)
검증용 정답 : (2,)


- 전처리 다음단계가 탐색적 데이터분석(데이터 시각화 확인) 이지만 데이터가 간략하기 때문에 생략

# 머신러닝 모델 학습하기


## 학습하기 위한 머신러닝 모델 불러오기

In [89]:
#pip install scikit-learn

In [90]:
# scikit-learn 머신러닝용 패키지 라이브러리 
from sklearn.neighbors import KNeighborsClassifier # KNN 분류모델 

## 모델 생성 및 하이퍼파라미터 정의


In [91]:
# 클래스이므로 소괄호안에서 shift + tab --> 클래스 내부에서 사용할 수 있는 속성 확인
Knn_model = KNeighborsClassifier(n_neighbors=1)
# n_neighbors : 하이퍼 파라미터 (사용자가 입력하는 매개변수)
# 하이퍼파라미터에 따라 모델의 학습결과가 달라짐 
# 가장 까가운 이웃 1개의 실제답만 확인하겠음 --> 가장 가까운 이웃들의 답을 확인하고 그 답이 내것인것처럼 사용하겠다.


## 모델 학습

In [99]:
# 모델 학습 --> fit()
# 학습을 통해 데이터 패턴, 성향 파악해서 규칙을 생성
#fit(훈련용문제, 훈련용정답)
Knn_model.fit(X_train, y_train) #훈령용 데이터에 맞춰서 학습 (지도학습 - 문제, 답 )


## AND 연산 예측


In [97]:
# predict(테스트용 문제)

# and 연산예측
# 0, 0 --> 0
# 1, 1 --> 1
# 0, 1 --> 0

pre = Knn_model.predict(X_test) # 결과를 활용하기 위해 변수에 담기 

In [94]:
pre

array([1, 0])

# 평가


## 모델 평가하는 모듈 불러오기

In [95]:
from sklearn.metrics import accuracy_score # 정확도 점수(모델의 성능 평가 지표 )

In [96]:
# 정확도 : 0 -> 0 정답
#        1 -> 0 오류 
# accureacy_score : KNN 모델이 가지고 있는 함수가 아니고 그냥 함수 자체적으로 역할, 0.0 ~ 1.0 값을 취함 
# accuracy_score(실제 정답, 예측값)
accuracy_score(y_test, pre) # 확률정보로 값을 표시  1.0 --> 100% 맞췄다는 의미 
# 0.0에 가까울 수록 : 모델의 성능이 좋지 못함
# 1.0에 가까울 수록 : 모델의 성능이 나름대로 괜찮음 

1.0