# 문제정의
- AND 연산 
- 훈련데이터와 테스트 데이터 이해하기
- AND 연산의 결과를 도출하는 머신러닝 모델 학습하고 이해하기 

# 데이터 만들기


In [1]:
# 필요한 도구 불러오기 
import numpy as np
import pandas as pd

In [2]:
# 데이터프레임 형태로 만들기 
# 행 : 8, 열 : 3
dict = {"A" : [0, 0, 1, 1, 1, 0, 1, 0],
        "B" : [0, 1, 0, 1, 0, 0, 1, 1],
       "AandB" : [0, 0, 0, 1, 0, 0, 1, 0]}
dataFrame = pd.DataFrame(dict)
dataFrame

Unnamed: 0,A,B,AandB
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1
4,1,0,0
5,0,0,0
6,1,1,1
7,0,1,0


- 'A', 'B' : 문제데이터, 특성, feature, 독립변수, X(대문자), 속성
- 'AandB' : 정답데이터, target, Label, 종속변수, y(소문자)

# 데이터 전처리 
- 컬럼인덱싱으로 문제데이터(X)와 정답데이터(y)로 분리하기 
- 문제를 전처리하기 위해서 문제와 정답을 분리한다

In [3]:
# 문제데이터
dataFrame[["A","B"]]
dataFrame.iloc[:,0:2]
X = dataFrame.loc[:,['A','B']]

# 정답데이터
y = dataFrame.loc[:,["AandB"]]
X

Unnamed: 0,A,B
0,0,0
1,0,1
2,1,0
3,1,1
4,1,0
5,0,0
6,1,1
7,0,1


## 학습을 위해 문제데이터를 훈련용 데이터와 테스트용 데이터로 분할
- 훈련 ==> 학습용
- 테스트 ==> 검증용

In [4]:
# 훈련용과 테스트용 분할  (7:3으로 자주사용)
# 훈련데이터 X,y: 0~5번까지 포함해서 행 슬라이싱
# 테스트 데이터 X,y: 6~7번까지 포함해서 행 슬라이싱
X_train = X.loc[:5, :] #훈련용 문제
X_test =  X.loc[6:, :] #테스트용 문제
y_train = y.loc[:5, :] #훈련용 정답
y_test = y.loc[6:, :] #테스트용 정답 

In [5]:
# 데이터 크기 확인 -> .shape 
print("훈련용 문제 :",X_train.shape)
print("검증용 문제 :",X_test.shape)
print("훈련용 정답 :",y_train.shape)
print("검증용 정답 :",y_test.shape)

훈련용 문제 : (6, 2)
검증용 문제 : (2, 2)
훈련용 정답 : (6, 1)
검증용 정답 : (2, 1)


- 전처리 다음단계가 탐색적 데이터분석(데이터 시각화 확인) 이지만 데이터가 간략하기 때문에 생략

# 머신러닝 모델 학습하기


## 학습하기 위한 머신러닝 모델 불러오기

In [6]:
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.


In [7]:
# scikit-learn 머신러닝용 패키지 라이브러리 p
from sklearn.neighbors import KNeighborsClassifier # KNN 분류모델 

## 모델 생성 및 하이퍼파리미터 정의 

In [8]:
# 클래스이므로 소괄호안에서 shift + tab ==> class 내부에서 사용할 수 있는 속성을 확인할 수 있음.
knn_model = KNeighborsClassifier(n_neighbors=1)
#n_neighbors : 하이퍼파라미터(사용자가 입력하는 매개변수 기본값은 5)
# 하이퍼 파라미터의 값에 따라 모델의 학습 결과가 달라진다. 
# 가장 가까운 이웃 1개의 실제 답만 확인하겠음. 
#==> 가장 가까운 이웃들의 답을 확인하고 그 답이 내것인것처럼 사용하겠다.

## 모델 학습 

In [9]:
# 모델학습 --> fit()
#fit의 역할 -> 학습을 통해 데이터 패턴, 성향 파악해서 규칙을 생성함.
#fit(훈련용 문제, 훈련용 정답) 
# 위의 있는 값 1을 기반으로 훈련용 문제와 훈련용 정답을 통해 훈련시킴
knn_model.fit(X_train, y_train) #훈련용 데이터에 맞춰서 학습 ( 지도학습 - 문제, 답)

  return self._fit(X, y)


## AND 연산 예측

In [39]:
X_test

Unnamed: 0,A,B
6,1,1
7,0,1


In [38]:
# predict(테스트용 문제)
# and 연산 예측
# 0, 0 --> 0
# 1, 1 --> 1
# 0 , 1 --> 1 이라면 오답

knn_model.predict(X_test)


pre = knn_model.predict(X_test) # 결과를 활용하기 위해 변수에 담기, 예측값이 됨.
pre

array([1, 0], dtype=int64)

In [40]:
y_test

Unnamed: 0,AandB
6,1
7,0


# 평가

## 모델 평가하는 모듈 불러오기

In [42]:
from sklearn.metrics import accuracy_score
# sklearn.metrics : 예측값을 평가하는 모듈 ,  accuracy_scorec :점황도 점수 (모델의 성능을 평가하는 지표 )

In [44]:
# 정확도 판별, 정확도 : 0 -> 0 잘맞춘 케이스
#                       1 -> 1 오류
# accuracy_score : KNN 모델이 가지고 있는 함수가 아니고 그냥 함수 자체적으로 역할을 함, 0.0 ~ 1.0
# accuracy_score(실제 정답, 예측 값(pre변수 활용))
accuracy_score(y_test, pre) # 확률정보로 값을 표시해줌. 1.0 => 100% 맞췄다는 의미
# 0.0에 가까울 수록 모델의 성능이 좋지 못하다.
# 1.0에 가까울 수록 모델의 성능이 나름대로 괜찮음.

1.0