### AND 연산
- 문제 정의  
  훈련 데이터와 테스트 데이터 이해하기  
  AND 연산의 결과를 도출하는 머신러닝 모델 학습하고 이해하기

![image.png](attachment:image.png)

### 데이터 만들기

In [1]:
# 필요한 도구 불러오기
import pandas as pd

In [2]:
# DataFrame 만들기 (데이터 생성)
# 행 : 8, 열(컬럼) : 3

df = pd.DataFrame({'A' : [0,0,1,1,1,0,1,0],
                   'B' : [0,1,0,1,0,0,1,1],
                   'AandB' : [0,0,0,1,0,0,1,0]})
df

Unnamed: 0,A,B,AandB
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1
4,1,0,0
5,0,0,0
6,1,1,1
7,0,1,0


- 'A', 'B' : 문제데이터, 특성, feature, 독립변수, X, 속성  
- 'AandB' : 정답데이터, target, label, 클래스, 종속변수, y

### 데이터 전처리
- 컬럼인덱싱을 통해서 문제데이터(X)와 정답데이터(y)로 분리하기

In [3]:
# 문제 데이터 
X = df[['A','B']]
# df.loc[행, 열] ==> df.loc[:, 'A':'B'], df.loc[:,['A','B']]
# df.iloc[행, 열] ==> df.iloc[:,:2], df.iloc[:, [0,1]]
display(X) #dataframe 형태로 출력

# 정답 데이터
y = df['AandB']
display(y) # numpy의 array 형태로 출력

Unnamed: 0,A,B
0,0,0
1,0,1
2,1,0
3,1,1
4,1,0
5,0,0
6,1,1
7,0,1


0    0
1    0
2    0
3    1
4    0
5    0
6    1
7    0
Name: AandB, dtype: int64

#### 학습을 위해 훈련용 데이터와 테스트용 데이터로 분할
- 학습(훈련), 검증(테스트)

In [4]:
# 훈련용 데이터 : X, y ==> 0~5까지 포함해서 행 슬라이싱
# 테스트용 데이터 : X, y ==> 6~7까지 포함해서 행 슬라이싱

X_train = X.iloc[:6]
X_test = X.iloc[6:]
y_train = y[:6]
y_test = y[6:]

In [5]:
# 데이터 크기 확인 
print('훈련용 데이터 : ',X_train.shape)
print('훈련용 답 : ', y_train.shape)
print('테스트용 데이터 : ',X_test.shape)
print('테스트용 답 : ', y_test.shape)

훈련용 데이터 :  (6, 2)
훈련용 답 :  (6,)
테스트용 데이터 :  (2, 2)
테스트용 답 :  (2,)


### 머신러닝 모델 학습하기

#### 학습하기 위한 머신러닝 모델 불러오기

In [6]:
# scikit-learn : 머신러닝용 패키지 라이브러리 불러오기
from sklearn.neighbors import KNeighborsClassifier  # KNN분류모델

#### 모델 생성 및 하이퍼 파라미터 정의(튜닝)

In [7]:
knn_model = KNeighborsClassifier(n_neighbors=1)
# n_neighbors : 하이퍼 파라미터 - 사용자가 입력하는 매개변수
# 하이버 파라미터에 다라 모델 학습이 달라짐.
# 가장 가까운 이웃들의 실제 답을 확인하고 그 답이 내것인것처럼 사용
# n_neighbors=1 : 가장 가까운 이웃 1개의 실제 답을 확인하겠음.

#### 모델 학습

In [8]:
# fit() 사용
# fit(훈련용 문제, 훈련용 답)
knn_model.fit(X_train,y_train) # 훈련용 데이터에 맞춰서 학습 - 지도학습(문제, 답)

KNeighborsClassifier(n_neighbors=1)

#### AND 연산 예측

In [11]:
X_test

Unnamed: 0,A,B
6,1,1
7,0,1


In [12]:
# and 연산 예측
# 0, 0 -> 0
# 0, 1 -> 0
# 1, 0 -> 0
# 1, 1 -> 1
# predict(테스트용문제)
pre = knn_model.predict(X_test)
pre # 결과를 활용하기 위해 변수에 답기. 정확한 정답은 아니고 틀릴 수도 있다.

  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


array([1, 0], dtype=int64)

In [10]:
y_test

6    1
7    0
Name: AandB, dtype: int64

#### 머신러닝 설명
- 머신러닝 : 데이터에서 규칙을 찾아내는 것  
   
   
- 지도학습 : 문제와 정답을 학습시킴, 문제가 정답을 출력하기 위한 규칙   
✔ 분류 : 정답의 종류가 정해져 있음  
✔ 회귀 : 정답의 종류가 정해져 있지 않음, 정답의 미묘한 차이가 크게 중요하지 않음   


- 비지도학습 : 문제만 학습시킴, 문제가 가지고 있는 특징(규칙)을 찾음  
✔ 클러스터링(군집) : 문제만 학습시켜서 특징이 비슷한 것끼리 묶음  
✔ 차원축소 : 데이터의 차원을 줄임.  데이터가 작아지지만 의미가 많은 데이터만 남김  
  ==> 학습에 소요되는 시간이 절약  

  
- 강화학습 :  문제와 완벽하지 않은 정답을 학습시킴. 스스로 학습을 통해서 정답을 찾음.

### 평가

#### 모델 평가하는 모듈 불러오기

In [13]:
from sklearn.metrics import accuracy_score # 정확도 점수(모델 성능 평가 지표)

In [16]:
# 정확도? 
# 정답 -> 예측
# 0-> 0 (정답)
# 1-> 1 (정답)
# 1-> 0 (오류)
# accuracy_score : 모델이 가지고 있는 함수가 아니고 그냥 함수 자체적으로 역할

# accuracy_score(실제답, 예측값)

accuracy_score(y_test, pre) # 확률 정보로 값을 표시 
# 1.0 -> 100%맞췄다는 의미 (모델의 성능이 괜찮다)
# 0.0 에 가까울수록 모델의 성능이 좋지 못하다고 판단

1.0