머신러닝 
-> 기계 학습
-> 입력된 데이터를 학습하고 그에따른 패턴과 규칙을 찾아 예측하는 것 

머신러닝 종류
- 지도학습(교사학습): 문제데이터 + 답데이터(교사)
  - 유형 종류2: 
      분류 : 여러 클래스 중에서 하나를 찾는 것 
      회귀 : 연속적인 수치값을 예측하는 것 
- 비지도학습(비교사학습): 문제 데이터 
   - 데이터의 의미를 파악, 비슷한 데이터끼리 묶음 
      군집화(clustering)
- 강화학습(reinforcement learning): 로봇(행동 주체자) 에게 환경에대해 학습하게 하는 일련의 과정 

> 실습 내용 
데이터 분석 라이브러리 복기 + 머신러닝 과정 
and 학습시켜보기  


### 문제정의
- 훈련 데이터와 테스트 데이터 이해하기
- 머신러닝의 일련의 과정 이해하기
- AND연산의 결과를 도출하는 머신러닝 모델 학습하기

In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 데이터 준비
- and 연산 데이터 생성하기

In [20]:
# (1) 리스트로 만들기
# 이중리스트 : [[0,0,0],[0,1,0],...]

#(2) 딕셔너리 {컬럼명:[0,0,0],...}

dic = {'A':[0,0,1,1,1,0,1,0],'B':[0,1,0,1,0,0,1,1],'A and B':[0,0,0,1,0,0,1,0]}
df = pd.DataFrame(dic)
df

Unnamed: 0,A,B,A and B
0,0,0,0
1,0,1,0
2,1,0,0
3,1,1,1
4,1,0,0
5,0,0,0
6,1,1,1
7,0,1,0


### 데이터 전처리

In [21]:
# X : 문제 데이터(A,B컬럼), y : 답(실제적인 답, A and B) 분리
# 넘파이(배열 Array) > 2차원배열[행] , 배열[행][열] , 배열[행,열]
# 넘파이에서 썼던 방법대로 인덱싱하기 위해 인덱서 사용
# 판다스(DataFrame) > df.loc[행,열] , df.iloc[행:행, 열:열]

# X
df.loc[:,['A','B']]
df.loc[:,'A':'B']
df[['A','B']]
# df['A':'B'] : -> ':'이 있어서 행인덱싱(슬라이싱)으로 인식

Unnamed: 0,A,B
0,0,0
1,0,1
2,1,0
3,1,1
4,1,0
5,0,0
6,1,1
7,0,1


In [22]:
# y
df.iloc[:,2]
df.loc[:, 'A and B']

0    0
1    0
2    0
3    1
4    0
5    0
6    1
7    0
Name: A and B, dtype: int64

In [23]:
X = df.iloc[:,:2]
y = df['A and B']
# X: 2차원
# y: 1차원 시리즈 클래스 형태로

print('문제크기 :', X.shape)
print('답 크기 :', y.shape)


문제크기 : (8, 2)
답 크기 : (8,)


In [25]:
# 훈련용(학습과정), 테스트 데이터(평가 및 예측 과정) 분리
# X,y - 훈련용(X_train, y_train) / X,y - 테스트용(X_test, y_test) : 행 접근

# X_train = X.iloc[:6]
# X_test = X.iloc[6:]

X_train = X.iloc[:6,:]
X_test = X.iloc[6: , :]

# y_train = y.iloc[:6]
# y_test = y.iloc[6:]

y_train = y[:6]
y_test = y[6:]

print('훈련용 :',X_train.shape,y_train.shape)
print('테스트용 :',X_test.shape,y_test.shape)

훈련용 : (6, 2) (6,)
테스트용 : (2, 2) (2,)


### 데이터 탐색 (탐색적 데이터 분석)
- a컬럼 int 데이터 , 0/1
- b컬럼 int 데이터 , 0/1
- a and b컬럼 int 데이터 , 0/1
- 결측치 x , 이상치 x

### 모델링
- 모델 선택 및 하이퍼 파라미터 조정
- 모델 학습
- 모델 예측 및 평가

In [13]:
# 머신 모델 선택
# 모델 학습(훈련 과정)
# 모델 평가 및 예측(테스트 과정)

In [14]:
# 모델 불러오기
# 분류하는 모델 중 knn 모델을 불러오기
# sklearn(scikit-learn) 머신러닝 패키지 : 머신러닝에 사용되는 도구를 담은 패키지
# 지도 / 비지도 / 강화, 분류 / 회귀, 평가 공식(기능), 데이터 전처리 기능
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [15]:
# 모델 객체 생성
# 모델마다 하이퍼 파라미터명 다름, 쓰임 다름
# knn 에서는 n_neighbors 가 하이퍼 파라미터(사람이 설정하는 값)
knn_model = KNeighborsClassifier(n_neighbors=1)
# 사람이 설정하는 하이퍼 파라미터에 따라 결과가 바뀜!
# 예측이 잘되는 값이 있고, 안될 때가 있음

In [26]:
# 모델 학습 : '기본서 공부'
# 모델이 학습할 때 사용하는 함수 : fit(학습용(훈련용) 문제 데이터, 학습용 답 테이터)
knn_model.fit(X_train, y_train)

In [28]:
# 모델 예측 : '문제 풀이'
# predict(테스트용 문제 데이터)
pre = knn_model.predict(X_test)
pre
# : 예측 결과를 담은 변수

array([1, 0], dtype=int64)

X : 문제 데이터 (A,B 컬럼 잘라서 나눔)
- X_train : 훈련용 문제 데이터 '이론 공부'
- X_test :  테스트용 문제 데이터 '문제 풀이'

y : 답 데이터 (A and B 컬럼 잘라서 나눔)
- y_train : 훈련용 답 데이터
- y_test : 테스트용 답 데이터 

In [29]:
X_test

Unnamed: 0,A,B
6,1,1
7,0,1


In [30]:
# 모델 평가 : 예측이 실제 값과 비교했을 때 몇개나 잘 맞췄는지 표현하는 점수 확인
# accuracy_score()
# 1.0 * 100 = 100% : 전체 다 맞춤 => 1.0 == 100%
# 0 ~ 1로 출력 , 1에 가까울수록 잘 맞춤
accuracy_score(y_test, pre)

1.0