### 구글드라이브 연동

In [None]:
# 구글드라이브 연동
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

# 구글 드라이브 파일 확인
!ls '/gdrive/My Drive/temp/'

# 반복되는 드라이브 경로 변수화
drive_path = '/gdrive/My Drive/temp/'

### 머신러닝(Machine Learning) 종류

- 지도학습 (Supervised Learning)
- 비지도학습 (Unsupervised Learning)
- 강화학습 (Reinforcement Learning)


지도학습 (Supervised Learning)

- 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법. 

- 분류(Classification)와 회귀(Regression)로 나뉘어진다.
> (ex. 스팸 메일 분류, 집 가격 예측, 손글씨 숫자 판별, 신용카드 의심거래 감지, 의료영상 이미지기반 종양판단)


비지도학습 (Unsupervised Learning)

- 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터를 학습시키는 방법.

- 데이터의 숨겨진 특징, 구조, 패턴 파악.

- 데이터를 비슷한 특성끼리 묶는 클러스터링(Clustering)과 차원축소(Dimensionality Reduction)등이 있다.
> (ex. 블로그 글 주제구분, 고객 취향별 그룹화, 웹사이트 비정상 접근 탐지, 이미지 감색 처리, 소비자 그룹 마케팅)

좋은 입력 데이터를 만들어내는 방법 -> 특성추출(특성공학)


강화학습 (Reinforcement Learning)

- 지도학습과 비슷하지만 완전한 답(Label)을 제공하지 않는 특징이 있다.

- 기계는 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습

> (ex. 게임이나 로봇 학습)


머신러닝 vs 딥러닝

|구분| Machine Learning| Deep Learning|
|---|---|---|
|훈련 데이터 크기| 작음| 큼|
|시스템 성능| 저 사양| 고 사양|
|feature 선택| 전문가 (사람) |알고리즘|
|feature 수| 많음 |적음|
|문제 해결 접근법| 문제를 분리 -> 각각 답을 얻음 -> 결과 통합| end-to-end (결과를 바로 얻음)|
|실행 시간| 짧음 |김|
|해석력 |해석 가능| 해석 어려움|

### [scikit-learn](https://scikit-learn.org/stable/index.html)

- 파이썬에 머신러닝 프레임워크 라이브러리

- 회귀, 분류, 군집, 차원축소, 특성공학, 전처리, 교차검증, 파이프라인 등 머신러닝에 필요한 기능 제공

- 학습을 위한 샘플 데이터 제공


#### scikit-learn으로 XOR 연산 학습해보기

XOR연산?

- 두값이 서로 같으면 0, 다르면 1  (배타적 논리 합)

|P(입력)| Q(입력)| R(출력)|
|---|---|---|
| 0| 0| 0|
| 0| 1| 1|
| 1| 0| 1|
| 1| 1| 0|


In [4]:
from sklearn import svm

# XOR의 계산 결과 데이터
xor_input = [
    # P, Q, Result
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]

# 학습을 위해 데이터와 레이블 분리하기 --- (※1)
xor_data = []
xor_label = []

# 내 풀이
# for i in range(len(xor_input)):
#   xor_data.append([xor_input[i][0], xor_input[i][1]])
#   xor_label.append(xor_input[i][2])

# print('xor_data : ', xor_data)
# print('xor_label : ', xor_label)

# 강사님 풀이
for [p, q, r] in xor_input:
  xor_data.append([p,q])
  xor_label.append(r)

print('xor_data : ', xor_data)
print('xor_label : ', xor_label)

# 데이터 학습시키기 --- (※2)
model = svm.SVC()
model.fit(xor_data, xor_label)

# 데이터 예측하기 --- (※3)
pre = model.predict(xor_data)
print("예측 데이터 : ", xor_data)
print("예측 결  과 : ", pre)

# 결과 확인하기 --- (※4)
ok = 0
for idx, answer in enumerate(xor_label):
  p = pre[idx]
  if p == answer:
    ok += 1

print("정답률 : ", ok, '/', 4 ,'=', ok/4)

xor_data :  [[0, 0], [0, 1], [1, 0], [1, 1]]
xor_label :  [0, 1, 1, 0]
예측 데이터 :  [[0, 0], [0, 1], [1, 0], [1, 1]]
예측 결  과 :  [0 1 1 0]
정답률 :  4 / 4 = 1.0


In [12]:
# pandas 라이브러리를 사용하여 코드 간략화
import pandas as pd
from sklearn import svm, metrics

# XOR 연산
xor_input = [
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]
# 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류하기 --- (※1)
xor_data = []
xor_label = []

xor_df = pd.DataFrame(xor_input)
xor_data = xor_df[[0, 1]]
xor_label = xor_df[2]

print('xor_data : \n', xor_data)
print('xor_label : \n', xor_label)

# 데이터 학습과 예측하기 --- (※2)
model = svm.SVC()
model.fit(xor_data, xor_label)
pre = model.predict(xor_data)

# 정답률 구하기 --- (※3)
ac_score = metrics.accuracy_score(xor_label, pre)
print('ac_score', ac_score)

xor_data : 
    0  1
0  0  0
1  0  1
2  1  0
3  1  1
xor_label : 
 0    0
1    1
2    1
3    0
Name: 2, dtype: int64
ac_score 1.0


In [14]:
# KNN 분류 모델을 이용
import pandas as pd
from sklearn import svm, metrics
from sklearn.neighbors import KNeighborsClassifier

# XOR 연산
xor_input = [
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]
# 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류하기 --- (※1)
xor_data = []
xor_label = []

xor_df = pd.DataFrame(xor_input)
xor_data = xor_df[[0, 1]]
xor_label = xor_df[2]

print('xor_data : \n', display(xor_data))
print('xor_label : \n', display(xor_label))

# 데이터 학습과 예측하기 --- (※2)
model = KNeighborsClassifier(n_neighbors=1)
model.fit(xor_data, xor_label)
pre = model.predict(xor_data)

# 정답률 구하기 --- (※3)
ac_score = metrics.accuracy_score(xor_label, pre)
print('ac_score', ac_score)

Unnamed: 0,0,1
0,0,0
1,0,1
2,1,0
3,1,1


xor_data : 
 None


0    0
1    1
2    1
3    0
Name: 2, dtype: int64

xor_label : 
 None
ac_score 1.0


진행순서

>1. model = 머신러닝모델 생성  # svm.SVC() or KNeighborsClassifier(n_neighbors=1) 
1. model.fit(문제 , 답)
1. 예측결과 = model.predict(값을 얻고 싶은 데이터 )
1. ac_score = metrics.accuracy_score(실제답, 예측결과)

clf (classifier) - scikit-learn 에서 [Estimator](https://en.wikipedia.org/wiki/Estimator) 인스턴스인 분류기를 지칭


[머신러닝 용어집](https://developers.google.com/machine-learning/glossary)

#### 모델 저장과 불러오기 - pickle

In [15]:
import pickle

with open('xor_model.pkl', 'wb') as f:
  pickle.dump(model, f)
  

In [20]:
import pickle

with open('xor_model.pkl', 'rb') as f:
  model = pickle.load(f)

pre = model.predict([[1,1]])
pre[0]

x_test = [[1,1],[1,0]]

pre = model.predict(x_test)
pre[0],pre[1]

(0, 1)

#### 모델 저장과 불러오기 - joblib

In [22]:
from sklearn.externals import joblib

joblib.dump(model, 'xor_model_2.pkl')

['xor_model_2.pkl']

In [23]:
from sklearn.externals import joblib

model = joblib.load('xor_model_2.pkl')

#### scikit-learn 연습 01

AND 연산 모델 작성

AND연산?

- 두값이 서로 참이면 1, 아니면 0 

|P(입력)| Q(입력)| R(출력)|
|---|---|---|
| 0| 0| 0|
| 0| 1| 0|
| 1| 0| 0|
| 1| 1| 1|

In [24]:
# KNN 분류 모델을 이용
import pandas as pd
from sklearn import svm, metrics
from sklearn.neighbors import KNeighborsClassifier

# AND 연산
and_input = [
             [0,0,0],
             [0,1,0],
             [1,0,0],
             [1,1,1]
]
# 입력을 학습 전용 데이터와 테스트 전용 데이터로 분류하기 --- (※1)
and_df = pd.DataFrame(and_input)
and_data = and_df[[0,1]]
and_label = and_df[2]

# 데이터 학습과 예측하기 --- (※2)
model = KNeighborsClassifier(n_neighbors=1)
model.fit(and_data, and_label)
pre = model.predict(and_data)

# 정답률 구하기 --- (※3)
ac_score = metrics.accuracy_score(and_label, pre)
print('ac_score', ac_score)

ac_score 1.0


#### 분류? 회귀?

- 같은 종류의 꽃(붓꽃)을 세 품종 중 하나로 예측하는 것(분류)
- 이메일에서 스팸 메일을 예측하는 것(분류)
- 웹사이트의 글로부터 어떤 언어의 웹사이트인지 예측하는 것(분류)
- 어떤 사람의 교육수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것(회귀)
- 옥수수 농장에서 전년도 수확량과 날씨, 고용 인원수 등으로 올해 수확량을 예측하는 것(회귀)
- 다음 학기 성적 점수를 예측하는 것
- 키와 몸무게를 가지고 비만도를 예측하는 것

#### scikit-learn 연습 02

비만도 데이터 학습

- 500명의 키와 몸무게, 비만도 라벨을 이용해 비만을 판단하는 모델을 만들어보자.

In [25]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [29]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics # 평가를 위한 모듈

# 'bmi_500.csv'
df = pd.read_csv('/content/drive/MyDrive/machine_learning/bmi_500.csv')
df.head()

df = pd.read_csv('/content/drive/MyDrive/machine_learning/bmi_500.csv', index_col = 'Label')
df.head()

Unnamed: 0_level_0,Gender,Height,Weight
Label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Obesity,Male,174,96
Normal,Male,189,87
Obesity,Female,185,110
Overweight,Female,195,104
Overweight,Male,149,61


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, Obesity to Extreme Obesity
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Gender  500 non-null    object
 1   Height  500 non-null    int64 
 2   Weight  500 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 25.6+ KB


모델링

1. 문제와 답으로 분리

2. 훈련셋과 평가셋으로 분리

3. 모델생성 및 하이퍼파라미터 조정

4. 학습 및 평가

### 머신러닝(Machine Learning) 진행 과정

1. ProblemIdentification (문제정의)
2. Data Collect(데이터 수집)
3. Data Preprocessing(데이터 전처리)
4. EDA(탐색적 데이터분석)
5. Model 선택, Hyper Parameter 조정
6. 학습
7. 모델 Evaluation(평가)


1. 문제정의
 - 지도학습 : 분류, 회귀
 - 비지도학습 : 군집, 차원축소
 - 강화학습

2. 데이터 수집
 - File Data, Database, 공공데이터, kaggle
 - Web Crawler (뉴스, SNS, 블로그)
 - IoT 센서를 통한 수집

3. 데이터 전처리
 - 결측치, 이상치 수정
 - Encoding : Categorical Data를 수치 데이터로 변경, 원핫인코딩
 - Feature Engineering (특성공학) : 단위 변환, 새로운 속성 추가 (MinMaxScaler, StandardScaler, RobustScaler)

4. EDA
 - 시각화를 통해 특성 선택 : (scatterplot, pairplot, boxplot, heatmap)
 - 사용할 Feature 선택 : 전처리 전략수립

5. Model 선택, Hyper Parameter 조정
 - 목적에 맞는 적절한 모델 선택
  - 지도학습
	 - 분류 : knn, Logistic Regression, SVM, Decision Tree, RandomForest, GradientBoosting
	 - 회귀 : knn, Linear Regression, Lasso, Ridge, Decision Tree, RandomForest, GradientBoosting
 - 하이퍼파라미터 튜닝

6. 학습
 - model.fit(X_train, y_train) : train 데이터와 test 데이터를 7:3 정도로 나눔 (train_test_split)
 - model.predict(X_test) :  (cross_val_score)

7. 평가
 -	지도학습
	 - 분류 : 정확도, 정밀도, 재현율, f1-score
	 - 회귀 : R^2, MSE, RMSE

 -	비지도학습
	- ARI 값