# 지도학습 - Classification

### 라이브러리 선언

In [1]:
import numpy as np
import pandas as pd 

# 모델 라이브러리 선언
from sklearn import svm

## Test/Training 자동 분리
from sklearn.model_selection import train_test_split

# 모델 정확도 라이브러리 선언
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

# 예측결과 고정
np.random.seed(42)

# 1. 데이터불러오기 / 타입통합

In [2]:
#CSV 파일을 읽어 DataFrame 변수에 저장하기
csData = pd.read_csv("../dataset/customer.csv")
csData.head()

Unnamed: 0,balance,stock,label
0,30000000,22500000,normal
1,280000000,48000000,diamond
2,300000000,40666666,diamond
3,54000000,28000000,normal
4,768000000,32000000,vip


# 2. 특성선정 / 데이터 분리

In [3]:
### feature, label 컬럼 설정
featuresCol = ['balance','stock']
labelCol = ['label']

### feature 데이터, label 데이터 분리
featuresData = csData[featuresCol]
labelData = csData[labelCol]

### train_test_split 함수를 활용해 feature / label 데이터 자동 분리 7:3
feature_train, feature_test, label_train, label_test = \
    train_test_split(featuresData, labelData, test_size = 0.3)

# 3. 모델선언 및 학습

In [4]:
from sklearn.ensemble import RandomForestClassifier

In [5]:
### Define Model
model_method = svm.SVC(random_state=1)
### Learning (Feature & Label)
model = model_method.fit(feature_train, label_train)

  y = column_or_1d(y, warn=True)


# 4. 예측

In [6]:
## 테스트데이터 Feature만 가지고 예측하기
predict = model.predict(feature_test)
predict


array(['normal', 'diamond', 'diamond', ..., 'normal', 'diamond',
       'diamond'], dtype=object)

# 5. 데이터 정리

In [7]:
### 데이터프레임으로 변환
predictData = pd.DataFrame(predict)

### 컬럼명 주입
predictData.columns = ["predict"]
predictData.head()

Unnamed: 0,predict
0,normal
1,diamond
2,diamond
3,normal
4,diamond


In [8]:
### 테스트데이터 Feature, Label 정리
featureTestResult = feature_test.reset_index(drop=True)
labelTestResult = label_test.reset_index(drop=True)

### 테스트데이터 + Predict 합치기
finalResult = pd.concat(
    [featureTestResult, labelTestResult, predictData], axis=1)
finalResult.head(5)

Unnamed: 0,balance,stock,label,predict
0,266000000,23000000,normal,normal
1,584000000,38000000,diamond,diamond
2,784000000,29333333,diamond,diamond
3,270000000,18000000,normal,normal
4,680000000,44666666,diamond,diamond


# 6. 결과 검증

In [9]:
# 결과 테스트하기 
ac_score = accuracy_score(label_test, predict)
cl_report = classification_report(label_test, predict)

## 결과 리포트하기
print("Accuracy =", ac_score)
print("result =\n", cl_report)

Accuracy = 0.9953333333333333
result =
               precision    recall  f1-score   support

     diamond       1.00      1.00      1.00      3582
      normal       1.00      1.00      1.00      1704
         vip       0.99      0.99      0.99       714

    accuracy                           1.00      6000
   macro avg       0.99      0.99      0.99      6000
weighted avg       1.00      1.00      1.00      6000



### [실습 - 모델변화]
기존 데이터(customer.csv)를 활용하여
SVM 로직 외에 
Decision Tree 알고리즘을 활용하여
구현하세요

### [실습 - 데이터변화]
github (hyokwan) 내 WA_Fn_UseC_-Sales-Win-Loss.csv 파일을 
불러와서 어떤 캠페인에서 loss가 발생하고 또는 win 할지
예측하는 로직을 구현하고
머신러닝_홍길동 이름의 파일로 저장 후
(haiteam@kopo.ac.kr) 로 메일 전송