# 성능 평가 방법
- iris 데이터셋에서 대해 `KNN`과 `Naive Bayes`를 통해 각각 `분류 모델을 구현`하고 두 모델의 `하드웨어적 성능을 비교`

## 1. 패키지 참조

In [20]:
import warnings
warnings.filterwarnings('ignore')

import os
import numpy as np
import seaborn as sb
from matplotlib import pyplot as plt
from pandas import read_excel, pivot_table
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
# GaussianNB - 연속형 변수 분류 시 사용, CategoricalNB - 범주형 변수, MultinomialNB 다항분포형 변수
from sklearn.naive_bayes import GaussianNB

## 2. 데이터 가져오기

In [21]:
origin = read_excel('https://data.hossam.kr/G02/iris.xlsx')
origin

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [22]:
x = origin.drop('Species', axis=1)
y = origin['Species']
x.shape, y.shape

((150, 4), (150,))

## 3. KNN 데이터 분류
- `jupyter magic` 
    - `%%` 또는 `%` 사용
        - `%%` 는 블록 전체 적용
        - `%` 는 그 줄만 적용
            - `%`의 문제 -> 해당 줄을 다른 줄에선 인식 못함 -> 1회성 줄이 됨
- `%%timeit` 명령이 상단에 명시된 블록은 기본적으로 100회 실행한다 (epochs = 100)
    - 각 회차마다의 실행시간에 대한 `평균`을 마지막에 출력한다  
    - `-r회차 -n회차` 옵션 추가 시 `반복 회차 수 조절` 가능
        - `-r회차`: 몇 번 loop를 돌 것인지 설정 -> for r in range(0, 회차):
        - `-n회차`: 각 loop 당 몇 번 실행할 것인지 설정 -> for n in range (0, 회차):
- 실제 서비스에서는 `y_pred = knn.predict(x)` 의 시간이 1초 미만이어야 됨!
    - 너무 오래 걸리면 사용자들 화냄
### 1) 100회 반복 후 평균 실행 시간 측정

In [11]:
%%timeit

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x, y)
y_pred = knn.predict(x) # 1초 미만이어야 됨
score = accuracy_score(y.values, y_pred)
print('정확도: %.2f%%' % (score*100))

정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도: 96.00%
정확도:

### 2) 1회 실행 후 시간 측정

In [10]:
%%timeit -r1 -n1

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x, y)
y_pred = knn.predict(x)
score = accuracy_score(y.values, y_pred)
print('정확도: %.2f%%' % (score*100))

정확도: 96.00%
9.66 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


## 4. Naive Bayes (나이브 베이즈) 모델
- 클래스가 주어졌을 때 독립변수의 조건부 확률에 `조건부 독립 가정`을 추가한 분류기
    - 즉, 각 사건이 `독립`이라는 가정을 갖고 진행
- 예시) 스팸메일 분류기
- 언어 분류에 성능이 좋다고 알려져 있음
> 공식: https://scikit-learn.org/stable/modules/naive_bayes.html
### 1) 1회 실행 후 시간 측정

In [14]:
%%timeit -r1 -n1

nb = GaussianNB()
nb.fit(x, y)
y_pred = nb.predict(x)
score = accuracy_score(y.values, y_pred)
print('정확도: %.2f%%' % (score*100))

정확도: 96.00%
8.51 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


## 5. 학습과 예측에 대한 실행시간 비교
### 1) 학습 시간 비교
> `knn`이 훨씬 발전된 알고리즘이기에 naive bayes보다 `학습시간이 훨씬 짧은 것`을 확인할 수 있다

In [15]:
nb = GaussianNB()
%timeit -r1 -n1 nb.fit(x, y)

knn = KNeighborsClassifier(n_neighbors=3)
%timeit -r1 -n1 knn.fit(x, y)

34.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
7.62 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


### 2) 예측 시간 비교
> 예측 시간은 `가우시안NB`가 보통 knn보다 `시간이 더 짧다 `(빠르다)

In [16]:
nb = GaussianNB()
nb.fit(x, y)
%timeit -r1 -n1 nb.predict(x)

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x, y)
%timeit -r1 -n1 knn.predict(x)

3.49 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
24 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


## 6. 사용되는 메모리 계산
- 패키지 설치
    - `memory_profiler` 패키지 설치 필요
    - -> pip3 install --upgrade memory_profiler
- 사용 방법
    - 코드 블록 상단에 `%%memit` 명령을 명시하면 해당 블록이 실행되면서 소비되는 메모리 용량을 산정한다
    - python 라이브러리가 아니기 때문에 외부 라이브러리 로딩이 필요하다
### 1) 외부 라이브러리 로딩

In [17]:
%load_ext memory_profiler

In [18]:
%%memit
nb = GaussianNB()
nb.fit(x, y)
y_pred = nb.predict(x)
score = accuracy_score(y.values, y_pred)
print('정확도: %.2f%%' % (score*100))

정확도: 96.00%
peak memory: 134.97 MiB, increment: 0.25 MiB


In [19]:
%%memit
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x, y)
y_pred = nb.predict(x)
score = accuracy_score(y.values, y_pred)
print('정확도: %.2f%%' % (score*100))

정확도: 96.00%
peak memory: 139.61 MiB, increment: 0.11 MiB
