# Sklean 살펴보기

## #01. 준비작업

### [1] 패키지 참조

In [6]:
from sklearn.utils import all_estimators
from pandas import DataFrame

ImportError: cannot import name 'memory_profiler' from 'sklearn.utils' (c:\Users\User\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\utils\__init__.py)

## #02. sklearn이 제공하는 알고리즘 확인

In [2]:
filterType = ['classifier', 'regressor', 'cluster', 'transformer']
mylist = []

for f in filterType:
    allAlgorithms = all_estimators(type_filter=f)

    for name, package in allAlgorithms:
        cls = str(package)
        x = cls.find("'")
        y = cls.rfind("'")
        clsName = cls[x+1:y]

        if clsName.find("._") > -1:
            continue

        mylist.append({"type": f, "name": name, "class": clsName})

df = DataFrame(mylist)
df.sort_values(['type', 'name'])

Unnamed: 0,type,name,class
0,classifier,BernoulliNB,sklearn.naive_bayes.BernoulliNB
1,classifier,CalibratedClassifierCV,sklearn.calibration.CalibratedClassifierCV
2,classifier,CategoricalNB,sklearn.naive_bayes.CategoricalNB
3,classifier,ClassifierChain,sklearn.multioutput.ClassifierChain
4,classifier,ComplementNB,sklearn.naive_bayes.ComplementNB
5,classifier,DummyClassifier,sklearn.dummy.DummyClassifier
6,classifier,GaussianNB,sklearn.naive_bayes.GaussianNB
7,classifier,LinearDiscriminantAnalysis,sklearn.discriminant_analysis.LinearDiscrimina...
8,classifier,MultiOutputClassifier,sklearn.multioutput.MultiOutputClassifier
9,classifier,MultinomialNB,sklearn.naive_bayes.MultinomialNB


## #03. sklearn 성능 측정

### [1] 반복 실행 후 평균 실행 시간 측정  (`%%timeit -r숫자 -n숫자`)

`%%timeit` 명령이 상단에 명시된 블록은 기본적으로 100회 실행한다. 

각 회차마다의 실행시간에 대한 평균을 마지막에 출력한다.

`-r회차 -n회차` 옵션을 추가하면 반복 회차를 직접 조절할 수 있다.

- `-r` : 몇 번 loop 돌 것인지를 설정
- `-n` : 각 loop당 몇 번 실행할 것인지를 설정

In [3]:
%%timeit -r2 -n3

filterType = ['classifier', 'regressor', 'cluster', 'transformer']
mylist = []

for f in filterType:
    allAlgorithms = all_estimators(type_filter=f)

    for name, package in allAlgorithms:
        cls = str(package)
        x = cls.find("'")
        y = cls.rfind("'")
        clsName = cls[x+1:y]

        if clsName.find("._") > -1:
            continue

        mylist.append({"type": f, "name": name, "class": clsName})

df = DataFrame(mylist)
df.head()

623 ms ± 7.52 ms per loop (mean ± std. dev. of 2 runs, 3 loops each)


### [2] 1회만 실행 후 시간 측정 (`%%time`)

`%%timeit -r1 -n1`과 동일함

In [4]:
%%time

filterType = ['classifier', 'regressor', 'cluster', 'transformer']
mylist = []

for f in filterType:
    allAlgorithms = all_estimators(type_filter=f)

    for name, package in allAlgorithms:
        cls = str(package)
        x = cls.find("'")
        y = cls.rfind("'")
        clsName = cls[x+1:y]

        if clsName.find("._") > -1:
            continue

        mylist.append({"type": f, "name": name, "class": clsName})

df = DataFrame(mylist)
df.head()

CPU times: total: 594 ms
Wall time: 582 ms


Unnamed: 0,type,name,class
0,classifier,BernoulliNB,sklearn.naive_bayes.BernoulliNB
1,classifier,CalibratedClassifierCV,sklearn.calibration.CalibratedClassifierCV
2,classifier,CategoricalNB,sklearn.naive_bayes.CategoricalNB
3,classifier,ClassifierChain,sklearn.multioutput.ClassifierChain
4,classifier,ComplementNB,sklearn.naive_bayes.ComplementNB


## #04. 사용되는 메모리 계산 (`%%memit`)

`memory_profiler` 패키지 설치가 필요하다.

코드 블록 상단에 `%%memit` 명령을 명시하면 해당 블록이 실행되면서 소비되는 메모리 용량을 산정한다.

### [1] 외부 라이브러리 로딩

In [7]:
%load_ext memory_profiler

### [2] 시간 측정 + 메모리 사용량 계산

In [8]:
%%time
%%memit

filterType = ['classifier', 'regressor', 'cluster', 'transformer']
mylist = []

for f in filterType:
    allAlgorithms = all_estimators(type_filter=f)

    for name, package in allAlgorithms:
        cls = str(package)
        x = cls.find("'")
        y = cls.rfind("'")
        clsName = cls[x+1:y]

        if clsName.find("._") > -1:
            continue

        mylist.append({"type": f, "name": name, "class": clsName})

df = DataFrame(mylist)
df.head()

peak memory: 195.97 MiB, increment: 0.03 MiB
CPU times: total: 1.05 s
Wall time: 5.49 s
