# Scikit-learn이란?
---

Scikit-learn은 python언어에서 사용되는 오픈소스 머신러닝 라이브러리로, 머신러닝에 필요한 모델 학습, 데이터 전처리, 모델 평가 등의 여러가지 기능을 제공합니다.

# Fitting and predicting: estimator basics
---

Scikit-learn에서는 수십가지의 기본 머신러닝 모델들을 제공합니다.

RandomForestClassifier를 사용하는 아주 간단한 예제입니다.

In [1]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(random_state=42)
X = [[1, 2, 3],
    [11, 12, 13]]
y = [0, 1]
clf.fit(X, y)

fit()은 데이터를 해당 모델에 맞추는(fit) 함수입니다. fit에는 보통 두 가지의 인자가 들어갑니다.

- sample data X: 예측하고자 하는 목표 데이터, 보통 matrix(n_samples, n_features) 형태
- target data y: 정답 데이터, 보통 1D array 형태, y의 i번째 데이터는 X의 i번째 row(sample)에 해당합니다.

fit()을 통해 데이터가 모델에 학습되면, 학습된 모델을 가지고 예측을 실행해 볼 수 있습니다.

In [2]:
clf.predict(X)

array([0, 1])

In [3]:
clf.predict([[4, 5, 6], [14, 15, 16]])

array([0, 1])

# Transformers and pre-processors
---

머신러닝에서는 데이터를 모델에 학습하기 전에, 학습하기 좋게 데이터를 전처리하는 단계가 필요합니다.

StandardScaler()라는 전처리 클래스에 sample 데이터 X를 맞추고, 맞춰진 데이터를 바탕으로 변환해주는 transform()을 실행합니다.

In [4]:
from sklearn.preprocessing import StandardScaler
X = [[0, 15],
    [1, 10]]
StandardScaler().fit(X).transform(X)

array([[-1.,  1.],
       [ 1., -1.]])

# Pipelines: chaining pre-processors and estimators
---

전처리 클래스와 모델을 Pipeline이라는 object로 묶어줄 수 있습니다.

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

pipe = make_pipeline(StandardScaler(),
                     LogisticRegression())

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

pipe.fit(X_train, y_train)
accuracy_score(pipe.predict(X_test), y_test)


1.0

# Model evaluation
---

scikit-learn에서는 교차 검증을 위한 도구들도 지원합니다.

교차 검증이란 데이터를 여러 번 나누어 학습된 모델이 얼마나 일반화되어있는지를 확인하는 방법입니다.

In [6]:
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_validate

X, y = make_regression(n_samples=1000, random_state=42)
lr = LinearRegression()
result = cross_validate(lr, X, y)
result['test_score']

array([1., 1., 1., 1., 1.])

# Automatic parameter searches
---

예측 모델에는 사용자가 조정할 수 있는 하이퍼파라미터가 있습니다.

Scikit-learn에서는 교차 검증을 통해 최적의 파라미터 조합을 찾아주는 기능이 있습니다.

아래 예제의 RandomizedSearchCV 객체는 최적의 파라미터 조합을 찾고, 해당 파라미터를 RandomForestRegressor에 적용합니다.

In [7]:
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import train_test_split
from scipy.stats import randint

X, y = fetch_california_housing(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

param_distributions = {'n_estimators': randint(1, 5),
                       'max_depth': randint(5, 10)}

search = RandomizedSearchCV(estimator=RandomForestRegressor(),
                            param_distributions=param_distributions,
                            n_iter=5,
                            random_state=42)

search.fit(X_train, y_train)

print(search.best_params_)

print(search.score(X_test, y_test))

{'max_depth': 7, 'n_estimators': 4}
0.7038642035560196


# 참고자료
---

- https://scikit-learn.org/stable/getting_started.html#