# sklearn.impute

## simpleimputer()

# sklearn.metrics

## confusion_matrix()
Classification의 정확도 측정.

**y_true**
- 타겟 데이터.

**y_pred**
- 훈련된 모델로 타겟 데이터에 대해 예측한 데이터.

In [None]:
import sklearn.metrics import confusion_matrix

confusion_matrix(Y, y_pred)

# sklearn.model_selection

## sklearn.model_selection.cross_val_score()

Parameters:

**estimator**
- 평가하려는 모델

**X**
- 훈련시킬 데이터

**Y**
- 타겟 데이터

**cv**
- 얼마나 분할할지. default는 5.

**scoring**
- 원하는 평가 지표. 분류에서는 'accuracy'가 주로 쓰임.

In [None]:
# 예제
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

iris = load_iris()
logreg = LogisticRegression()

scores = cross_val_score(logreg, iris.data, iris.target)

## sklearn.model_selection.learning_curve
Training set 크기별 교차검증 성적을 plot.

**Parameters**: estimator, X, y, cv, n_jobs, train_sizes

- train_sizes: 훈련세트 범위를 지정. default는 `np.linspace(0.1, 1.0, 5)`.

In [None]:
from sklearn.model_selection import learning_curve

learning_curve(SVMC, X_train, Y_train, cv=kfold, n_jobs=-1,
              train_sizes=np.linspace(.1, 1.0, 5))

<br>

## GridSearchCV()

**Parameter**: estimator, param_grid, cv, scoring, n_jobs, verbose

**estimator**
- 사용할 모델.

**param_grid**
- 딕셔너리 형태. 검색 대상 매개변수 지정.

**cv**
- 원하는 교차 검증 개수.

**verbose**
- 표시되는 문구. 숫자가 높을수록 많이 표기됨.

In [None]:
from sklearn.model_selection import GridSearchCV

C = [0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
kernel = ['rbf', 'linear']
hyper = {'kernel': kernel, 'C': C, 'gamma': gamma}

gd = GridSearchCV(estimator=svm.SVC(), param_grid=hyper, verbose=True)

gd.fit(X_train, Y_train)

생성한 클래스 객체 `gd`에 위와 같이 `fit()` 메소드를 실행하면 최적의 파라미터를 찾아준다. 
- 찾는 과정 속에 복수개의 내부 모형이 생성되고 그에 대한 실행 결과는 다음 속성에 저장된다:


1. `grid_scores`: 모든 파라미터 조합에 대한 성능 결과.
2. `best_score_`: 최고 점수
3. `best_params_`: 최고 점수를 낸 파라미터
4. `best_estimator_`: 최고 점수를 낸 파라미터를 가진 모형.

# learning_curve
Training set 크기별로 교차검증 점수(Train, Test 둘 다)를 plot.

In [None]:
from sklearn.model_selection import learning_curve

learning_curve(estimator, X, y, cv)

**estimator**
- `fit`이나 `predict`로 만들어진 object.
<br><br>

**X, y**
- 훈련과 테스트 데이터. Unsupervised learning에서는 필요없음.
<br><BR>
    
**cv**
- 교차 검증 방법을 결정.

In [None]:
# 예제
def plot_learning_curve(estimator, title, X, y, ylim=None,
                       cv=None, n_jobs=-1, train_sizes=np.linspace(.1, 1.0, 5)):
    plt.figure()
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel('Training examples')
    plt.ylabel('Score')
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid()
    
    plt.fill_between(train_sizes, train_scores_mean-train_scores_std,
                    train_scores_mean+train_scores_std, alpha=0.1,
                    color='r')
    plt.fill_between(train_sizes, test_scores_mean-test_scores_std,
                    test_scores_mean+test_scores_std, alpha=0.1,
                    color='g')
    
    plt.plot(train_sizes, train_scores_mean, 'o-', color='r',
            label='Training score')
    plt.plot(train_sizes, test_scores_mean, 'o-', color='g',
            label='Cross-validation score')
    
    plt.legend(loc='best')
    return plt

g = plot_learning_curve(gsRFC.best_estimator, 'RF learning curves', X_train, Y_train, cv=kfold)

# StratifiedKFold
데이터가 편향되어 있을 경우(몰려있을경우) 사용할 교차검증법.

In [1]:
from sklearn.model_selection import StratifiedKFold

### Parameter 설명

**n_splits** 
- 몇 개로 분할할지 정하는 매개변수.
<br><Br>
    
**shuffle**
- default값 False. True를 하면 Fold를 하기 전에 무작위로 섞는다.
<br><BR>
    
**random_state**

In [None]:
skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=0)
score = cross_val_score(logreg, iris.data, iris.target, cv=skf)
print(score.mean())

<Br>
    
## train_test_split(\*arrays, **options)

In [6]:
from sklearn.model_selection import train_test_split

### Parameter 설명

**arrays**: Train과 Test로 나눌 indexable한 sequence. 
- list, numpy array, pd dataframe 입력 가능. 
<Br>
<br>
    
**test_size**: float, int, or None. 
- float이라면, 비율을 나타내는 0.0부터 1.0 사이 값.
- int라면, test sample의 개수.
- None이라면, train_size에 할당된 만큼 제외하고.
- test_size, train_size 둘 다 없다면 0.25.
<br><BR>
    
**train_size**: float, int, or None
- test_size와 정반대.
<br><BR>
    
**random_state**: 
- 주로 int로 쓰임. int면 해당 int가 seed가 되고 그 seed에 값이 할당된다.
- 입력하지 않으면 실행할때 마다 random한 값이 나온다.
<br><br>

**shuffle**: boolean
- 데이터를 분할하기 전에 섞을지 말지 boolean으로.
<br><br>

**stratify**: array-like or None.
- stratify에 입력된 array의 비율에 맞게 데이터가 분할된다.

### 예제

In [8]:
data = pd.read_csv('train.csv')
train, test = train_test_split(data, test_size=0.3, random_state=0, 
                               stratify=data['Survived'])