# scikit-learn 소개
- 파이썬 기반의 머신러닝 라이브러리
- numpy와 scipy 기반 위에서 구축된 라이브러리

- feature : target을 제외한 나머지 속성
- lable, class, target : 정답데이터를 의미

In [1]:
# sklearn 버전확인
import sklearn
print(sklearn.__version__)

1.0.1


In [2]:
# loading scikit-learn module
from sklearn.datasets import load_iris #irist dataset
from sklearn.tree import DecisionTreeClassifier #결정트리
from sklearn.model_selection import train_test_split #split train-test dataset
import pandas as pd

# 모델 프로세스
- 데이터세트 분리
- 모델학습
- 예측수행
- 평가

### #1 데이터세트 분리

In [3]:
# iris 데이터셋 로딩
iris = load_iris()

iris_data = iris.data #iris 데이터셋 feature만 추출
iris_label = iris.target #label만 추출
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [4]:
#DataFrame으로 변환합니다. 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [5]:
#test 데이터셋을 20% 비율로 분리
##X : feature
##Y : label
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                    test_size=0.2, random_state=11)

### #2 모델학습

In [6]:
# DecisionTreeClassifier 객체 생성 
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행 
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

### #3 test 데이터셋으로 예측수행

In [7]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행. 
pred = dt_clf.predict(X_test)
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

### #4 예측모델 평가

In [8]:
#accuracy
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


In [9]:
from sklearn.metrics import f1_score
print('예측 F1 score: {0:.4f}'.format(f1_score(y_test,pred,average='macro')))

예측 F1 score: 0.9364


# sklearn 기반 프레임워크
- 학습 : fit()
- 예측 : predict()
- Estimator(추정)
    - Classifier(분류)
        - DecisionTreeClassifier
        - RandomForestClassifier
        - GradientBoostingClassifer
        - GaussianNB
        - SVC
    - Regressor(회귀)
        - LinearRegression
        - Ridge
        - Lasso
        - RandomForestRegressor
        - GradientBoostingRegressor

## sklearn 주요 모듈
- sample data
    - sklearn.datasets : sklearn 내장 dataset
- 데이터 분리, 검증, 파라미터 튜닝
    - sklearn.model_selection
        - train/test 분리
        - Grid search로 최적 파라미터 추출
- feature 처리
    - sklearn.preprocessing : 데이터 전처리
    - sklearn.feature_selection : 영향력이 큰 feature를 우선적으로 선택
    - sklearn.feature_extraction : feature 추출
        - 텍스트데이터 : sklearn.feature_extraction.text
            - count vectorizer, Tf-Idf vectorizer
        - 이미지데이터 : sklearn.feature_extraction.image
- feature 처리 & 차원 축소
    - sklearn.decomposition : 차원축소 관련 알고리즘
        - PCA
        - NMF
        - Truncated SVD
- 평가
    - sklearn.metrics : 성능 측정 지표
        - accuracy
        - precision
        - recall
        - f1-score
        - ROC-AUC
        - RMSE
- ML 알고리즘
    - sklearn.ensemble : 앙상블 알고리즘
        - RandomForest
        - AdaBoost(= adaptive boosting)
        - GradientBoosting
    - sklearn.linear_model : 선형모델 위주
        - linear regression
        - ridge
        - lasso
        - logistic regression
        - SGD(Stochastic Gradient Descent)
    - sklearn.naive_bayes : 나이브 베이즈 알고리즘
        - 가우시안 나이브 베이즈
        - 다항분포 나이즈 베이즈
    - sklearn.neighbors : 최근접 이웃 알고리즘
        - KNN
    - sklearn.svm : 서포트 벡터 머신 알고리즘
    - sklearn.tree : 의사 결정 트리 알고리즘
    - sklearn.cluster : 비지도 클러스터링 알고리즘
        - k-means
        - 계층형
        - DBSCAN
- 유틸리티
    - sklearn.pipeline : 피처처리 등의 변환과 ML알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티



### sklearn.datasets
- sklearn 샘플데이터 로드
- [sklearn.datasets document](https://scikit-learn.org/stable/datasets/toy_dataset.html)

In [1]:
from sklearn.datasets import load_iris
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [3]:
print("붓꽃 데이터 세트의 키들:", iris_data.keys())

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


- data : feature의 데이터셋
- target : label 데이터셋
- target_names : label 이름
- feature_names : feature 이름
- DESCR : 데이터셋에 대한 설명
- filename : 데이터 파일의 이름 ex) iris.csv
- data_module : 데이터의 상위 모듈 이름 ex) iris_data.data_module

In [7]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0

In [21]:
import pandas as pd
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)

In [22]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
