# 머신러닝을 위한 파이썬 라이브러리, scikit-learn

![scikit-learn logo.png](https://drive.google.com/uc?id=1Aeb0mBJzYgz7UGmHAdGsQJF44EM9mNTD)

## scikit-learn 특징

* 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리
* 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제
* 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공
* 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공
* 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리

## scikit-learn 주요 모듈

| 모듈 | 설명 |
|------|------|
| `sklearn.datasets` | 내장된 예제 데이터 세트 |
| `sklearn.preprocessing` | 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등) |
| `sklearn.feature_selection` | 특징(feature)를 선택할 수 있는 기능 제공 | 
| `sklearn.feature_extraction` | 특징(feature) 추출에 사용 |
| `sklearn.decomposition` | 차원 축소 관련 알고리즘 지원 (PCA, NMF, Truncated SVD 등)
| `sklearn.model_selection` | 교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API 제공 (GridSearch 등)
| `sklearn.metrics` | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등) |
| `sklearn.pipeline` | 특징 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공 |
| `sklearn.linear_model` | 선형 회귀, 릿지(Ridge), 라쏘(Lasso), 로지스틱 회귀 등 회귀 관련 알고리즘과 SGD(Stochastic Gradient Descent) 알고리즘 제공 |
| `sklearn.svm` | 서포트 벡터 머신 알고리즘 제공 |
| `sklearn.neighbors` | 최근접 이웃 알고리즘 제공 (k-NN 등)
| `sklearn.naive_bayes` | 나이브 베이즈 알고리즘 제공 (가우시안 NB, 다항 분포 NB 등) |
| `sklearn.tree` | 의사 결정 트리 알고리즘 제공 |
| `sklearn.ensemble` | 앙상블 알고리즘 제공 (Random Forest, AdaBoost, GradientBoost 등) |
| `sklearn.cluster` | 비지도 클러스터링 알고리즘 제공 (k-Means, 계층형 클러스터링, DBSCAN 등)

## 연습용 데이터 세트

### 분류 또는 회귀용 데이터 세트

| API | 설명 |
|-----|------|
| `datasets.load_boston()` | 미국 보스턴의 집에 대한 특징과 가격 데이터 (회귀용) |
| `datasets.load_iris()` | 붓꽃에 대한 특징을 가진 데이터 (분류용) |
| `datasets.load_diabetes()` | 당뇨 데이터 (회귀용) |
| `datasets.load_wine()` | 와인에 대한 특징을 가진 데이터 (분류용) |
| `datasets.load_breast_cancer()` | 위스콘신 유방암 특징들과 악성/음성 레이블 데이터 (분류용) |
| `datasets.load_digits()` | 0에서 9까지 숫자 이미지 픽셀 데이터 (분류용) |

### 온라인 데이터 세트

* 데이터 크기가 커서 온라인에서 데이터를 다운로드 한 후에 불러오는 예제 데이터 세트

| API | 설명 |
|-----|------|
| `fetch_california_housing()` | 캘리포니아 주택 가격 데이터 |
| `fetch_covtype()` | 회귀 분석용 토지 조사 데이터 |
| `fetch_20newsgroups()` | 뉴스 그룹 텍스트 데이터 |
| `fetch_olivetti_faces()` | 얼굴 이미지 데이터 |
| `fetch_lfw_people()` | 얼굴 이미지 데이터 |
| `fetch_lfw_paris()` | 얼굴 이미지 데이터 |
| `fetch_rcv1()` | 로이터 뉴스 말뭉치 데이터 |
| `fetch_mldata()` | ML 웹사이트에서 다운로드 |

### 분류와 클러스터링을 위한 표본 데이터 생성

| API | 설명 |
|-----|------|
| `datasets.make_classifications()` | 분류를 위한 데이터 세트 생성. 높은 상관도, 불필요한 속성 등의 노이즈를 고려한 데이터를 무작위로 생성 |
| `datasets.make_blobs()` | 클러스터링을 위한 데이터 세트 생성. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 셋트를 무작위로 생성 |

### 예제 데이터 세트 구조

* 일반적으로 딕셔너리 형태로 구성
* data: 특징 데이터 세트
* target: 분류용은 레이블 값, 회귀용은 숫자 결과값 데이터
* target_names: 개별 레이블의 이름 (분류용)
* feature_names: 특징 이름
* DESCR: 데이터 세트에 대한 설명과 각 특징 설명

In [3]:
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
print(diabetes.keys())

dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename'])


In [5]:
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

----------------------------------------------------

# 라이브러리 설정

In [10]:
import numpy as np
import pandas as pd
from sklearn import metrics
from sklearn import tree

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, precision_score, recall_score, accuracy_score, f1_score
from sklearn.pipeline import make_pipeline, Pipeline

from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer, HashingVectorizer, TfidfVectorizer

# Decision Tree

scikit-learn은 CART 알고리즘(gini 사용)을 사용하여 이진트리를 생성

gini 대신 entropy를 사용하려면, 생성자에 criterion='entropy' 인자로 지정

## 1. 데이터 준비 - 유방암 데이터

In [11]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer(as_frame = True)
print("cancer.keys : \n", cancer.keys())

cancer.keys : 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [12]:
print(cancer.data.shape)

(569, 30)


In [13]:
print(cancer.feature_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [14]:
print(cancer.target_names)

['malignant' 'benign']


## 2. 모델 생성

In [15]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size = .3, stratify = cancer.target)

In [17]:
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

print("train 정확도 : {0:.3f}".format(tree.score(X_train, y_train)))
print("test 정확도 : {0:.3f}".format(tree.score(X_test, y_test)))

train 정확도 : 1.000
test 정확도 : 0.906


### 규제 매개변수
* max_depth : 트리 최대 깊이
* min_samples_split : 분할되기 위해 노드가 가져야 하는 최소 샘플 수
* min_samples_leaf : leaf node가 가지고 있어야할 최소 샘플 수
* min_weight_fraction_leaf : min_samples_leaf와 비슷하지만, 가중치가 부여된 전체 샘플 수에서의 비율
* max_leaf_nodes : leaf node의 총 최대 개수
* max_features : 최상의 분할을 찾을 때 고려할 기능의 수


#### min_으로 시작하는 매개변수 값 증가 -> 모델 규제 강화 -> 과적합 감소
#### max_으로 시작하는 매개변수 값 감소 -> 모델 규제 강화 -> 과적합 감소

In [18]:
tree = DecisionTreeClassifier(max_depth = 4)
tree.fit(X_train, y_train)

print("train 정확도 : {0:.3f}".format(tree.score(X_train, y_train)))
print("test 정확도 : {0:.3f}".format(tree.score(X_test, y_test)))

train 정확도 : 0.997
test 정확도 : 0.906


## 3. 트리 시각화

# KNN

## 1. 데이터 준비 - 와인 데이터

In [22]:
from sklearn.datasets import load_wine

wine = load_wine()
wine_df = pd.DataFrame(data = wine.data, columns = wine.feature_names)
wine_df["target"] = wine.target
wine_df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


## 2. 모델 생성, 성능 확인

In [24]:
X, y = wine.data, wine.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2)

for k in (1, 3, 5, 10):
    knn = KNeighborsClassifier(n_neighbors = k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    score = metrics.accuracy_score(y_test, y_pred)
    print("K = {0: d} 일 때 정확도 : {1:.3f}".format(k, score))

K =  1 일 때 정확도 : 0.639
K =  3 일 때 정확도 : 0.722
K =  5 일 때 정확도 : 0.694
K =  10 일 때 정확도 : 0.750


### 표준화 수행

In [25]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

In [26]:
for k in (1, 3, 5, 10):
    knn = KNeighborsClassifier(n_neighbors = k)
    knn.fit(X_train_scaled, y_train)
    y_pred = knn.predict(X_test_scaled)
    score = metrics.accuracy_score(y_test, y_pred)
    print("K = {0: d} 일 때 정확도 : {1:.3f}".format(k, score))

K =  1 일 때 정확도 : 0.944
K =  3 일 때 정확도 : 0.917
K =  5 일 때 정확도 : 0.917
K =  10 일 때 정확도 : 0.972


# Support Vector Machine

In [27]:
X, y = load_breast_cancer(return_X_y = True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2)

In [28]:
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

## linear SVC

In [30]:
model = SVC(kernel = "linear")
model.fit(X_train, y_train)

SVC(kernel='linear')

In [32]:
print("train 데이터 점수 : {:.3f}".format(model.score(X_train, y_train)))
print("test 데이터 점수 : {:.3f}".format(model.score(X_test, y_test)))

train 데이터 점수 : 0.989
test 데이터 점수 : 0.974


## kernel SVC

In [33]:
model = SVC(kernel = "rbf")
model.fit(X_train, y_train)

SVC()

In [34]:
print("train 데이터 점수 : {:.3f}".format(model.score(X_train, y_train)))
print("test 데이터 점수 : {:.3f}".format(model.score(X_test, y_test)))

train 데이터 점수 : 0.987
test 데이터 점수 : 0.982


# 나이브 베이즈 분류기

사이킷런의 naive_bayes 서브패키지에서는 다음과 같은 세가지 나이브베이즈 모형 클래스를 제공한다.

* GaussianNB: 정규분포 나이브베이즈
* BernoulliNB: 베르누이분포 나이브베이즈
* MultinomialNB: 다항분포 나이브베이즈

## 가우시안 나이브 베이즈

### 데이터 - iris

In [35]:
iris = load_iris()
X = iris.data
y = iris.target

model = GaussianNB().fit(X, y)

In [38]:
from sklearn.metrics import confusion_matrix, classification_report

y_pred = model.predict(X)

print("분류 결과표 : \n", confusion_matrix(y, y_pred), end = "\n\n\n")
print("분류 보고서 : \n", classification_report(y, y_pred))

분류 결과표 : 
 [[50  0  0]
 [ 0 47  3]
 [ 0  3 47]]


분류 보고서 : 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       0.94      0.94      0.94        50
           2       0.94      0.94      0.94        50

    accuracy                           0.96       150
   macro avg       0.96      0.96      0.96       150
weighted avg       0.96      0.96      0.96       150



## 다항 나이브 베이즈

### 데이터 - 20 Newsgroup

In [39]:
news = fetch_20newsgroups(subset = "all")

In [43]:
news.data[:2]

["From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>\nSubject: Pens fans reactions\nOrganization: Post Office, Carnegie Mellon, Pittsburgh, PA\nLines: 12\nNNTP-Posting-Host: po4.andrew.cmu.edu\n\n\n\nI am sure some bashers of Pens fans are pretty confused about the lack\nof any kind of posts about the recent Pens massacre of the Devils. Actually,\nI am  bit puzzled too and a bit relieved. However, I am going to put an end\nto non-PIttsburghers' relief with a bit of praise for the Pens. Man, they\nare killing those Devils worse than I thought. Jagr just showed you why\nhe is much better than his regular season stats. He is also a lot\nfo fun to watch in the playoffs. Bowman should let JAgr have a lot of\nfun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n",
 'From: mblawson@midway.ecn.uoknor.edu (Matthew B Lawson)\nSubject: Which h

### 20 Newsgroup 데이터

* 뉴스 기사가 어느 그룹에 속하는지 분류
* 뉴스 기사는 텍스트 데이터이기 때문에 벡터 변환 필요

#### 벡터화
* 텍스트 데이터는 기계학습 모델에 입력 할 수 없음
* 벡터화는 텍스트 데이터를 실수 벡터로 변환해 기계학습 모델에 입력 할 수 있도록 하는 전처리 과정
* Scikit-learn에서는 Count, Hashing, Tf-idf 세가지 방법을 지원
  - CountVectorizer
    + 문서에 나온 단어의 수를 세서 벡터 생성
    + 결과는 희소 행렬

  - HashingVectorizer
    + 각 단어를 해쉬 값으로 표현
    + 미리 정해진 크기의 벡터로 표현

  - TfidfVectorizer
    + 문서에 나온 단어 빈도(term frequency)와 역문서 빈도(inverse document frequency)를 곱해서 구함
    + 각 빈도는 일반적으로 로그 스케일링 후 사용

In [52]:
model1 = Pipeline([("vect", CountVectorizer()), ("model", MultinomialNB())])

model2 = Pipeline([("vect", TfidfVectorizer()), ("model", MultinomialNB())])

model3 = Pipeline([("vect", TfidfVectorizer(stop_words = "english")), ("model", MultinomialNB())])

In [50]:
print(news.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [55]:
from sklearn.model_selection import cross_val_score

X = news.data
y = news.target

for i, model in enumerate([model1, model2, model3]):
    scores = cross_val_score(model, X, y, cv = 5)
    print("Model{0:d}_Mean score : {1:.3f}".format(i+1, np.mean(scores)))

Model1_Mean score : 0.855
Model2_Mean score : 0.856
Model3_Mean score : 0.883
