# 사이킷런(scikit-learn) 시작

![scikit-learn logo.png](https://drive.google.com/uc?id=1Aeb0mBJzYgz7UGmHAdGsQJF44EM9mNTD)

## scikit-learn 특징

* 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리
* 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제 제공
* 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공
* 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공
* 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리

## scikit-learn 주요 모듈

![scikit-learn](https://scikit-learn.org/stable/_static/ml_map.png)



| 모듈 | 설명 |
|------|------|
| `sklearn.datasets` | 내장된 예제 데이터 세트 |
| `sklearn.preprocessing` | 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등) |
| `sklearn.feature_selection` | 특징(feature)를 선택할 수 있는 기능 제공 | 
| `sklearn.feature_extraction` | 특징(feature) 추출에 사용 |
| `sklearn.decomposition` | 차원 축소 관련 알고리즘 지원 (PCA, NMF, Truncated SVD 등)
| `sklearn.model_selection` | 교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API 제공 (GridSearch 등)
| `sklearn.metrics` | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등) |
| `sklearn.pipeline` | 특징 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공 |
| `sklearn.linear_model` | 선형 회귀, 릿지(Ridge), 라쏘(Lasso), 로지스틱 회귀 등 회귀 관련 알고리즘과 SGD(Stochastic Gradient Descent) 알고리즘 제공 |
| `sklearn.svm` | 서포트 벡터 머신 알고리즘 제공 |
| `sklearn.neighbors` | 최근접 이웃 알고리즘 제공 (k-NN 등)
| `sklearn.naive_bayes` | 나이브 베이즈 알고리즘 제공 (가우시안 NB, 다항 분포 NB 등) |
| `sklearn.tree` | 의사 결정 트리 알고리즘 제공 |
| `sklearn.ensemble` | 앙상블 알고리즘 제공 (Random Forest, AdaBoost, GradientBoost 등) |
| `sklearn.cluster` | 비지도 클러스터링 알고리즘 제공 (k-Means, 계층형 클러스터링, DBSCAN 등)

### 데이터마이닝 과목에서 다루었던 알고리즘 
|구분| 데이터마이닝 알고리즘 | 클래스 | 함수 |
|------|------|------|------|
|교사(회귀)|`회귀분석`| from sklearn import `linear_model` | `LinearRegression()`  |
|교사(회귀)|`의사결정나무`| from sklearn import `tree` | `DecisionTreeRegressor()`|
|교사(분류)|`로지스틱회귀분석`| from sklearn import `linear_model`  | `LogisticRegression()`|
|교사(분류)|`의사결정나무`| from sklearn import `tree` | `DecisionTreeClassifier()`|
|교사(분류)|`K-NN`| from sklearn import `neighbors` | `KNeighborsClassifier()`|
|교사(분류)|`SVM` | from sklearn import `svm`| `SVC()`|
|비교사|`K-means Clustering`|from sklearn import `cluster` | `KMeans()`|
|비교사|`Hierarchical Clustering`|from sklearn import `cluster` | `AgglomerativeClustering()`|
|비교사|`PCA`|from sklearn import `decomposition` | `PCA()`|
|비교사|`연관성규칙`|------|------|


### `Scikit Learn을 이용한 데이터 분석 (Tips dataset)`

### 1. Data 준비


> - train_test_split : 일정한 비율로 데이터를 학습데이터와 평가데이터로 분류

In [None]:
# 기본 패키지 불러오기
import pandas as pd
import numpy as np

In [None]:
# 데이터 불러오기

tips = pd.read_csv("tips.csv")

# 데이터 분할 (X, y)
display(tips.head())

# 데이터 분할 (X, y)
X = tips.drop(['tip'], axis=1)
y = tips['tip']
print(X.shape)
print(y.shape)

display(X.head())
display(y.head())

FileNotFoundError: ignored

### 2. 데이터 분할

- train_test_split() 함수를 이용하여 학습데이터와 평가데이터로 분할할 수 있음
- stratify 옵션을 이용하면 범주별 개수를 고려하여 학습데이터와 평가데이터로 분할할 수 있음
- y가 범주형일 때, 아래 코드를 수행하면 train/test 데이터에서 y 범주의 비율을 동일하게 할당할 수 있음
> X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.3, random_state = 1, shuffle=True, `stratify = y`
)

In [None]:
# 데이터 분할 (학습데이터, 평가데이터)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.3, random_state = 1, shuffle=True, stratify = X["size"]
)
print(X.shape)
print(X_train.describe())
print(X_test.describe())

### 3. 데이터 전처리 (결측치 처리 및 정규화)

> * 변수들을 `수치형 변수`와 `범주형 변수`로 분리하여 전처리 수행
> * Scikit Learn 대부분 함수의 기본 적용형식은 다음의 순서를 따름
> 1. `fit` : 학습
> 2. `transform` : 적용
> 3. `fit`과 `tranform`을 동시에 `fit_transform` 을 사용하기도 함 : 학습과 적용을 동시에 
>> 일반적으로 `fit`과 `tranform`을 같은 데이터에 적용하려는 경우,  `fit_transform` 을 사용함

In [None]:
# # 직접 지정
X_train_num = X_train[["total_bill", "size"]]
X_train_cat = X_train.drop(["total_bill", "size"], axis=1)
display(X_train_num)
display(X_train_cat)

# # 다른 방법
# X_train_num = X_train.select_dtypes(include=[np.number])
# X_train_cat = X_train.select_dtypes(exclude=[np.number])
# display(X_train_num)
# display(X_train_cat)

Unnamed: 0,total_bill,size
85,34.83,4
182,45.35,3
113,23.95,2
105,15.36,2
83,32.68,2
...,...,...
79,17.29,2
91,22.49,2
223,15.98,3
142,41.19,5


Unnamed: 0,sex,smoker,day,time
85,Female,No,Thur,Lunch
182,Male,Yes,Sun,Dinner
113,Male,No,Sun,Dinner
105,Male,Yes,Sat,Dinner
83,Male,Yes,Thur,Lunch
...,...,...,...,...
79,Male,No,Thur,Lunch
91,Male,No,Fri,Dinner
223,Female,No,Fri,Lunch
142,Male,No,Thur,Lunch


#### 3.1. 수치형 변수 전처리
> * 수치형 변수 전처리 : `결측치 처리`와 `정규화(표준화)` 
> + 결측치 처리 : SimpleImputer 함수를 이용하여 쉽게 결측치 처리 수행가능
> + 정규화(표준화) : `min-max 정규화(normlization)` 과 `표준화(standardization)`

>> + 정규화 방법

\begin{equation}
x_i^{'} = \frac{x_i-min(x)}{max(x)-min(x)}
\end{equation}
>> + 표준화 방법

\begin{equation}
x_i^{'} = \frac{x_i-mean(x)}{stdev(x)}
\end{equation}




In [None]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy="median") #mean, median, constant(fill_value와 함께)
                                            # strategy="constant", fill_value = 0
# imputer.fit(X_train_num) # medain 값을 계산하는 과정
# X_train_num_imputed = imputer.transform(X_train_num)

X_train_num_imputed = imputer.fit_transform(X_train_num) #fit, transform을 동시에 하겠다
print(X_train_num_imputed)

[[34.83  4.  ]
 [45.35  3.  ]
 [23.95  2.  ]
 [15.36  2.  ]
 [32.68  2.  ]
 [28.15  5.  ]
 [16.04  3.  ]
 [15.77  2.  ]
 [28.97  2.  ]
 [30.4   4.  ]
 [12.48  2.  ]
 [11.69  2.  ]
 [15.42  2.  ]
 [24.59  4.  ]
 [ 9.94  2.  ]
 [16.    2.  ]
 [12.69  2.  ]
 [20.9   3.  ]
 [11.02  2.  ]
 [15.38  2.  ]
 [16.45  2.  ]
 [10.09  2.  ]
 [27.28  2.  ]
 [19.65  2.  ]
 [ 7.74  2.  ]
 [13.27  2.  ]
 [10.65  2.  ]
 [34.3   6.  ]
 [10.51  2.  ]
 [16.21  3.  ]
 [34.65  4.  ]
 [10.33  2.  ]
 [22.42  2.  ]
 [15.01  2.  ]
 [19.82  2.  ]
 [16.58  2.  ]
 [16.97  3.  ]
 [40.55  2.  ]
 [ 8.77  2.  ]
 [26.59  3.  ]
 [13.42  2.  ]
 [13.39  2.  ]
 [27.2   4.  ]
 [20.08  3.  ]
 [18.43  4.  ]
 [18.28  2.  ]
 [18.35  4.  ]
 [14.78  2.  ]
 [20.45  4.  ]
 [34.63  2.  ]
 [ 8.51  2.  ]
 [25.21  2.  ]
 [29.85  5.  ]
 [12.74  2.  ]
 [23.33  2.  ]
 [12.26  2.  ]
 [ 7.56  2.  ]
 [26.86  2.  ]
 [11.24  2.  ]
 [17.78  2.  ]
 [17.92  2.  ]
 [10.29  2.  ]
 [17.82  2.  ]
 [17.51  2.  ]
 [28.55  3.  ]
 [ 3.07  1.  ]
 [31.85  2

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(X_train_num)
X_train_num_scaled = scaler.transform(X_train_num)

# X_num_scaled = scaler.fit_transform(X_num)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train_num)
X_train_num_scaled = scaler.transform(X_train_num)

# X_tips_num_scaled = scaler.fit_transform(X_tips_num)

#### 3.2. 범주형 변수 전처리
> * 범주형 변수 전처리 : `결측치 처리`와 `범주형 데이터 처리`
> * 범주형 데이터 처리 방법 : `OrdinalEncoder`과 `OneHotEncoder`
>> *  `OrdinalEncoder`는 학점과 같이 순서가 있는 범주값을 정수로 변환합니다.  
>> * `OneHotEncoder`는 성별과 같이 순서가 없는 범주값을 더미변수로 변환하고 기본적으로 희소행렬을 반환합니다. 
>>> * 희소행렬은 0이 아닌 값이 존재하는 셀만을 표현한 행렬 
>>> * 희소행렬을 생성하지 않기 위해 sparse=False로 지정할 수 있습니다:

In [None]:
from sklearn.impute import SimpleImputer

imputer_cat = SimpleImputer(strategy="most_frequent")  #most_frequent, constant(fill_value와 함께)
imputer_cat.fit(X_train_cat)
X_train_cat_imputed = imputer_cat.transform(X_train_cat)

# X_train_cat_imputed = imputer.fit_transform(X_train_cat)
print(X_train_cat_imputed)

[['Female' 'No' 'Thur' 'Lunch']
 ['Male' 'Yes' 'Sun' 'Dinner']
 ['Male' 'No' 'Sun' 'Dinner']
 ['Male' 'Yes' 'Sat' 'Dinner']
 ['Male' 'Yes' 'Thur' 'Lunch']
 ['Male' 'Yes' 'Sat' 'Dinner']
 ['Male' 'No' 'Sat' 'Dinner']
 ['Female' 'No' 'Sat' 'Dinner']
 ['Male' 'Yes' 'Fri' 'Dinner']
 ['Male' 'No' 'Sun' 'Dinner']
 ['Female' 'No' 'Thur' 'Lunch']
 ['Male' 'No' 'Thur' 'Lunch']
 ['Male' 'No' 'Sun' 'Dinner']
 ['Female' 'No' 'Sun' 'Dinner']
 ['Male' 'No' 'Sun' 'Dinner']
 ['Male' 'Yes' 'Thur' 'Lunch']
 ['Male' 'No' 'Sat' 'Dinner']
 ['Female' 'Yes' 'Sun' 'Dinner']
 ['Male' 'Yes' 'Sat' 'Dinner']
 ['Female' 'Yes' 'Fri' 'Dinner']
 ['Female' 'No' 'Sat' 'Dinner']
 ['Female' 'Yes' 'Fri' 'Lunch']
 ['Male' 'Yes' 'Fri' 'Dinner']
 ['Female' 'No' 'Sat' 'Dinner']
 ['Male' 'Yes' 'Sat' 'Dinner']
 ['Female' 'Yes' 'Sat' 'Dinner']
 ['Female' 'No' 'Thur' 'Lunch']
 ['Male' 'No' 'Thur' 'Lunch']
 ['Male' 'No' 'Sat' 'Dinner']
 ['Female' 'No' 'Sun' 'Dinner']
 ['Male' 'Yes' 'Sun' 'Dinner']
 ['Female' 'No' 'Thur' 'Lunch']
 

In [None]:
from sklearn.preprocessing import OrdinalEncoder

ordinal_encoder = OrdinalEncoder()
X_train_cat_encoded = ordinal_encoder.fit_transform(X_train_cat)
X_train_cat_encoded

array([[0., 0., 3., 1.],
       [1., 1., 2., 0.],
       [1., 0., 2., 0.],
       [1., 1., 1., 0.],
       [1., 1., 3., 1.],
       [1., 1., 1., 0.],
       [1., 0., 1., 0.],
       [0., 0., 1., 0.],
       [1., 1., 0., 0.],
       [1., 0., 2., 0.],
       [0., 0., 3., 1.],
       [1., 0., 3., 1.],
       [1., 0., 2., 0.],
       [0., 0., 2., 0.],
       [1., 0., 2., 0.],
       [1., 1., 3., 1.],
       [1., 0., 1., 0.],
       [0., 1., 2., 0.],
       [1., 1., 1., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 1., 0., 1.],
       [1., 1., 0., 0.],
       [0., 0., 1., 0.],
       [1., 1., 1., 0.],
       [0., 1., 1., 0.],
       [0., 0., 3., 1.],
       [1., 0., 3., 1.],
       [1., 0., 1., 0.],
       [0., 0., 2., 0.],
       [1., 1., 2., 0.],
       [0., 0., 3., 1.],
       [0., 1., 1., 0.],
       [1., 1., 1., 0.],
       [1., 0., 1., 0.],
       [1., 1., 3., 1.],
       [0., 0., 2., 0.],
       [1., 1., 2., 0.],
       [1., 0., 2., 0.],
       [1., 1., 1., 0.],


In [None]:
from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder(sparse=False, drop='if_binary')
X_train_cat_1hot = cat_encoder.fit_transform(X_train_cat)
print(X_train_cat_1hot.shape)

#[참고] 나는 안돼 버전이 안맞아
# columns_1hot = cat_encoder.get_feature_names_out(X_train_cat.columns)
# print(columns_1hot)


(170, 7)


#### 3.3. `수치형/범주형 변수 전처리 파이프라인` 생성

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer # scikit 0.2부터 적용

# 수치형 / 범주형 변수 선언
num_var = ['total_bill', 'size' ]
cat_var = ['sex', 'smoker', 'day', 'time']
# num_var = X_train.select_dtypes(include=np.number).columns.tolist()
# cat_var = X_train.select_dtypes(exclude=np.number).columns.tolist()

# 수치형 변수 전처리를 위한 파이프라인 설정
num_pipeline = Pipeline([
        ('imputer_num', SimpleImputer(strategy="median")),
        ('std_scaler', StandardScaler()),
    ])

# 범주형 변수 전처리를 위한 파이프라인 설정
cat_pipeline = Pipeline([
        ('imputer_cat', SimpleImputer(strategy="most_frequent")),
        ('encoder', OneHotEncoder(sparse=False, drop='if_binary')),
    ])

# 수치형 / 범주형 변수에 대한 자동 전처리를 위한 파이프라인 설정

full_pipeline = ColumnTransformer([
        ("num", num_pipeline, num_var),
        ("cat", cat_pipeline, cat_var)])

X_train_pretained = full_pipeline.fit_transform(X_train)

NameError: ignored

In [None]:
full_pipeline.fit(X_train)
full_pipeline.transform(X_test)

array([[ 0.26102374, -0.59372484,  1.        ,  0.        ,  0.        ,
         0.        ,  1.        ,  0.        ,  0.        ],
       [-0.28481072,  0.45766289,  1.        ,  0.        ,  0.        ,
         0.        ,  1.        ,  0.        ,  0.        ],
       [ 0.48506847, -0.59372484,  1.        ,  1.        ,  0.        ,
         1.        ,  0.        ,  0.        ,  0.        ],
       [-0.18706572,  0.45766289,  0.        ,  1.        ,  0.        ,
         0.        ,  1.        ,  0.        ,  0.        ],
       [-0.38914528,  0.45766289,  1.        ,  0.        ,  0.        ,
         1.        ,  0.        ,  0.        ,  0.        ],
       [-0.81526957, -0.59372484,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  1.        ,  1.        ],
       [-0.26284556, -0.59372484,  1.        ,  0.        ,  0.        ,
         0.        ,  1.        ,  0.        ,  0.        ],
       [-0.90752328, -0.59372484,  1.        ,  1.        ,  0

In [None]:
# [참고] 
# columns_num = num_var
# columns_cat = list(full_pipeline.transformers_[1][1]['encoder'].get_feature_names_out(cat_var))
# columns = columns_num + columns_cat
# print(columns)

In [None]:
X_train_pretained.shape

(170, 9)

### 4. 모델 선택과 훈련 

> * scikitlearn 개별 모델의 기본 적용형식은 다음의 순서를 따름
> 1. `fit` : 학습
> 2. `predict` : 적용

#### 4.1. `모델 선택` 및 `훈련` (최적 하이퍼파라미터 탐색이 필요없는 경우)
> 회귀분석, 로지스틱 회귀분석 등의 경우 해당됨


#### 4.1.1. 모델 선택 (회귀분석) 및 학습

In [None]:
from sklearn.linear_model import LinearRegression

model_linear = LinearRegression(fit_intercept=True, n_jobs=None)
model_linear.fit(X_train_pretained, y_train)

LinearRegression()

#### 4.1.2. 모델 적용 및 성능평가

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
# from sklearn.metrics import mean_absolute_percentage_error

# 평가 데이터에 대한 전처리
X_test_prepared = full_pipeline.transform(X_test)  

# 평가 데이터에 대한 예측
y_test_hat = model_linear.predict(X_test_prepared)

# 평가 데이터에 대한 평가
mse_linear = mean_squared_error(y_test, y_test_hat, squared=True) # mean squared error
rmse_linear = mean_squared_error(y_test, y_test_hat, squared=False) # root mean squared error
mae_linear = mean_absolute_error(y_test, y_test_hat) # mean absolute error
# mape_linear = mean_absolute_percentage_error(y_test, y_test_hat) # mean absolute error

print(f'mse_linear:{mse_linear}')
print(f'rmse_linear:{rmse_linear}')
print(f'mae_linear:{mae_linear}')
# print(f'mape_linear:{mape_linear}')

mse_linear:1.5019050951834274
rmse_linear:1.2255223764515388
mae_linear:0.8524434935769155


#### 4.2. `모델 선택` 및 `훈련` (최적 하이퍼파라미터 탐색이 필요한 경우)
> 의사결정나무, K-NN, SVM 등의 경우 해당됨

#### 4.2.1. 모델 선택 (의사결정나무 (회귀나무))

In [None]:
from sklearn.tree import DecisionTreeRegressor

model_tree = DecisionTreeRegressor()

#### 4.2.2. 최적 하이퍼파라미터 탐색
* GridSearchCV를 이용하여 최적 하이퍼파라미터 탐색수행
* 최적 하이퍼파라미터 탐색 방법
> 1. 최적화할 하이퍼파라미터 구간 설정 
> 2. 최적 하이퍼파라미터 탐색
> 3. 최적 하이퍼파라미터로 재학습



In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# 1. 최적화할 하이퍼파라미터 구간 설정
param_grid = {
    'max_depth': [None, 6, 9, 12],
    'min_samples_split': [0.01, 0.05, 0.1],
    'max_features': ['auto', 'sqrt'],
}

In [None]:
# 2. 최적 하이퍼파라미터 탐색 and 3. 최적 하이퍼파라미터로 재학습(refit = True)
grid_search = GridSearchCV(estimator = model_tree, 
                           param_grid = param_grid, 
                           cv = 5, # 5 fold CV
                           scoring = 'neg_mean_squared_error',
                           refit = True, # 탐색된 최적 파라미터로 전체 데이터에 대해서 다시 학습을 수행하도록 함
                           n_jobs = -1 
                          )

grid_search.fit(X_train_pretained, y_train)

best_model = grid_search.best_estimator_  # 탐색된 최적 파라미터로 학습된 모델 
print(f'best_parameter: {grid_search.best_params_}') # 탐색된 최적 파라미터
print(f'best_score: {- grid_search.best_score_}') # 탐색된 최적 파라미터로 학습된 결과 

best_parameter: {'max_depth': 6, 'max_features': 'auto', 'min_samples_split': 0.1}
best_score: 1.0912752330734115


#### 4.2.3. 모델 적용 및 성능평가

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

# 평가 데이터에 대한 전처리
X_test_prepared = full_pipeline.transform(X_test)  

# 평가 데이터에 대한 예측
y_test_hat = best_model.predict(X_test_prepared)

# 평가 데이터에 대한 평가
mse_linear = mean_squared_error(y_test, y_test_hat, squared=True) # mean squared error
rmse_linear = mean_squared_error(y_test, y_test_hat, squared=False) # root mean squared error
mae_linear = mean_absolute_error(y_test, y_test_hat) # mean absolute error

print(f'mse_linear:{mse_linear}')
print(f'rmse_linear:{rmse_linear}')
print(f'mae_linear:{mae_linear}')



mse_linear:1.8730806964618532
rmse_linear:1.3686053837618253
mae_linear:0.880709211959212


### 5. joblib를 사용한 Best 모델 저장

In [None]:
# 전처리와 모델을 포함한 파이프라인 설정
full_pipeline_with_model = Pipeline([
        ("preparation", full_pipeline),
        ("best", best_model)
    ])

# 전처리와 모델을 포함한 파이프라인 학습
full_pipeline_with_model.fit(X_train, y_train)

# 전처리와 모델을 포함한 파이프라인으로 학습된 최적 모델
my_model = full_pipeline_with_model

# 모델 저장
import joblib
joblib.dump(my_model, "my_model.pkl")

# 모델 호출
my_model_loaded = joblib.load("my_model.pkl")

# 호출된 모델로 평가 데이터 예측 
y_test_hat = my_model_loaded.predict(X_test)

# 평가 데이터에 대한 평가
mse_linear = mean_squared_error(y_test, y_test_hat, squared=True) # mean squared error
rmse_linear = mean_squared_error(y_test, y_test_hat, squared=False) # root mean squared error
mae_linear = mean_absolute_error(y_test, y_test_hat) # mean absolute error


print(f'mse_linear:{mse_linear}')
print(f'rmse_linear:{rmse_linear}')
print(f'mae_linear:{mae_linear}')


mse_linear:1.8730806964618532
rmse_linear:1.3686053837618253
mae_linear:0.8807092119592117
