# 사이킷런(scikit-learn)

- 파이썬용 머신러닝 라이브러리
- 모듈 구성
    - 지도학습을 위한 모듈
    - 비지도학습을 위한 모듈
    - 모델 선택 및 평가를 위한 모듈
    - 데이터 변환 및 데이터를 불러오기 위한 모듈
    - 계산 성능 향상을 위한 모듈

- 지도학습 모듈
    - 나이브 베이즈
    - 의사결정 트리
    - 서포트 벡터 머신
    
- 비지도학습 모듈
    - 군집화
    - 가우시안 혼합 모델
    
- 모델 선택과 평가 모듈
    - 교차 검증
    - 모델 평가
    - 모델 저장과 불러오기
    
- 데이터 변환 모듈
    - 파이프라인
    - 특징 추출
    - 데이터 전처리
    - 차원 축소

### 사이킷런 설치

In [1]:
# pip install scikit-learn

In [2]:
import sklearn
sklearn.__version__

'0.22.1'

# Iris 데이터를 이용한 머신러닝 기초 공부

In [3]:
# 사이킷런에 내장된 데이터 이용
from sklearn.datasets import load_iris

In [4]:
# 변수에 할당
iris_dataset = load_iris()
print(f"iris_dataset key: {iris_dataset.keys()}")

iris_dataset key: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


### 각각 키의 값 확인

In [5]:
# data 값 확인 - 임의로 3개만 출력
print(iris_dataset['data'][:3])
print(f"shape of data: {iris_dataset['data'].shape}")

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]]
shape of data: (150, 4)


- 각 데이터마다 4개의 특징(feature)을 가지고 있음
- shape를 보면 150개의 데이터가 각각 4개의 특징을 가지고 있음을 확인 할 수 있음

In [6]:
# feature_names 값 확인 - 특징값이 가지는 의미 확인
print(iris_dataset['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


- sepal length : 꽃받침 길이
- sepal width : 꽃받침 너비
- petal length : 꽃잎 길이
- petal width : 꽃잎 너비

In [7]:
# target 값과 target_names 값 확인
print(iris_dataset['target'])
print(iris_dataset['target_names'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


- target
    - 데이터에 대한 정답, 즉 라벨값을 가짐
    - 3개의 라벨을 가지고 있음
    
- target_names
    - iris의 세 가지 종(setosa, versicolor, virginica)을 나타냄

In [8]:
# DESCR 값 확인
print(iris_dataset['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

- DESCR = Description
    - 해당 데이터에 대한 전체적인 요약 정보
    

### 사이킷런을 이용한 데이터 분리

In [9]:
# 데이터 분리를 위한 함수 불러오기
from sklearn.model_selection import train_test_split

In [10]:
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'], iris_dataset['target'], test_size=0.25, random_state=42)

- 함수에 나누고 싶은 데이터(데이터값, 타겟값)을 넣는다.
- 평가 데이터의 크기 설정 = test_size
    - 0 과 1 사이의 값
    - 여기서는 0.25
    - 전체 데이터의 25%를 분리 한다는 의미임
- random_state
    - 무작위로 데이터를 선택하는데 이 것을 제어하는 값
    - 함수를 여러번 사용할때 이 값이 일정하면 동일한 데이터를 선택해서 분리함

In [12]:
# 분리한 데이터들 확인
print(f"shape of train_input: {train_input.shape}")
print(f"shape of test_input: {test_input.shape}")
print(f"shape of train_label: {train_label.shape}")
print(f"shape of test_label: {test_label.shape}")

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


## 사이킷런을 이용한 지도학습

- 지도학습
    - 각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정
    - 즉, 모델이 예측하는 결과를 각 데이터의 정답과 비교해서 모델을 반복적으로 학습시킨다.