# 5. Scikit Learn

# 1. Scikit Learn 기초 및 데이터 표현 방식 이해

# Scikit-Learn 라이브러리

- 머신러닝 알고리즘을 구현한 오픈소스 라이브러리 중 가장 유명한 라이브러리 중 하나

- 일관되고 간결한 API가 강점이며, 문서화가 잘되어 있음

- 알고리즘은 파이썬 클래스로 구현되고, 데이터 셋은 Numpy 배열, Pandas DataFrame, Scipy 희소행렬을 사용할 수 있음

## Scikit-Learn의 데이터 표현 방식

### 특징 행렬(Feature Matrix)

- 표본(sample)은 데이터셋이 설명하는 개별 객체를 나타냄

- 특징(feature)은 각 표본을 연속적인 수치값, 부울값, 이산값으로 표현하는 개별 관측치를 의미

- 표본 ==> 행렬의 행

- 행의 개수 ==> n_samples

- 특징(feature) ==> 행렬의 열

- 열의 개수 ==> n_features

- 관례적으로 특징행렬은 변수 X에 저장

- \[n_samples, n_features\] 형태의 2차원 배열 구조를 사용(주로 Numpy 배열, Pandas DataFrame, Scipy 희소행렬을 사용)

### 대상 벡터(Target Vector)

- 연속적인 수치값, 이산 클래스/레이블을 가짐

- 길이 ==> n_samples

- 관례적으로 대상벡터는 변수 y에 저장

- 1차원 배열 구조를 사용(주로 Numpy 배열, Pandas Series를 사용)

- 특징 행렬로 부터 예측하고자 하는 값의 벡터

- 종속 변수, 출력 변수, 결과 변수, 반응 변수라고도 함

### 특징행렬과 대상벡터의 데이터 레이아웃

- 특징 행렬(X)을 이용해서 대상 벡터(y)를 예측
- 길이가 동일 해야 함(n_samples = n_samples)

### Numpy 배열을 이용한 특징 행렬(X), 대상 벡터(y)의 생성

In [2]:
import numpy as np

rs = np.random.RandomState(10)
x = 10 * rs.rand(5)
y = 2 * x - 1 * rs.rand(5)

x.shape, y.shape

((5,), (5,))

- np.random.RandomState(seed값)
    - seed값을 줘서 난수 생성(재현성을 위해서)

In [4]:
print(x)
print(y)

[7.71320643 0.20751949 6.33648235 7.48803883 4.98507012]
[15.20161622  0.21697612 11.91243399 14.80696681  9.88180043]


In [3]:
# shape 변경
X = x.reshape(-1, 1)

X.shape

(5, 1)

In [5]:
print(X)

[[7.71320643]
 [0.20751949]
 [6.33648235]
 [7.48803883]
 [4.98507012]]


### Pandas DataFrame을 이용한 특징 행렬(X), 대상 벡터(y)의 생성

In [8]:
import seaborn as sns

iris = sns.load_dataset("iris")

In [10]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


- 시각화 라이브러리 seaborn

    - matplotlib 라이브러리의 플러그인 역할

- sns.load_dataset("iris")

    - iris dataset

- feature, 레이블 구분
    
- 입력데이터에 의해 species(종) 결정됨

In [11]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


- head(n)

    - n의 default는 5

- Feature Matrix와 Target Vector를 나누는 작업이 필요함

In [14]:
X = iris.drop("species", axis=1)
X.shape

(150, 4)

In [17]:
type(X)

pandas.core.frame.DataFrame

- drop()
    - axis=1 는 열방향을 의미함
        

In [18]:
y = iris["species"]
y.shape

(150,)

In [19]:
type(y)

pandas.core.series.Series

### Bunch객체를 이용한 특징 행렬(X), 대상 벡터(y)의 생성

In [20]:
from sklearn.datasets import load_iris

iris = load_iris()

In [21]:
type(iris)

sklearn.utils.Bunch

In [24]:
iris.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

- Bunch 객체에는 keys()라는 함수가 있음

In [31]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [33]:
iris.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [36]:
type(iris.data)

numpy.ndarray

In [34]:
iris.data.shape

(150, 4)

In [37]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [38]:
iris.target.shape

(150,)

In [39]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [40]:
X = iris.data
y = iris.target

- X: 특징행렬

- y: 대상벡터

<br/>

### 이어서...

5. scikit-learn-2