# 오늘의 주제

## 기계학습

### 학습 방법에 의한 구분

1. 지도학습(Supervised Learning)
- 데이터에 정답이 존재하여, 이 정답을 기반으로 학습
- 이 정답을 레이블(Label), 혹은 클래스(Class)
- 지도 학습의 종류
    - 회귀 분석
    - 분류
    - 대부분의 기존 신경망

2. 비지도학습(Unsupervised Learning)
- 데이터에 정답이 없어서, 아무런 도움 없이 학습
- 비지도 학습의 종류
    - 군집화
    - PCA
    - 패턴 탐사 (연관규칙, 빈발항목집합 등)
    
## 사이킷런(Scikit-Learn)

- 사이킷런(Scikit-Learn) : 대표적인 파이썬 머신러닝 라이브러리로서, 회귀 분석을
비롯하여 다양한 분석 알고리즘과 기능들을 제공  
- [사이킷런 공식사이트](https://scikit-learn.org)에서 관련 정보 및 문서, 예제 등을 확인 가능
- 아나콘다를 설치하면 자동적으로 사이킷런까지 설치되므로 별도의 추가 설치 또는 설정 없이 사용 가능, 혹은 아래와 같은 명령어를 통해서 설치 가능
```
pip install scikit-learn
conda install scikit-learn
```
- 사이킷런을 임포트해올때는 `sklearn`으로 부른다
```python
import sklearn
```



### 사이킷런의 주요 모듈들

#### 예제 데이터
- `sklearn.datasets` : 사이킷런에 내장되어 있는 예제 데이터들

#### 전처리 및 특성 처리
- `sklearn.preprocessing` : 데이터의 정규화, 스케일링 등 전처리 및 가공 기능
- `sklearn.feature_selection` : 분석 수행과 관련된 특성 값들에 대한 처리 기능

#### 데이터 분리 및 검증
- `sklearn.model_selection` : 학습용/검증용 데이터 분리, 매개변수 조정 기능

#### 성능 평가
- `sklearn.metrics` : 분석 결과에 대한 성능 측정 및 평가 기능

#### 분석 기법 (알고리즘)
- `sklearn.linear_model` : 회귀 분석 (선형 회귀, 릿지, 라쏘, 로지스틱 회귀 등)
- `sklearn.svm` : 서포트 벡터 머신
- `sklearn.tree` : 의사 결정 나무
- `sklearn.ensemble` : 앙상블 기법 (랜덤 포레스트, 에이다 부스트 등)
- `sklearn.cluster` : 군집화 (K-means, DBSCAN 등)

In [2]:
import sklearn.datasets as d
iris = d.load_iris()

In [3]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
print("속성 : ", iris.feature_names)
print("레이블 : ",iris.target_names)
print("레코드 수 : ",len(iris.data))

속성 :  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
레이블 :  ['setosa' 'versicolor' 'virginica']
레코드 수 :  150


In [5]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [6]:
iris["feature_names"] # iris.feature_names 와 같음

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [7]:
iris['data']

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [8]:
iris["target_names"]

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [9]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 학습 데이터와 검증 데이터의 분리

- `model_selection`모듈에 있는 `train_test_split`함수를 이용하여 원본 데이터를 학습용과 검증용으로 분리
- 첫 번째 매개변수는 원본 데이터의 특성 집합
- 두 번째 매개변수는 원본 데이터의 레이블 집합
- 남은 매개변수들
    - test_size : 검증용 데이터의 크기를 결정한다. 기본값은 0.25(즉, 25%)
    - shuffle : 데이터를 섞어서 분리할 것인지의 여부를 결정, 기본값은 True
    - random_state : 분리할 때마다 동일한 집합으로 생성할 것인지 결정하는 정수 값
- 반환값은 항상 4개로
    - feature와 label 순으로
    - X_train, X_test, y_train, y_test

In [10]:
import sklearn.model_selection as ms
X_train, X_test, y_train, y_test = ms.train_test_split(iris.data,
                                                       iris.target, 
                                                       test_size = 0.3, 
                                                       random_state = 42)

In [11]:
print("학습용 데이터 수 : ",len(X_train)) # train : 70%
print("검증용 데이터 수 : ",len(X_test)) # test : 30% 

학습용 데이터 수 :  105
검증용 데이터 수 :  45


In [12]:
X_train

array([[5.5, 2.4, 3.7, 1. ],
       [6.3, 2.8, 5.1, 1.5],
       [6.4, 3.1, 5.5, 1.8],
       [6.6, 3. , 4.4, 1.4],
       [7.2, 3.6, 6.1, 2.5],
       [5.7, 2.9, 4.2, 1.3],
       [7.6, 3. , 6.6, 2.1],
       [5.6, 3. , 4.5, 1.5],
       [5.1, 3.5, 1.4, 0.2],
       [7.7, 2.8, 6.7, 2. ],
       [5.8, 2.7, 4.1, 1. ],
       [5.2, 3.4, 1.4, 0.2],
       [5. , 3.5, 1.3, 0.3],
       [5.1, 3.8, 1.9, 0.4],
       [5. , 2. , 3.5, 1. ],
       [6.3, 2.7, 4.9, 1.8],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [5.6, 2.7, 4.2, 1.3],
       [5.1, 3.4, 1.5, 0.2],
       [5.7, 3. , 4.2, 1.2],
       [7.7, 3.8, 6.7, 2.2],
       [4.6, 3.2, 1.4, 0.2],
       [6.2, 2.9, 4.3, 1.3],
       [5.7, 2.5, 5. , 2. ],
       [5.5, 4.2, 1.4, 0.2],
       [6. , 3. , 4.8, 1.8],
       [5.8, 2.7, 5.1, 1.9],
       [6. , 2.2, 4. , 1. ],
       [5.4, 3. , 4.5, 1.5],
       [6.2, 3.4, 5.4, 2.3],
       [5.5, 2.3, 4. , 1.3],
       [5.4, 3.9, 1.7, 0.4],
       [5. , 2

In [13]:
import pandas as pd
train_df = pd.DataFrame(X_train,
                  columns = iris["feature_names"], 
                  index = range(1,len(X_train)+1))
train_df['Class'] = y_train 
train_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
1,5.5,2.4,3.7,1.0,1
2,6.3,2.8,5.1,1.5,2
3,6.4,3.1,5.5,1.8,2
4,6.6,3.0,4.4,1.4,1
5,7.2,3.6,6.1,2.5,2


In [14]:
test_df = pd.DataFrame(X_train,
                  columns = iris["feature_names"], 
                  index = range(1,len(X_train)+1))
test_df['Class'] = y_train 
test_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
1,5.5,2.4,3.7,1.0,1
2,6.3,2.8,5.1,1.5,2
3,6.4,3.1,5.5,1.8,2
4,6.6,3.0,4.4,1.4,1
5,7.2,3.6,6.1,2.5,2


### 사이킷런의 분석 수행 절차
1. 분석을 수행하기 위한 추정자(Estimator) 객체를 생성
2. 생성된 객체에 대하여 **`fit 메소드(함수)를 호출`**하여 학습을 수행
3. 생성된 객체 또는 학습이 수행된 분석 결과에 대하여 **`predict 메소드(함수)를 호출`**하여 예측 결과를 도출
4. 생성된 객체 또는 학습이 수행된 분석 결과에 대하여 적합한 성능 평가 지표를 도출

---

## 스탯츠모델 (Statsmodels)
- 다양한 통계 검정 및 추정, 회귀 분석, 시계열 분석 기능을 제공하는 통계 분석 라이브러리
- [스탯츠모델 웹사이트](https://www.statsmodels.org) 에서 관련 정보 및 문서, 예제 등을 확인
- 아나콘다를 설치하면 자동적으로 스탯츠모델이 설치되므로 별도의 추가 설치 또는 설정 없이 사용, 아래와 같은 명령어로 별도 설치 가능
```
pip install statsmodels
conda install statsmodels
```
- 아래와 같은 명령어로 임포트 가능하다
```python
import statsmodels
```
- `기존의 R Studio에서 제공하는 것과 동일`한 명령어들을 이용하여 통계 분석과 시계열 분석, 검정 통계량 계산 등을 수행
- 따라서, 회귀 분석(OLS) 또는 주성분 추출(PCA) 등의 기법은 상황에 따라 사이킷런 외에 스탯츠모델을 이용하여 수행 하는 것도 무방
- 분석 기법들은 서브 모듈 api를 이용
```python
import statsmodels.api as sm
```