기계학습 3가지 종류  
- supervisor(지도) : 정답이 있음  
- unsupervisor(비지도) : 정답이 없음
- reinforcement(강화) : 시행착오를 겪으면서 보상을 최대화함

데이터  
- 정형 : 관계형db  
- 비정형 : 텍스트 이미지 공문서 등    
- 반정형 : json xml 등 

기계학습에서 혼용하는 같은 의미의 용어  
column = feature = dimension - variable

데이터셋마다 사용되는 알고리즘이 다르다

### 사이킷런

파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 (딥러닝 전문 라이브러리 : 텐서플로, 케라스)

Anaconda를 설치하면 기본적으로 사이킷런이 설치되므로 import만 하면 됨

datasets : 분류, 회귀 알고리즘에 적용할 데이터 종류가 다름    
neighbors : 알고리즘 이름에 classifier, regressor 표시되어있음

사이킷런은 지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현해 fit()과 predict()만을 이용해 간단하게 학습과 예측 결과 반환  
사이킷런에서 분류 알고리즘 : Classifier  
사이킷런에서 회귀 알고리즘 : Regressor  

이 둘을 합쳐 Estimator 클래스라 부른다. 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해 Estimator 라 부른다.
당연히 이 Estimator 클래스는 fit()과 predict()를 내부에서 구현한다.

- Estimator  
      학습 : fit()  
      예측 : predict()

    - Classifier  
          분류 구현 클래스
          DecisionTreeClassifier  
          RandomForestClassifier  
          GradientBoostingClassifier  
          GaussianNB  
          SVC  
    - Regressor  
          회귀 구현 클래스
          LinearRegression  
          Ridge  
          Lasso  
          RandomForestRegressor  
          GradientBoostingRegressor

#### 사이킷런의 주요 모듈  

- 예제 데이터  
    - sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트  
- 피처 처리  
    - sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)

#### 프로세스

1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리  
2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습  
3. 예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측  
4. 평가 : 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능 평가

### 분류(classification) example을 통한 전체적인 흐름파악

분류는 대표적인 지도학습 중 하나이다. 지도학습은 학습을 위한 다양한 피쳐와 분류 결정값인 레이블(label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다.  

즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다.  
학습을 위해 주어진 데이터 셋을 학습(train)데이터 셋, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 셋을 테스트(test)데이터 셋으로 지칭한다.

사이킷런에서 제공하는 붓꽃 데이터 세트를 가져와 붓꽃의 품종을 분류  
붓꽃 데이터 세트로 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피쳐를 기반으로 꽃의 품종을 예측함

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [3]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다. 
iris = load_iris()

In [29]:
dir(iris)

['DESCR',
 'data',
 'feature_names',
 'filename',
 'frame',
 'target',
 'target_names']

In [19]:
# 실제 데이터 부분은 : 'data'
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [34]:
# column이 4개 = feature가 4개 = 4차원 = 변수가 4개
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

- 파이썬 기반의 머신러닝을 제공해주는 사이킷런에서 제공한 데이터(분류, 회귀)를  
- 데이터를 가지고 왔으면 EDA를 하고 데이터전처리를 위해 판다스 데이터프레임으로 만들어 사용한다.  
- 그래픽 처리를 위해 pandas, matplotlib, seaborn를 사용한다.  

변수지정을 따로 하게 된다면 관례상 행렬은 대문자, 벡터는 소문자로 표기한다  
X = iris.data  
y = iris.target

In [4]:
# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있음
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있음
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


#### 학습용 데이터, 테스트용 데이터 분리

train_test_split(피쳐 데이터, 레이블 데이터, 전체 데이터 중 테스트 데이터의 비율, 난수발생 값)  

호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트 데이터를 만듦

X: 피쳐  
y : 레이블

X_train : 학습용 피처 데이터 세트  
X_test  : 테스트용 피처 데이터 세트  
y_train : 학습용 레이블 데이터 세트  
y_test  : 테스트용 레이블 데이터 세트

In [5]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

머신러닝 분류 알고리즘 중 하나인 의사결정트리를 이용해 학습과 예측 수행

In [9]:
# DecisionTreeClassifier 객체 생성
# random_state지정하면 코드를 수행할 때마다 동일한 학습/예측 결과 출력
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행 
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

In [10]:
# 예측은 반드시 학습 데이터가 아닌 다른 데이터를 사용해야 함
# 일반적으로는 테스트 데이터 사용
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행. 

pred = dt_clf.predict(X_test)

예측 결과를 기반으로 의사결정트리 기반의 DecisionTreeClassifier의 예측 성능을 평가  
여러 머신러닝 모델 성능 평가 방법 중 여기서는 정확도를 측정  

정확도 : X_test로 예측한 결과가 실제 레이블 값 y_test와 얼마나 정확하게 맞는지를 평가하는 지표

In [11]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


#### No free lunch

성능이 좋으면 오래 걸리고, 속도가 빠르면 성능이 낮아지는 등 완벽한 알고리즘은 없다.

Algorithm
- Linear : 성능이 낮다.  
- Non Linear : 컴퓨팅 파워가 많이 필요하다

알고리즘을 통해서 원하는건 파라미터를 구하는것이다.  
파라미터는 직접 지정하는 것이 아님.

- 하이퍼파라미터(hyperparameter) : 학습을 통해서 얻을 수 없어서 직접 지정해야 하는 매개변수.

하이퍼파라미터 또한 알고리즘에 따라 다르다.

classifier  분류 알고리즘  
regressor   회귀 알고리즘

In [7]:
dt_clf = DecisionTreeClassifier()
dt_clf

DecisionTreeClassifier()

하이퍼파라미터 현황 확인

In [8]:
vars(dt_clf)

{'criterion': 'gini',
 'splitter': 'best',
 'max_depth': None,
 'min_samples_split': 2,
 'min_samples_leaf': 1,
 'min_weight_fraction_leaf': 0.0,
 'max_features': None,
 'max_leaf_nodes': None,
 'random_state': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'class_weight': None,
 'ccp_alpha': 0.0}

'학습'  

통계 : fit(적합)  
CS : train(학습)

X 대문자 -> 행렬, y 소문자 -> 벡터  
df.fit(X,y)