# Machine Learning Package

---

# 1. scikit-learn

### 1.1 내장된 예제 데이터 세트

- 회귀나 분류 연습용 예제 데이터

|API 명|설명|
|:---|:---|
|datasets.load_breast_cancer() | 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트|
|datasets.load_diabetes() | 회귀 용도이며, 당뇨 데이터 세트|
|datasets.load_digits() | 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트|
|datasets.load_iris() | 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트|

- 분류와 클러스터링을 위한 표본 데이터 생성기

|API 명|설명|
|:---|:---|
|datasets.make_classifications() | 분류를 위한 데이터 세트를 생성|
|특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성|
|datasets.make_blobs() | 클러스터링을 위한 데이터 세트를 무작위로 생성|
|군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성|
|datasets.make_circles() | 원 모양의 클러스터 데이터를 생성|
|군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성|
|datasets.moons() | 초승달 모양 클러스터 두 개 형상의 데이터를 생성|
|군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 생성|

### 1.2 예제 데이터 세트 불러오기

In [None]:
# Visual Python: Data Analysis > Import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

#### 1.2.1 회귀 예제 데이터 - diabetes

In [None]:
# Visual Python: Machine Learning > Data Sets
from sklearn.datasets import load_diabetes

ldata = load_diabetes()
# Create DataFrame
df_ldata = pd.DataFrame(data=ldata.data, columns=ldata.feature_names)
df_ldata['target'] = ldata.target
df_ldata

#### 1.2.2 분류 예제 데이터 - breast_cancer

In [None]:
# Visual Python: Machine Learning > Data Sets
from sklearn.datasets import load_breast_cancer

ldata = load_breast_cancer()
# Create DataFrame
df_ldata = pd.DataFrame(data=ldata.data, columns=ldata.feature_names)
df_ldata['target'] = ldata.target
df_ldata

#### 1.2.3 군집 예제 데이터 생성 - make_blobs()

In [None]:
# Visual Python: Machine Learning > Data Sets
from sklearn.datasets import make_blobs

_X, _y = make_blobs(n_samples=200, n_features=2)
# Create DataFrame
_feature_names = ['X{}'.format(i+1) for i in range(len(_X[0]))]
df_blobs = pd.DataFrame(data=_X, columns=_feature_names)
df_blobs['target'] = _y
df_blobs

In [None]:
# Visual Python: Visualization > Seaborn
sns.scatterplot(data=df_blobs, x='X1', y='X2', hue='target')
plt.show()

# 2. Machine Learning Application

### 2.1 머신러닝 프로세스
1. **데이터 세트 분리:** 데이터를 학습 데이터와 테스트 데이터로 분리
2. **모델 학습:** 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습
3. **결과 예측:** 학습된 ML 모델을 이용해 테스트 데이터의 분류(붓꽃 종류)를 예측
4. **평가:** 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능 평가

### 2.2 붓꽃 분류
- 지도학습
- 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이 값만 보고 붓꽃의 종류를 분류하는 문제
- 붓 꽃의 종류(품종): setosa, versicolor, virginica

#### 2.2.1 데이터 로딩

In [None]:
# Visual Python: Machine Learning > Data Sets
from sklearn.datasets import load_iris

iris = load_iris()
# Create DataFrame
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris['target'] = iris.target
df_iris

#### 2.2.2 데이터 분할: 학습 데이터 + 테스트 데이터

In [None]:
# Visual Python: Machine Learning > Data Split
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_iris[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']], df_iris['target'])

#### 2.2.3 모델 생성

In [None]:
# Visual Python: Machine Learning > Classifier
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()

#### 2.2.4 모델 학습

In [None]:
# Visual Python: Machine Learning > Fit/Predict
model.fit(X_train, y_train)

#### 2.2.5 결과 예측

In [None]:
# Visual Python: Machine Learning > Fit/Predict
pred = model.predict(X_test)
pred

#### 2.2.6 모델  평가

In [None]:
# Visual Python: Machine Learning > Evaluation
from sklearn import metrics

In [None]:
# Visual Python: Machine Learning > Evaluation
from IPython.display import display, Markdown

In [None]:
# Visual Python: Machine Learning > Evaluation
# Confusion Matrix
display(Markdown('### Confusion Matrix'))
display(pd.crosstab(y_test, pred, margins=True))

In [None]:
# Visual Python: Machine Learning > Evaluation
# Classification report
print(metrics.classification_report(y_test, pred))

# 3. Cross Validation(교차 검증)

### 3.1 cross_val_score

In [None]:
# Visual Python: Machine Learning > Model Info
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X_train, y_train)
scores

---

In [None]:
# End of file