In [None]:
from preamble import *
%matplotlib inline

## 소개

### 왜 머신 러닝인가?

#### 머신 러닝으로 풀 수 있는 문제

#### 문제와 데이터를 이해하기

### 왜 파이썬인가?

### scikit-learn
#### Scikit-learn 설치

### 필수 라이브러리와 도구들
#### 주피터 노트북
#### NumPy

In [None]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
print("x:\n{}".format(x))

#### SciPy

In [None]:
from scipy import sparse

# 대각선 원소는 1이고 나머지는 0인 2차원 NumPy 배열을 만듭니다.
eye = np.eye(4)
print("NumPy 배열:\n{}".format(eye))

In [None]:
# NumPy 배열을 CSR 포맷의 SciPy 희박 행렬로 변환합니다.
# 0이 아닌 원소만 저장됩니다.
sparse_matrix = sparse.csr_matrix(eye)
print("\nSciPy의 CSR 행렬:\n{}".format(sparse_matrix))

In [None]:
data = np.ones(4)
row_indices = np.arange(4)
col_indices = np.arange(4)
eye_coo = sparse.coo_matrix((data, (row_indices, col_indices)))
print("COO 표현:\n{}".format(eye_coo))

#### matplotlib

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# -10에서 10까지 100개의 간격으로 나뉘어진 배열을 생성합니다.
x = np.linspace(-10, 10, 100)
# 사인 함수를 사용하여 y 배열을 생성합니다.
y = np.sin(x)
# plot 함수는 한 배열의 값을 다른 배열에 대응해서 선 그래프를 그립니다.
plt.plot(x, y, marker="x")

#### pandas

In [None]:
import pandas as pd

# 회원 정보가 들어간 간단한 데이터셋을 생성합니다.
data = {'Name': ["John", "Anna", "Peter", "Linda"],
        'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24, 13, 53, 33]
       }

data_pandas = pd.DataFrame(data)
# IPython.display는 주피터 노트북에서 Dataframe을 미려하게 출력해줍니다.
display(data_pandas)

In [None]:
# Age 열의 값이 30 이상인 모든 행을 선택합니다.
display(data_pandas[data_pandas.Age > 30])

#### mglearn

### 파이썬 2 vs. 파이썬 3

### 이 책에서 사용하는 소프트웨어 버전

In [None]:
import sys
print("Python 버전: {}".format(sys.version))

import pandas as pd
print("pandas 버전: {}".format(pd.__version__))

import matplotlib
print("matplotlib 버전: {}".format(matplotlib.__version__))

import numpy as np
print("NumPy 버전: {}".format(np.__version__))

import scipy as sp
print("SciPy 버전: {}".format(sp.__version__))

import IPython
print("IPython 버전: {}".format(IPython.__version__))

import sklearn
print("scikit-learn 버전: {}".format(sklearn.__version__))

### 첫 번째 애플리케이션: 붓꽃의 품종 분류
#### 데이터 적재

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

In [None]:
print("iris_dataset의 키: {}".format(iris_dataset.keys()))

In [None]:
print(iris_dataset['DESCR'][:193] + "\n...")

In [None]:
print("타깃의 이름: {}".format(iris_dataset['target_names']))

In [None]:
print("특성의 이름: {}".format(iris_dataset['feature_names']))

In [None]:
print("data의 타입: {}".format(type(iris_dataset['data'])))

In [None]:
print("data의 크기: {}".format(iris_dataset['data'].shape))

In [None]:
print("data의 처음 다섯 행:\n{}".format(iris_dataset['data'][:5]))

In [None]:
print("target의 타입: {}".format(type(iris_dataset['target'])))

In [None]:
print("target의 크기: {}".format(iris_dataset['target'].shape))

In [None]:
print("타깃:\n{}".format(iris_dataset['target']))

#### 성과 측정: 훈련 데이터와 테스트 데이터

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

In [None]:
print("X_train 크기: {}".format(X_train.shape))
print("y_train 크기: {}".format(y_train.shape))

In [None]:
print("X_test 크기: {}".format(X_test.shape))
print("y_test 크기: {}".format(y_test.shape))

#### 가장 먼저 할 일: 데이터 살펴보기

In [None]:
import mglearn

In [None]:
# X_train 데이터를 사용해서 데이터프레임을 만듭니다.
# 열의 이름은 iris_dataset.feature_names에 있는 문자열을 사용합니다.
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# 데이터프레임을 사용해 y_train에 따라 색으로 구분된 산점도 행렬을 만듭니다.
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o',
                           hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3)

#### 첫 번째 머신 러닝 모델: k-최근접 이웃 알고리즘

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

In [None]:
KNeighborsClassifier?

In [None]:
knn.fit(X_train, y_train)

#### 예측하기

In [None]:
X_new = np.array([[5, 2.9, 1, 0.2]])
print("X_new.shape: {}".format(X_new.shape))

In [None]:
prediction = knn.predict(X_new)
print("예측: {}".format(prediction))
print("예측한 타깃의 이름: {}".format(
       iris_dataset['target_names'][prediction]))

#### 모델 평가하기

In [None]:
y_pred = knn.predict(X_test)
print("테스트 세트에 대한 예측값:\n {}".format(y_pred))

In [None]:
print("테스트 세트의 정확도: {:.2f}".format(np.mean(y_pred == y_test)))

In [None]:
print("테스트 세트의 정확도: {:.2f}".format(knn.score(X_test, y_test)))

### 요약

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)

print("테스트 세트의 정확도: {:.2f}".format(knn.score(X_test, y_test)))