## Python으로 머신러닝 준비 - 필수 라이브러리

## 01. pip install

### 설치법
<pre>
가. anaconda prompt 실행 후,
나. pip install  [패키지명1]  [패키지명2]
다. import [패키지명] 으로 불러오기
</pre>

## 02. Numpy
<pre>
설명 : 파이썬으로 과학계산을 하려면 꼭 필요한 패키지
가. 다차원 배열을 위한 기능과 선형대수
나. 다양한 고수준 수학 함수와 유사 난수 생성기 포함한다.
</pre>

In [2]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
print("x:\n{}".format(x))

x:
[[1 2 3]
 [4 5 6]]


## 03. SciPy
<pre>
SciPy(https://www.scipy.org/scipylib) 과학 계산용 함수를 모아놓은 파이썬 패키지.

scikit-learn은 알고리즘을 구현할 때, SciPy의 여러함수를 사용 가능하다.
</pre>

<img src="img/scipy01.png">

### scipy.linalg.det() : 정사각행렬의 행렬식을 계산한다.

In [3]:
from scipy import linalg 
arr = np.array( [[1,2],
                [3,4]])
linalg.det(arr)

-2.0

### scipy.linalg.inv()  : 정사각행렬의 역행렬을 계산한다.

In [4]:
arr = np.array([[1, 2],
                [3, 4]])
iarr = linalg.inv(arr)
iarr

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

## 04. Matplotlib
<pre>
Matplotlib(https://matplotlib.org)은 파이썬의 대표적인 과학 계산용 그래프 라이브러리이다.

선 그래프, 히스토그램, 산점도 등의 출판에 쓸 수 있는 고품질 그래프를 그려준다.
</pre>

In [5]:
%matplotlib inline # 브라우저에서 바로 이미지를 볼 수 있다.

import matplotlib.pyplot as plt

# -10에서 10까지 100개의 간격으로 나뉜 배열을 생성
x = np.linspace(-10, 10, 100)

# 사인(sin) 함수를 사용하여 y배열을 생성
y = np.sin(x)

# 플롯(plot) 함수는 한 배열의 값을 다른 배열에 대응해서 선 그래프를 그립니다.
plt.plot(x, y, marker="x")

UsageError: unrecognized arguments: # 브라우저에서 바로 이미지를 볼 수 있다.


## 05. pandas
<pre>
pandas(http://pandas.pydata.org/)는 데이터 처리와 분석을 위한 파이썬 라이브러리입니다.

R의 data.frame을 본떠서 설계한 DataFrame의 데이터 구조를 기반으로 만들어졌습니다.\
pandas는 이 테이블을 수정하고 조작하는 다양한 기능을 제공합니다.
</pre>

In [6]:
import pandas as pd

data = {'Name' : ["John", "Anna", "Peter", "Linda"],
        'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24,13,53,33]
       }

data_pandas = pd.DataFrame(data)
data_pandas

Unnamed: 0,Age,Location,Name
0,24,New York,John
1,13,Paris,Anna
2,53,Berlin,Peter
3,33,London,Linda


## 06. 소프트웨어 버전 확인
<pre>
버전을 출력하는 코드, 그리고 이 책에서 예제를 사용할 버전 확인이 가능함.
</pre>

In [7]:
import sys
print("Python 버전 : {}".format(sys.version))

import pandas as pd
print("pandas 버전 : {}".format(pd.__version__))

import matplotlib
print("matplotlib 버전 : {}".format(matplotlib.__version__))

import numpy as np
print("NumPy 버전 : {}".format(np.__version__))

import scipy as sp
print("SciPy 버전 : {}".format(sp.__version__))

import sklearn
print("scikit-learn 버전 : {}".format(sklearn.__version__))

## sklearn 0.18 버전에서는 model_selection 모듈이 추가됨.
## model_selection
## 배열 또는 행렬을 임의의 열차 및 테스트 하위 집합으로 분할합니다.

Python 버전 : 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)]
pandas 버전 : 0.20.1
matplotlib 버전 : 2.0.2
NumPy 버전 : 1.12.1
SciPy 버전 : 0.19.0
scikit-learn 버전 : 0.18.1


## iris 데이터 탐색 및 분석

## 01. 데이터 가져오기

In [8]:
from sklearn.datasets import load_iris
iris_dataset= load_iris()

### iris의 객체는 파이썬의 딕셔너리와 비슷한 Bunch 클래스의 객체이다.

In [9]:
print("iris_dataset의 키: \n{}".format(iris_dataset.keys()))

iris_dataset의 키: 
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


In [10]:
print("target의 이름 : {}".format(iris_dataset['target_names']))

target의 이름 : ['setosa' 'versicolor' 'virginica']


In [11]:
print("feature_names : {}".format(iris_dataset['feature_names']))

feature_names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [12]:
print("data : {}".format(iris_dataset['data']))

data : [[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.4  3.7  1.5  0.2]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.1]
 [ 4.3  3.   1.1  0.1]
 [ 5.8  4.   1.2  0.2]
 [ 5.7  4.4  1.5  0.4]
 [ 5.4  3.9  1.3  0.4]
 [ 5.1  3.5  1.4  0.3]
 [ 5.7  3.8  1.7  0.3]
 [ 5.1  3.8  1.5  0.3]
 [ 5.4  3.4  1.7  0.2]
 [ 5.1  3.7  1.5  0.4]
 [ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 4.8  3.4  1.9  0.2]
 [ 5.   3.   1.6  0.2]
 [ 5.   3.4  1.6  0.4]
 [ 5.2  3.5  1.5  0.2]
 [ 5.2  3.4  1.4  0.2]
 [ 4.7  3.2  1.6  0.2]
 [ 4.8  3.1  1.6  0.2]
 [ 5.4  3.4  1.5  0.4]
 [ 5.2  4.1  1.5  0.1]
 [ 5.5  4.2  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.   3.2  1.2  0.2]
 [ 5.5  3.5  1.3  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 4.4  3.   1.3  0.2]
 [ 5.1  3.4  1.5  0.2]
 [ 5.   3.5  1.3  0.3]
 [ 4.5  2.3  1.3  0.3]
 [ 4.4  3.2  1.3  0.2]
 [ 5

In [13]:
print("data : {}".format(iris_dataset['target']))

data : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## 02. 훈련 데이터와 테스트 데이터

<pre>
train_test_split  : 랜덤하게 데이터 셋을 나눠 줍니다.
</pre>

In [14]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
          iris_dataset['data'], iris_dataset['target'], 
          test_size =0.3,   # test 데이터 셋의 비율
          train_size=0.7,   # train 데이터 셋의 비율 
          random_state=0    # 난수 생성 프로그램에 사용되는 시드
         )

In [15]:
print("X_train 크기 : {}".format(X_train.shape))
print("y_train 크기 : {}".format(y_train.shape))

X_train 크기 : (105, 4)
y_train 크기 : (105,)


In [16]:
print("X_test 크기 : {}".format(X_test.shape))
print("y_test 크기 : {}".format(y_test.shape))

X_test 크기 : (45, 4)
y_test 크기 : (45,)


## 03. 데이터 살펴보기

In [17]:
iris_dataset.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [18]:
!pip install mglearn
import mglearn



You are using pip version 9.0.1, however version 10.0.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [19]:
# X_train 데이터를 사용해서 데이터 프레임을 만듭니다.
# 열의 이름은 iris_dataset.feature_names에 있는 문자열을 사용 
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)

# 산점도 행렬 만들기
pd.plotting.scatter_matrix(iris_dataframe, 
                           c=y_train, 
                           figsize=(15,15), 
                           marker='o',
                           hist_kwds={'bins' : 20},
                           s=60,
                           alpha=.8,
                           cmap=mglearn.cm3)

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD1F7CF8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD246128>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD3076A0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD2A4320>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD3CE0B8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD3CE0F0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD49DEB8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD503828>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD53EC18>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD5D0198>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD5E14A8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001C6CD694F98>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x00

## 04. k-최근접 이웃 알고리즘

In [20]:
# sklearn.neighbors 모듈 아래 KNeighborsClassifier 클래스로 구현되어 있음.
from sklearn.neighbors import KNeighborsClassifier

# 모델을 사용하기 위한 클래스 객체 만들기 
knn = KNeighborsClassifier(n_neighbors=1)

In [21]:
# 훈련 데이터셋으로부터 모델을 만든다. (knn 객체의 fit 메서드 이용)
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

<pre>
n_neighbors  :  k의 개수
metric       : 사용되는 거리 기준. 기본 : minkowski
p = 1,2      : 1(manhattan_distance), 2(euclidean_distance)
weights      : 예측에 사용된 가중 함수. (uniform : 균일한 가중치)
n_jobs       : 코어 사용수
</pre>

### 예측해 보기

In [22]:
X_new = np.array([[5,2.9,1,0.2]])
print(X_new.shape)

(1, 4)


In [23]:
prediction = knn.predict(X_new)
print("예측: {}".format(prediction))
print("예측한 타깃의 이름: {}".format( 
          iris_dataset['target_names'][prediction]))

예측: [0]
예측한 타깃의 이름: ['setosa']


### 모델 평가하기 

In [24]:
y_pred = knn.predict(X_test)
print("테스트 세트에 대한 예측값 : \n {}".format(y_pred))

테스트 세트에 대한 예측값 : 
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [25]:
print("테스트 세트의 정확도 : {:.2f}".format(np.mean(y_pred==y_test)))

테스트 세트의 정확도 : 0.98


In [26]:
print("테스트 세트의 정확도 : {:.2f}".format(knn.score(X_test, y_test)))

테스트 세트의 정확도 : 0.98


In [27]:
from sklearn.metrics import classification_report, confusion_matrix
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[16  0  0]
 [ 0 17  1]
 [ 0  0 11]]
             precision    recall  f1-score   support

          0       1.00      1.00      1.00        16
          1       1.00      0.94      0.97        18
          2       0.92      1.00      0.96        11

avg / total       0.98      0.98      0.98        45

