In [None]:
!pip install mglearn
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn


# Chapter 1





---




- 지도학습
    - 이미 알려진 사례를 바탕으로 일반화된 모델을 만들어 의사 결정 프로세스를 자동화하는 것.
    - 사용자는 알고리즘에 입력과 기대되는 출력을 제공하고 알고리즘은 주어진 입력에서 원한느 출력을 만드는 방법을 찾음, 이렇게 학습된 알고리즘은 사람의 도움 없이도 새로운 입력이 주어지면 적절한 출력을 만들 수 있음.
    - 분석하기에 좋고 성능을 측정하기도 쉬움.
- 비지도 학습
    - 알고리즘에 입력은 주어지지만 출력은 제공되지 않음.
    - 주어진 데이터셋의 숨겨진 패턴이나 관계를 발견하는 데 초점을 맞춤.
- 지도 학습과 비지도 학습 모두 컴퓨터가 인식할 수 있는 형태로 입력 데이터를 준비하는 것이 중요, 데이터를 엑셀 테이블처럼 생각하면 편한데 우리가 판별해야하는 데이터(개개의 이메일, 고객, 거래)는 행이고 데이터를 구성하는 각 속성(고객의 나이, 거래 가격, 지역)은 열로 생각하자.
- 머신러닝에서는 하나의 개체 혹은 행을 샘플 또는 데이터 포인트라고 부르고 각 샘플의 속성, 즉 열을 특성이라 함.

# Numpy
- 파이썬으로과학 계산을 할려면 꼭 필요한 패키지
- 다차원 배열을 위한 기능과 선형 대수 연산 그리고 푸리에 변환 같은 고수준 수학 함수와 유사 난수 생성기를 포함


In [None]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
print("x:\n", x)

#Scipy
: Scipy는 고성능 선형 대수, 함수 최적화, 신호 처리, 특수한 수학 함수와 통계 분포 등을 포함한 많은 기능을 제공

In [None]:
from scipy import sparse

#대각선 원소 = 1, 나머지는 0인 2차원 배열
eye = np.eye(4)
print("Numpy 배열:\n", eye)

In [None]:
# Numpy 배열을 CSR 포맷의 Scipy 희박 행렬로 변환
# 0이 아닌 원소만 저장
sparse_matrix = sparse.csr_matrix(eye)
print("\nScipy의 CSR 행렬:\n",sparse_matrix)

In [None]:
data = np.ones(4)
row_indices = np.arange(4)
col_indices = np.arange(4)
eye_coo = sparse.coo_matrix((data, (row_indices, col_indices)))
print("COO 표현:\n", eye_coo)

#Matplotlib
: 파이썬의 대표적인 과학 계산용 그래프 라이브러리


In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
# - 10 ~ 10까지 100개의 간격으로 나뉘어진 배열을 생성
x = np.linspace(-10, 10, 100)
# sin() 함수를 사용하여 y 배열을 생성
y = np.sin(x)
# plot 함수는 한 배열의 값을 다른 배열에 대응해서 선 그래프를 그림
plt.plot(x, y, marker="x")
plt.show()

#Pandas
: 데이터 처리와 분석을 위한 파이썬 라이브러리
<br>pandas의 Dataframe은 엑셀의 스프레드시트와 비슷한 테이블 형태
<br>pandas는 이 테이블을 수정하고 조작하는 다양한 기능을 제공함

In [None]:
import pandas as pd

#회원 정보가 들어간 간단한 데이터셋
data = {'Name' : ["John", "Anna", "Peter", "Linda"],
        'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24, 13, 53, 55]
        }

data_pandas = pd.DataFrame(data)
display(data_pandas)

In [None]:
display(data_pandas[data_pandas.Age > 30])

#붓꽃 예제, 데이터

- (ex)어떤 품종인지 구분해놓은 측정 데이터를 이용해 새로 채집한 붓꽃의 품종을 예측하는 머신러닝 모델 만들기
    - 붓꽃의 품종을 정확하게 분류한 데이터를 가지고 있으므로 이 문제는 지도학습
    - 몇 가지 선택사항 중 하나를 선택하는 문제이므로 **분류** 문제에 해당
    - 출력될 수 있는 값(붓꽃의 종류)들을 **클래스**라고 함
    - 데이터 포인트 하나(붓꽃 하나)에 대한 기대 출력은 꽃의 품종이 돼고 이런 특정 데이터 포인트에 대한 출력, 즉 품종을 **레이블**이라고 함

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

In [None]:
print("iris_dataset의 키:\n", iris_dataset.keys())

In [None]:
print(iris_dataset['DESCR'][:193] + "\n...")

In [None]:
print("타깃의 이름:", iris_dataset['target_names'])

In [None]:
print("data의 타입:", type(iris_dataset['data']))

In [None]:
print("data의 크기:", iris_dataset['data'].shape)

- 머신러닝에서 각 아이템은 샘플이라 하고 속성은 특성이라고 부름

In [None]:
print("data의 처음 다섯 행:\n", iris_dataset['data'][:5])

In [None]:
print("target의 타입:", type(iris_dataset['target']))

In [None]:
print("target의 크기:", iris_dataset['target'].shape)

In [None]:
print("타깃:\n", iris_dataset['target']) # 0은 setosa, 1은 versicolor, 2는 virginica

- 머신러닝을 만들 때 사용하는 **훈련 데이터** 혹은 **훈련 세트**
- 만든 머신러닝 모델이 얼마나 잘 작동하는지 측정하는 **테스트 데이터**,
 **테스트 세트**, **홀드아웃 세트**

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0
)

In [None]:
print("X_train 크기:", X_train.shape)
print("y_train 크기:", y_train.shape)

In [None]:
print("X_test 크기:", X_test.shape)
print("y_test 크기:", y_test.shape)

- 데이터 살펴보기
    - 머신러닝 모델을 만들기 전에 머신러닝 없이도 풀 수 있는 문제는 아닌지, 혹은 필요한 정보가 누락되지는 않았는지 데이터를 조사해보는 것이 좋음
    - 시각화는 데이터를 조사하는 아주 좋은 방법으로 **산점도**가 그중 하나
- 산점도란?
    - 데이터에서 한 특성을 x축에 놓고 다른 하나는 y축에 놓아 각 데이터 포인트를 하나의 점으로 나타내는 그래프
    - 컴퓨터 화면은 2차원이라 한 번에 2개의 특성만 그릴 수 있음.
    - 대신 모든 특성을 짝지어 만드는 **산점도 행렬** 을 사용가능


In [None]:
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15,15), marker ='o', hist_kwds={'bins' : 20}, s = 60, alpha = .8, cmap=mglearn.cm3)

#k-Nearset Neighbors, k-NN

- 이 모델은 단순히 훈련 데이터를 저장하여 만들어지고 새로운 데이터 포인트에 대한 예측이 필요하면 알고리즘은 새 데이터 포인트에서 가장 가까운 훈련 데이터 포인트를 찾음 그런 다음 찾은 훈련 데이터의 레이블을 새 데이터 포인트이 레이블로 지정

- k-nn에서 k는 가장 가까운 이웃 '하나'가 아니라 훈련 데이터에서 새로운 데이터 포인트에 가장 가까운 'k개'의 이웃을 찾는다는 뜻.

- 그런 다음 이 이웃들의 클래스 중 빈도가 가장 높은 클래스를 예측값으로 사용


In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

In [None]:
knn.fit(X_train, y_train)

In [None]:
X_new = np.array([[5, 2.9, 1, 0.2]])
print("X_new.shape:", X_new.shape)

In [None]:
prediction = knn.predict(X_new)
print("예측:", prediction)
print("예측한 타깃의 이름:",
      iris_dataset['target_names'][prediction])

In [None]:
y_pred = knn.predict(X_test)
print("테스트 세트에 대한 예측값:\n", y_pred)

In [None]:
print("테스트 세트의 정확도: {:.2f}".format(knn.score(X_test, y_test)))

# 총 정리
    - 분류 문제에서는 각 품종을 **클래스**라고 하며 개별 붓꽃의 품종은 **레이블**이라고 한다.
    - 데이터셋을 모델 구축에 사용할 **훈련세트**와 모델이 새로운 데이터에 얼마나 잘 적용될 수 있을지 평가하기 위한 **테스트 세트**로 나누었다.
    - k-최근접 이웃 분류 알고리즘은 새 데이터 포인트를 예측하기 위해 훈련 데이터에서 가장 가까운 이웃을 선택한다.
    

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state = 0)

knn = KNeighborsClassifier(n_neighbors = 1)
knn.fit(X_train, y_train)

print("테스트 세트의 정확도: {:.2f}".format(knn.score(X_test, y_test)))