<a href="https://colab.research.google.com/github/1st-award/andong_2021_2_1/blob/main/Python/%ED%95%84%EA%B8%B0%20%EC%82%AC%EB%B3%B8/MachineLearning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 머신러닝(Machine learning)

- **머신러닝(Machine learning)**: 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발
- **기계 학습에서의 일반화**: 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력

## 머신러닝 알고리즘의 종류



### 지도학습(Supervised Learning)

**정답을 알려주며 학습시키는 것**<br>
input data의 정답 label을 함께 제공하며 기계를 학습시킴
- 고양이 사진(input data)제시 - 고양이라는 정답 레이블도 함께 제공
- 강아지 사진(input data)제시 - 강아지라는 정답 레이블도 함께 제공

**지도학습의 대표적 종류**
- SVM(Support Vector Machine)
- 결정트리(DecisionTreeClassifier)
- K-근접 이웃(K-Nearest Neighbor, KNN)
- 로지스틱 회귀(LogisticRegression)
- RandomForestClassifier

### 비지도학습(Non-supervised Learning)

**정답을 따로 알려주지 않고 비슷한 데이터들을 군집화 하는 것**<br>
(예) 사람, 닭, 강아지, 기린 사진을 이용하여 비지도학습 실시
- 다리가 2개이며 세로로 길쭉한 사람을 한 그룹으로 분류
- 얇고 짧은 다리가 2개이며 몸통이 동그랗고 머리가 작은 닭을 한 그룹으로 분류
- 다리가 4개인 강아지를 한 그룹으로 분류
- 다리가 4개이며 목이 긴 기린을 또 다른 그룹으로 분류

### 강화학습(Reinforcement Learning)

**상과 벌이라는 보상(reward)을 주며 상을 최대화하고 벌을 최소화 하도록 강화 학습하는 방식**<br>
정확한 정답은 없지만, 반복적인 행동들을 통하여 칭찬과 벌을 받음으로써 보상의 가중치를 최대화 하는 것이 목표

## 머신러닝으로 할 수 있는 일
- 이미지 분류(MRI검사, 사진, 위성 이미지)
- 대량의 텍스트 문서나 이메일에서 키워드 찾기
- 사기일 가능성이 높은 거래 행위 긴고
- 고객 행동을 기준으로 제품 추천 맞춤설정
- 음성 명령에 정확하게 반응하는 소프트웨어 개발
- 날씨 패턴 또는 다른 기후 조건 예측
- 언어를 텍스트 또는 음성으로 변환

## 머신러닝을 이용한 불꽃 품종 분류

### 데이터 셋 가져오기

#### 사이킷런(Scikit-learn)라이브러리

- 파이썬의 대표적인 머신러닝 라이브러리 중 하나
- 분류(classification), 회귀(regression), 군집화(clustering), 의사결정트리(decision tree)등의 머신러닝 알고리즘을 적용할 수 있는 함수 제공
- 빌트 인 데이터 셋 제공

  - 붓꽃(Iris) 데이터 셋: sklearn.datasets.loads_iris
  - 손으로 쓴 숫자(0~9) 이미지 데이터 셋: sklearn.datasets.load_digits
  - 당뇨병 진행도 데이터 셋: sklearn.datasets.loads_breast_cancer
  - 보스턴 집값 데이터 셋: sklearn.datasets.load_boston
  - 와인 데이터 셋: sklearn.datasets.load_wine

### 붓꽃 데이터 셋 가져오기

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

iris_dataset = load_iris() # 붓꽃 데이터 읽어오기
iris_dataset.keys()

### 붓꽃 품종 확인

In [None]:
iris_dataset['target_names']

### 각 품종을 분류하는 특성 확인

In [None]:
iris_dataset['feature_names']

### 데이터 셋에 대한 간략한 설명 확인

In [None]:
print(iris_dataset['DESCR'][:193] + '\n')

### 데이터 확인하기

**data**: 꽃잎의 길이와 폭, 꽃받침의 길이와 폭을 수치로 가지고 있는 numpy 배열

In [None]:
# 데이터의 타입과 크기(모양) 확인
print('Type of data : {}'.format(iris_dataset['data'].dtype))
print('Size of data : {}'.format(iris_dataset['data'].shape))

**target**: 샘플 붓꽃의 품종 이름을 가지고 있는 numpy 배열

In [None]:
print('Type of target : {}'.format(iris_dataset['target'].dtype))
print('Size of target : {}'.format(iris_dataset['target'].shape))

## 붓꽃 품종 분류를 위한 학습과 테스트

### 훈련 데이터와 테스트 데이터 나누기

- 150개의 붓꽃 데이터를 훈련 데이터(75%)와 테스트 데이터(25%)로 나눈다.
- 2차원 배열 형태인 data를 X, 1차원 배열 형태인 target을 y로 표현한다. y = f(X)
- 옵션 test_size: 기본값: 0.25, 예: test_size=0.3
- 옵션 random_state: 정수를 입력하면 숫자를 random하게 생성할 떄 사용되는 seed 숫자로 사용
- 옵션 shuffle: bool값, 데이터를 분리하기 전에 섞을 것인지를 지정, 기본값은 True

**train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)**
(1) Parameter

- arrays: 분할시킬 데이터를 입력(Python list, Numpy array, Pandas dataframe 등..)
- test_size: 테스트 데이터셋의 비율(float)이나 갯수(int) (default = 0.25)
- train_size: 학습 데이터의 비율(float)이나 갯수(int)(default = test_size의 나머지)
- random_state: 데이터 분할시 셔플이 이루어지는데 이를 위한 시드값(int나 RandomState로 입력)
- shuffle: 셔플여부설정(default=True)
- stratify: 지정한 Data의 비율을 유지한다. 예를 들어, Label Set인 Y가 25%, 75%로 유지한 채 분할된다.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], test_size = 0.2, random_state=0)

print("X_train의 크기와 모양: {}".format(X_train.shape))
print("y_train의 크기와 모양: {}".format(y_train.shape))
print("X_test의 크기와 모양: {}".format(X_test.shape))
print("y_test의 크기와 모양: {}".format(y_test.shape))
# 75와 25로 나눠질 것이다

### 데이터의 이상 유무 살펴보기

- 머신러닝이 없어도 풀 수 있는 문제는 아닌지
- 필요한 정보가 누락되지 않았는지
- 비정상적인 값이나 특이값은 없는지

In [None]:
import matplotlib.pyplot as plt
import seaborn as sb

### X_train 데이터를 사용하여 데이터프레임 만들기

In [None]:
# 칼럼의 이름: iris_}dataset, feature_names에 있는 문자열을 이용
dfIris = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
dfIris['kind'] = y_train
dfIris

In [None]:
sb.pairplot(dfIris, vars=['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'],
            hue = 'kind', markers=["o", "s", "D"], palette="Set2", height=3)
plt.show()

### KNN(K-근접 이웃) 알고리즘

- 유유상종(類類相從): 무리 유(類), 무리 유(類), 서로 상(相), 좇을 종(從)
- 거리(유클리디안 거리)기반 분류 분석 모델로 지도 학습(Supervised Learning)의 한 종류
- 새로운 데이터가 등장하면 거리가 가까운 k개의 다른 데이터의 레이블을 확인하여, 가장 많은 레이블과 같은 종류로 해당 데이터의 종류를 분류
- 영상에서 글자 인식, 얼굴 인식, 개인별 선호 예측, 상품 추천, 유전데이터의 패턴 인식, 암 진단 등 많은 분야에 응용

k는 훈련데이터에서 새로운 데이터 포인트에 가장 가까운 'k'개의 이웃을 찾는다는 의미이며 동점 발생을 피하기 위하여 주로 홀수로 저장한다.

In [None]:
from sklearn.neighbors import KNeighborsClassifier as knc
model = knc(n_neighbors = 3)
model.fit(X_train, y_train)
knc(algorithm = 'auto', leaf_size=30, metric='minkowski', metric_params=None, n_jobs=1,
    n_neighbors=3, p=2, weights='uniform')


In [None]:
X_new = np.array([[5, 2.9, 1, 0.2]])
prediction = model.predict(X_new)

print("예측: {}".format(prediction))
print("예측한 타깃의 이름 {}".format(iris_dataset['target_names'][prediction]))

### 테스트 셋 확인하기

In [None]:
dfIrisTestSet = pd.DataFrame(X_test, columns=iris_dataset.feature_names)
dfIrisTestSet

### 테스트 셋 테스트 결과 확인하기

In [None]:
y_pred = model.predict(X_test)

print("테스트 세트에 대한 예측값: {}".format(y_pred))
print("테스트 세트의 정확도: {:.2f}".format(model.score(X_test, y_test)))

테스트 세트에 대한 예측값: [2 1 0 2 0 2 0 1 1 1 2 1 1 1 2 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0]
테스트 세트의 정확도: 0.97


### 정답 확인하기

In [None]:
y_test

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0])

### 모델의 정확도(Accuracy)평가하기

In [None]:
print(model.score(X_test, y_test))

## 종합 코드

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier as knc

iris_dataset = load_iris() # 붓꽃 데이터 읽어오기
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], test_size = 0.2, random_state=19)

# 훈련 시작
model = knc(n_neighbors = 11)
model.fit(X_train, y_train)
knc(algorithm = 'auto', leaf_size=30, metric='minkowski', metric_params=None, n_jobs=1,
    n_neighbors=3, p=2, weights='uniform')

y_pred = model.predict(X_test)

print("테스트 세트에 대한 예측값: {}".format(y_pred))
print("테스트 세트의 실제 정답: {}".format(y_test))
print(model.score(X_test, y_test))