## 기계 학습 기법

## 개요
앞 단원에서 AI 프로세스의 다음 단계인 모델링에 사용할 수 있도록 데이터를 가져오고 처리하는 방법에 대해 알아보았습니다.

분류, 회귀 및 클러스터링과 같은 다양한 [기계 학습 작업](https://developers.google.com/machine-learning/problem-framing/cases)을 실행하는 데 사용할 수 있는 다양한 유형의 기계 학습 기술이 있습니다. 이 단원에서 우리는 예측, 클러스터 데이터 등을 만들기 위한 자체 모델을 만들 것입니다. 여기서 습득하게 될 기술은 추후 솔루션을 만드는 데 다시 사용됩니다!

## 기계 학습
머신 러닝은 컴퓨터가 데이터 변수 간의 패턴과 관계를 학습하는 능력을 말합니다. 이전의 예나 또는 현재 데이터 세트를 이용하여 학습을 통해 이를 수행할 수 있습니다. 기계 학습에 대해 자세한 내용을 알아보려면 이 [문서](https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c) 를 읽어 보세요. 워크시트에서 흥미로운 정보를 모두 기록하십시오.

이전에 살펴보았듯이 우리가 탐구하고자 하는 기계 학습 알고리즘에는 지도 학습과 비지도 학습의 두 가지 주요 유형이 있습니다. [둘의 차이점](https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d) 을 기억하고 있습니까?

<font color='pink'> 답변 : 샘플의 출력 값이 무엇인지에 대한 사전 지식, 즉 라벨링 유무 <font>

### 라이브러리 가져오기!
데이터 세트 작업을 돕기 위해 먼저 pandas 라이브러리를 가져와 보겠습니다.

# 1. 지도 학습 기법

In [180]:
# Import pandas here
import pandas as pd

동영상 공유 사이트 유튜브를 이용해 본 적이 있습니까? 유튜브는 여러분이 보고 싶어할 것 같은 동영상을 추천한다는 것을 알고 있나요? 나에게 추천한 동영상과 친구에게 추천한 동영상이 다르다는 것을 알고 있으셨나요? 어떻게 그렇게 할 수 있다고 생각하십니까?

유튜브의 추천 알고리즘은 지도 학습 기술로 알려진 것을 사용합니다. 유튜브는 여러분이 동영상에 '좋아요'를 표시할 때마다 그 영상의 이름, 장르, 길이, 업로더 등의 메타 정보를 기록합니다. 동영상을 많이 보고 '좋아요'를 표시할수록 더 많은 정보가 유튜브 시스템에 기록됩니다.

이 데이터 세트는 지도 학습 모델을 훈련하는 데 사용되며, 모델은 사용자가 좋아할 만한 동영상을 예측합니다. 시청한 동영상과 '좋아요'를 표시한 동영상을 분석하고 해당 동영상 정보의 유사점을 확인하면 됩니다. 이 경우 이전에 좋아했던 동영상 정보가 추천 모델이 학습할 특성 또는 데이터가 됩니다. 반면에 여러분이 가장 보고 싶어할 것 같은 동영상(여러분과 같은 동영상를 좋아하는 다른 사람들이 보는 동영상들)은 모델/기술의 라벨 또는 대상이 됩니다. 본질적으로 모델/기술은 특성과 라벨을 최대한 "일치" 시키려고 합니다.

지도 학습 기술에는 라벨링된 훈련 데이터가 필요합니다. 예를 들어, 유튜브 동영상에 좋아요를 누르거나, 평가하지 않거나, 싫어한다는 라벨이 지정될 수 있습니다. 유튜브의 추천 모델을 학습할 때 필요한 훈련 데이터의 라벨입니다. 훈련 데이터가 많을수록 더 정확한 모델을 만들 수 있습니다.

라벨이 적절해야 합니다. 예를 들어 공부한 시간이 주어졌을 때 학생의 시험 점수를 예측하려면 데이터에 각 학생의 시험 점수가 포함되어야 합니다. 이렇게 하면 기계 학습 알고리즘이 주어진 예로부터 학습할 수 있습니다.

지도 학습 기술의 또 다른 중요한 용어는 '특성'입니다. 특성은 대상 또는 라벨을 예측하는 데 사용할 수 있는 데이터를 나타냅니다. 시험 점수 예시에서는 시험 점수가 대상이며, 공부한 시간이 특성입니다. 시험 점수 예에서는 공부한 문제 수, 시험 전 수면 시간 등이 또 다른 특성이 될 수 있습니다.

특성 및 라벨/대상을 사용하여 알고리즘은 특성과 라벨/대상 간의 관계를 "학습"할 수 있습니다.

다음 기사와 동영상을 보고 아래 질문에 답해보세요. (지도 학습에 대하여 이해하십시오. 비지도 학습을 지금 이해하지 않으셔도 됩니다.)<br>
https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f <br> 
https://www.geeksforgeeks.org/supervised-unsupervised-learning/ <br>
www.youtube.com/watch?v=cfj6yaYE86U <br>

- 여러분이 이해한 지도 학습에 대해 설명해 보세요.
- 특성, 라벨/대상, 기계 학습과 같은 용어에 대하여 설명하고 예를 들어보세요.

지도 학습 기술은 데이터를 다른 그룹으로 분류하거나 변수 간의 관계를 예측하는 데 사용할 수 있습니다. 데이터가 속한 범주 또는 그룹을 분류하는 기술입니다. 예를 들어, 내일 비가 올지 여부를 예측하려면 비가 오거나 맑음과 같은 범주를 반환하는 알고리즘을 사용할 수 있습니다. 반면 회귀 분석에 사용되는 기술은 수치 데이터를 반환합니다. 예를 들어 내일 비의 양을 예측하려면 범주 대신 숫자 데이터를 반환해야 합니다.

분류와 회귀의 차이점에 대해 자세한 내용을 확인하려면 이 [문서](https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/) 와 이 [동영상](https://www.youtube.com/watch?v=f7YB73F0zDo) 을 보십시오. 기사와 영상을 보고 분류를 사용할 시나리오와 회귀를 사용할 시나리오를 생각해 보시고 아래 셀에 시나리오를 작성해 보세요.

<font color='pink'>
1. 분류(Classification)

이메일 스팸 필터링: 이메일이 스팸인지 아닌지를 분류합니다. 예를 들어, 스팸 이메일에는 특정 키워드나 패턴이 많이 포함되어 있습니다.

질병 진단: 환자의 의료 기록을 사용하여 질병이 있는지 여부를 분류합니다. 예를 들어, X-ray 또는 CT 스캔 이미지를 분석하여 암 진단을 합니다.

손글씨 숫자 인식: 손으로 쓴 숫자가 어떤 숫자인지를 분류합니다. 예를 들어, 손글씨로 숫자를 쓴 이미지를 입력으로 받고, 각 숫자에 해당하는 클래스로 분류합니다.

2.회귀(Regression)

부동산 가격 예측: 다양한 요인(위치, 크기, 시장 동향 등)을 고려하여 주택 또는 부동산의 가격을 예측합니다.

주가 예측: 과거의 주식 가격 데이터 및 기타 관련 데이터를 사용하여 미래의 주식 가격을 예측합니다.

기온 예측: 지난 몇 년간의 기상 데이터를 사용하여 향후 일주일 동안의 기온을 예측합니다. </font>

지도 학습이 무엇인지 이해했으면 이제 다양한 지도 학습 기법을 살펴보겠습니다!

# 1.1 K-최근접 이웃 알고리즘(K-Nearest Neighbours)

다음 그래프는 남성과 여성의 키와 몸무게 샘플입니다. 데이터가 어떻게 그룹화 되는지 확인해 보세요.남성은 여성에 비해 키가 크고 무거운 경향이 있으며, 눈에 띄는 집단이 있음을 알 수 있습니다.

녹색 포인트는 확인되지 않은 입력 데이터 입니다. 녹색 포인트를 남성 데이터라고 할 수 있나요, 아니면 여성 데이터라고 할 수 있나요? 그렇게 생각하는 이유는 무엇이며, 최종적으로 어떻게 결정하시겠습니까?

여러분은 녹색 포인트가 남성 데이터에 더 가깝다는 것을 알 수 있으며, 따라서 알려지지 않은 데이터가 남성을 나타낼 가능성이 더 크다고 할 수 있습니다. 이미 알려진 다른 데이터 포인트까지의 거리로 속한 그룹을 결정하는 이 방법을 K-최근접 이웃 알고리즘이라고 합니다.

KNN(K-Nearest Neighbors)은 분류 또는 회귀 문제에 사용할 수 있습니다. 그러나 주로 분류 문제에 사용됩니다. 이름에서 알 수 있듯이 이 알고리즘은 주변 지점이나 이웃에 의존하여 해당 클래스 또는 그룹을 결정합니다. 예를 들어, KNN을 사용하여 알 수 없는 포인트를 클래스 A, 클래스 B로 분류하려고 할 때 알 수 없는 포인트의 가까운 포인트들이 대부분 클래스 A에 속한 경우, 확인되지 않은 포인트는 어느 클래스에 속하였다고 생각하십니까?

클래스 A로 추측했다면 정답입니다. KNN은 대부분의 가장 가까운 포인트의 속성을 활용하여 미지의 포인트의 클래스를 분류하는 방법을 사용하기 때문입니다. 이것은 "유유상종"이라는 사자성어와 유사하게 비슷한 포인트 들이 서로 가까울 것이라고 예상하는 것입니다.

KNN에 대해 자세히 알아보려면 이 [동영상](https://www.youtube.com/watch?v=MDniRwXizWo) 을 보세요. KNN의 주요 장점과 단점은 무엇입니까? 다음 코딩 연습에서는 KNN을 사용할 것입니다. KNN은 사용하기 쉽고 유연한 알고리즘으로 여러 문제에 활용할 수 있습니다.

<font color = 'pink'>

장점:
간단하고 이해하기 쉽다: K-NN은 구현이 간단하고 이해하기 쉬우며, 초기 학습자들이 기계 학습에 익숙해지는 데 도움이 됩니다.

훈련 단계가 빠르다: K-NN은 학습 단계에서 단순히 데이터를 저장하는 것이므로, 훈련 시간이 거의 필요하지 않습니다. 모든 계산이 예측 시간에 수행됩니다.

비모수적 방법: K-NN은 모델에 대한 가정을 하지 않으며, 따라서 비모수적(non-parametric) 방법입니다. 이는 데이터 분포에 대한 가정이 없으므로 다양한 유형의 데이터에 적용할 수 있습니다.

샘플이 많거나 고차원 데이터에 잘 작동한다: 훈련 데이터가 많은 경우에도 잘 작동하며, 고차원 데이터에도 적용할 수 있습니다.

단점:

예측 시간이 느리다: 예측을 수행할 때마다 모든 훈련 데이터와의 거리를 계산해야 하므로, 데이터셋이 큰 경우에는 예측 시간이 느려질 수 있습니다.

거리 측정에 민감하다: K-NN은 거리 기반 알고리즘이므로, 입력 데이터의 스케일에 민감합니다. 또한, 특성의 중요도가 동등하게 취급될 수 있습니다.

데이터 불균형에 취약하다: 클래스 간의 데이터가 불균형하거나 클래스가 많은 경우에는 예측에 편향이 발생할 수 있습니다.

효율성이 낮다: 모든 훈련 데이터를 저장해야 하므로, 메모리 사용량이 많을 수 있습니다. 특히 데이터가 매우 큰 경우에는 문제가 될 수 있습니다.

요약하면, K-NN은 간단하고 직관적이지만, 예측 시간이 느리고 데이터의 스케일에 민감하며, 데이터 불균형에 취약하다는 단점이 있습니다. 그러나 샘플이 많거나 고차원 데이터에는 잘 작동하며, 특히 초기에는 이해하기 쉬운 모델로서 많이 사용됩니다.
</font>

KNN의 작동 방식을 이해한 후 가상 시나리오에 적용해 보겠습니다. 이 시나리오에서는 가격 및 메모리 양과 같은 특성을 이용하여 장치가 노트북인지 데스크탑인지 예측하려고 합니다. 이와 같이 모든 특성을 이용하여 데이터 포인트에 대한 산점도를 표시했습니다.

x축은 메모리 양(GB)을 나타내고 y축은 가격(USD)을 나타냅니다. 파란색 원은 데스크탑용 데이터 포인트이고 주황색 원은 노트북용 데이터 포인트입니다. 별은 알수 없는 포인트를 나타냅니다.

k=3 인(즉, 인접한 이웃 포인트 3개)인 KNN 알고리즘을 적용한다면, 알수 없는 포인트는 데스크탑으로 분류될까요? 아니면 노트북으로 분류 될까요? k=4 또는 k=5 인 경우 분류 결과가 바뀌나요? K=9인 경우는 어떻습니까?

In [181]:
#your answer here

k=9인 경우 알수 없는 포인트의 분류가 변경이 됩니다. 그래프를 보면 알 수 없는 포인트가 데스크탑이 아님을 알 수 있습니다. 그러나 KNN은 과반수 이상의 최근접 이웃의 클래스로 알수 없는 포인트를 분류하기 때문에, 잘못된 수의 k 값을 사용하면 KNN이 알수 없는 포인트를 잘못된 클래스로 분류할 수 있습니다. 따라서 KNN 알고리즘에서는 k(가장 가까운 이웃 수) 값을 파악하는 것이 항상 중요합니다. 모델을 조정하는 방법을 다음의 몇 가지 실습에서 알아보겠습니다! 지금은 KNN에서 k값이 왜 중요한 매개변수인지 이해하는 것으로 충분합니다.

## KNN 및 Iris Flower 데이터 세트를 사용한 꽃 분류

이제 Iris Flower 데이터 세트에 KNN 기법을 적용해 보겠습니다. 먼저 이전에 사용한 Iris Flower 데이터 세트를 pandas 데이터 프레임으로 읽어옵니다. 이전에 데이터 세트를 다운로드하지 않았다면 이 [링크](http://archive.ics.uci.edu/ml/machine-learning-databases/iris/) 에서 파일을 다운로드하십시오. 다운로드할 파일은 iris.data 파일입니다. 자세한 내용은 아래 사진(출처: https://www.researchgate.net/Figure/Trollius-ranunculoide-flower-with-measured-traits_fig6_272514310) 을 참조하세요.

아래 사진에서 꽃받침(sepal)과 꽃잎(petal)이 무엇을 의미하는지 설명할 수 있습니까?

<img src = "./resources/PetalSepal1.PNG">

이제 데이터 세트를 다운로드하고 다음과 같이 탐색을 시작하겠습니다!
1. 제공된 웹 사이트에서 데이터 세트 다운로드
2. csv 파일 열기
3. 데이터 세트를 확인하기 위해 처음 5개 행 출력
4. 열 이름 추가

In [182]:
#your code here
df= pd.read_csv('iris.data', header = None)
names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]

df.columns = names
df.head(5)
df.info

<bound method DataFrame.info of      sepal_length  sepal_width  petal_length  petal_width           class
0             5.1          3.5           1.4          0.2     Iris-setosa
1             4.9          3.0           1.4          0.2     Iris-setosa
2             4.7          3.2           1.3          0.2     Iris-setosa
3             4.6          3.1           1.5          0.2     Iris-setosa
4             5.0          3.6           1.4          0.2     Iris-setosa
..            ...          ...           ...          ...             ...
145           6.7          3.0           5.2          2.3  Iris-virginica
146           6.3          2.5           5.0          1.9  Iris-virginica
147           6.5          3.0           5.2          2.0  Iris-virginica
148           6.2          3.4           5.4          2.3  Iris-virginica
149           5.9          3.0           5.1          1.8  Iris-virginica

[150 rows x 5 columns]>

## KNN 알고리즘을 위한 데이터 설정

KNN을 사용하여 꽃 또는 클래스 유형을 대상 변수로 데이터 세트를 분류해 보겠습니다. 이를 위해 컴퓨터가 이해할 수 있도록 범주형 클래스를 숫자로 변환해야 합니다. 라벨 인코팅을 사용하여 그렇게 할 수 있습니다.

### 라벨 인코딩
라벨 인코딩은 각 클래스 범주에 번호를 할당하는 것을 의미합니다. 예를 들어, 날씨 예측의 경우 비와 맑음 두 가지 클래스가 있는 경우 비는 0으로, 맑음은 1로 라벨을 지정할 수 있습니다. 이러한 방식으로 범주를 숫자로 변환할 수 있습니다.

iris 데이터 세트에 라벨 인코딩을 어떻게 적용하시겠습니까?

Iris Flower 데이터 세트의 클래스(꽃 유형)를 숫자로 변환할 수 있습니다. 데이터 세트 내의 클래스는 무엇이 있습니까? 총 몇 개의 클래스가 있습니까?

In [183]:
#your answer here
print(df['class'].unique())
label_counts = len(df['class'].unique())
print('데이터셋 내 클래스(꽃 유형)의 갯수는', label_counts, '개 입니다')

['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']
데이터셋 내 클래스(꽃 유형)의 갯수는 3 개 입니다


이제 iris 데이터 세트에 클래스를 라벨 인코딩을 합니다. 'Iris-setosa'는 1, 'Iris-versicolor'는 2, 'Iris-virginica'는 3이 될 수 있습니다. 아래는 클래스 중 하나에 대해 라벨 인코딩한 인코딩한 코드입니다. 모든 클래스에 대해 라벨 인코딩을 진행하는 코드로 편집해보세요.

In [184]:
# 각 클래스의 데이터 포인트 수 출력
print(df['class'].value_counts())

# 다른 클래스에 대해 다른 숫자를 지정하는 딕셔너리
label_encode = {"class": {"Iris-setosa":1}}

# .replace를 사용하여 다른 클래스를 숫자로 변경
df.replace(label_encode,inplace=True)

# 각 클래스의 데이터 포인트 수를 출력하여 클래스가 숫자로 변경되었는지 확인

Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64


In [185]:
#모든 클래스에 적용 
# 각 클래스의 데이터 포인트 수 출력
print(df['class'].value_counts())

# 다른 클래스에 대해 다른 숫자를 지정하는 딕셔너리
label_encode = {"class": {"Iris-setosa":1 , "Iris-versicolor":2 , "Iris-virginica":3}}

# .replace를 사용하여 다른 클래스를 숫자로 변경
df.replace(label_encode,inplace=True)

1                  50
Iris-versicolor    50
Iris-virginica     50
Name: class, dtype: int64


<font color=blue>보너스: 범주를 숫자로 변환하는 또 다른 방법이 있습니다. 이 방법을 원-핫 인코딩이라고 합니다. 원-핫 인코딩은 범주를 이진(0 또는 1) 범주로 변경합니다. 예를 들어 카테고리로 비가 오거나 맑은 날이 있는 경우 원-핫 인코딩은 데이터 프레임에 2개의 열(비오는 날과 맑은 날)을 추가합니다. 데이터 포인트에 비인 열은 값 1로 변환되고, 맑은 열은 값 0으로 변환됩니다(아래 표 참조). 이 [문서](https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/) 를 읽고 원-핫 인코딩에 대해 자세히 알아보세요. 이제 이 [문서](http://queirozf.com/entries/one-hot-encoding-a-feature-on-a-pandas-dataframe-an-example) 를 읽고 pandas에서 원-핫 인코딩을 하는 방법을 배워보세요. Iris Flower 데이터 세트를 df2로 다시 가져오고 이에 대한 원-핫 인코딩을 수행합니다.</font>

In [186]:
df2 = pd.read_csv("./[Dataset]_Module_18_(iris).data",header=None)
names = ["sepal_length", "sepal_width","petal_length", "petal_width", "class"]
df2.columns = names

In [215]:
data = {'A' : [1,2,3,4], 'B' : ['aa', 'bb', 'cc','dd'], "C" : ['a','b','c','d']}
df_test = pd.DataFrame(data)
df_test = pd.get_dummies(df_test, prefix=['class', 'alpha'])
df_test.head()

Unnamed: 0,A,class_aa,class_bb,class_cc,class_dd,alpha_a,alpha_b,alpha_c,alpha_d
0,1,1,0,0,0,1,0,0,0
1,2,0,1,0,0,0,1,0,0
2,3,0,0,1,0,0,0,1,0
3,4,0,0,0,1,0,0,0,1


In [217]:
data2 = {'A' : [1,2,3, 4], 'B' : ['Iris-setosa', 'class_Iris-versicolor',	'class_Iris-virginica']}
# "class" 열에 대한 원-핫 인코딩 수행
df2_one_hot_encoded = pd.get_dummies(df2, prefix=['class'])

# 결과 확인
df2_one_hot_encoded.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class_Iris-setosa,class_Iris-versicolor,class_Iris-virginica
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


잘하셨습니다! 레이블 인코딩 및 원-핫 인코딩을 수행하는 방법을 배웠습니다. 이제 KNN 알고리즘을 테스트해 볼 수 있습니다. 먼저 scikit learn에서 KNN 알고리즘을 가져와야 합니다. [Scikit Learn](https://scikit-learn.org/stable/) 은 널리 사용되고 있는 많은 수의 기계 학습 알고리즘을 포함하고 있는 오픈 소스 Python 라이브러리입니다. scikit learn에는 어떤 내용이 포함되어 있습니까? 무엇을 할 수 있습니까? 활용 예를 확인하려면 [예제](https://scikit-learn.org/stable/auto_examples/index.html) 사이트를 참조하십시오! scikit learn 만으로도 정말 많은 것을 해볼 수 있습니다.

이제 아래 코드를 실행해 보십시오.

In [189]:
from sklearn.neighbors import KNeighborsClassifier

이 [링크](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) 를 읽고 sklearn에서 KNeighborsClassifier를 사용하는 방법을 알아보세요. 이 노트북의 앞부분에서 KNN에 k 값이 중요하다는 것을 확인하였습니다. 링크에서 사용되는 k값은 얼마입니까?

<font color=pink>답변 : n_neighborsint, default=5로 나옵니다.</font>

위에서 찾은 k를 사용하여 Iris Flower 데이터 세트를 분류해 보겠습니다.

처음에는 2가지 특성(sepal_length 및 sepal_width)만 사용합니다. 아래 코드에서 이들은 'x' 데이터 프레임에 포함됩니다. 꽃의 '클래스', 즉 꽃 종의 이름은 'y' 데이터 프레임에 포함된 '라벨'이 됩니다.

아래 코드를 실행해 보십시오.

In [190]:
# KNeighborsClassifier 초기화
KNN = KNeighborsClassifier()

# x 값과 y 값을 추출합니다. x는 특성이고 y는 클래스입니다.
x = df2[['sepal_length','sepal_width']]
y = df2['class']

# 데이터가 올바른지 확인하기 위해 x 및 y의 .head()를 출력합니다.
print(x.head())
print(y.head())

# x 및 y 값을 사용하여 KNN을 훈련시킵니다. 이것은 .fit 메소드를 통해 수행됩니다.
knn = KNN.fit(x,y)

# sepal_length = 5 및 sepal_width = 3인 경우 학습된 KNN을 사용하여 꽃의 유형을 예측합니다. 
# .predict 메서드를 사용할 수 있습니다.
test = pd.DataFrame()
test['sepal_length'] = [5]
test['sepal_width'] = [3]
predict_flower = KNN.predict(test)

# predict_flower 출력
print(predict_flower)

   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: class, dtype: object
['Iris-setosa']


위의 출력에서 sepal_length = 5, sepal_width = 3인 데이터 포인트에 대해 어떤 유형의 꽃이 예측되었습니까? (이전 라벨 인코딩을 참조하세요)

<font color = 'pink'>Iris-setosa가 예측됩니다</font>

sepal_length = 5, sepal_width = 3인 경우에는 어떻게 될까요? 위에 코드를 변경하여 알아보세요!

In [202]:
# KNeighborsClassifier 초기화
KNN = KNeighborsClassifier()

# x 값과 y 값을 추출합니다. x는 특성이고 y는 클래스입니다.
x = df2[['sepal_length','sepal_width']]
y = df2['class']

# 데이터가 올바른지 확인하기 위해 x 및 y의 .head()를 출력합니다.
print(x.head())
print(y.head())

# x 및 y 값을 사용하여 KNN을 훈련시킵니다. 이것은 .fit 메소드를 통해 수행됩니다.
knn = KNN.fit(x,y)

# sepal_length = 5 및 sepal_width = 3인 경우 학습된 KNN을 사용하여 꽃의 유형을 예측합니다. 
# .predict 메서드를 사용할 수 있습니다.
test = pd.DataFrame()
test['sepal_length'] = [5, 3]
test['sepal_width'] = [3, 5]
predict_flower = KNN.predict(test)

# predict_flower 출력
print(predict_flower)

   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: class, dtype: object
['Iris-setosa' 'Iris-setosa']


첫 번째 지도 학습 모델을 훈련시켰습니다. 그러나 우리는 2개의 변수만 사용했습니다. 꽃받침 길이(sepal_length)와 꽃받침 너비(sepal_width) 대신 다른 모든 변수('sepal_length','sepal_width','petal_length','petal_width')를 사용하여 KNN2라는 다른 KNN 모델을 훈련시켜 봅시다.

In [204]:
# KNeighborsClassifier 초기화
KNN2 = KNeighborsClassifier()

# x 값과 y 값을 추출합니다. x는 특성이고 y는 클래스입니다.
x = df2[['sepal_length','sepal_width','petal_length','petal_width']]
y = df2['class']

# 데이터가 올바른지 확인하기 위해 x 및 y의 .head()를 출력합니다.
print(x.head())
print(y.head())

# x 및 y 값을 사용하여 KNN을 훈련시킵니다. 이것은 .fit 메소드를 통해 수행됩니다.
knn = KNN2.fit(x,y)

   sepal_length  sepal_width  petal_length  petal_width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: class, dtype: object


새 모델을 사용하여 sepal_length = 5.8, sepal_width = 2.3, petal_length = 5.0 및 petal_width = 1.3인 꽃 유형을 예측해 봅시다.

In [206]:
# sepal_length = 5.8, sepal_width = 2.3, petal_length = 5.0 및 petal_width = 1.3인 경우 학습된 KNN을 사용하여 꽃의 유형을 예측합니다. 
# .predict 메서드를 사용할 수 있습니다.
test2 = pd.DataFrame()
test2['sepal_length'] = [5.8]
test2['sepal_width'] = [2.3]
test2['petal_length'] = [5]
test2['petal_width'] = [1.3]
predict_flower3 = KNN2.predict(test2)

# predict_flower 출력
print(predict_flower3)

['Iris-versicolor']


#your answer here

잘하셨습니다! KNN 알고리즘을 사용하여 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비와 같은 꽃의 특성을 고려하여 꽃의 유형을 분류할 수 있는 분류 모델을 훈련시켰습니다.

이런 종류의 모델은 어떻게 유용할까요? 아래에 답을 작성해 주세요!

<font color = 'pink'>
답변 : 

간단하고 직관적인 모델이 필요한 경우: K-NN은 구현이 간단하며 이해하기 쉽기 때문에 초기에는 모델을 쉽게 이해하고 사용할 수 있습니다. 특히 데이터셋이 작고 차원이 낮은 경우에 유용합니다.

이상치나 노이즈가 많지 않은 데이터셋: K-NN은 이상치에 상대적으로 민감하기 때문에 데이터셋에 이상치가 많거나 노이즈가 많은 경우에는 다른 모델을 고려해야 합니다. 그러나 이상치나 노이즈가 적은 데이터셋에서는 잘 작동할 수 있습니다.

데이터가 고르게 분포되어 있고 클래스가 잘 구분되는 경우: K-NN은 데이터가 고르게 분포되어 있고 클래스가 잘 구분되는 경우에 잘 작동합니다. 클래스 간에 잘 구분되는 경계가 있는 경우에는 더욱 더 효과적으로 분류할 수 있습니다.

적은 계산 비용: 훈련 단계에서는 단순히 데이터를 저장하는 것이고, 예측 단계에서는 새로운 데이터와의 거리를 계산하는 것만으로 예측을 수행하기 때문에, K-NN은 예측을 위한 계산 비용이 적습니다. 따라서 대규모 데이터셋에도 적용할 수 있습니다.

해결하려는 문제가 비선형적인 경우: K-NN은 비선형 문제를 해결하는데 유용합니다. 즉, 클래스의 결정 경계가 선형이 아닌 경우에도 잘 작동할 수 있습니다.

요약하면, K-NN은 간단하고 직관적이며, 데이터가 고르게 분포되어 있고 클래스가 잘 구분되는 경우에 유용합니다. 그러나 이상치나 노이즈가 많은 데이터셋이나 대규모 데이터셋에는 적합하지 않을 수 있습니다. <font>

KNN 알고리즘을 어떤 곳에 사용할 수 있다고 생각하십니까? 아래에 답을 작성해 주세요!

<font color = 'pink'>
답변 :

분류 문제 해결: K-NN은 분류 문제를 해결하는데 널리 사용됩니다. 이미 알려진 데이터를 사용하여 새로운 데이터를 분류할 수 있습니다. 예를 들어, 이메일 스팸 필터링, 질병 진단, 손글씨 숫자 인식 등의 분류 문제에 적용될 수 있습니다.

이상 탐지: K-NN은 이상 탐지(anomaly detection)에도 사용될 수 있습니다. 이상 탐지는 정상적인 패턴에서 벗어난 이상한 사건을 감지하는데 사용됩니다. 예를 들어, 제조 공정에서 제품의 이상을 감지하거나 네트워크에서 이상한 트래픽을 감지하는 등 다양한 분야에서 활용될 수 있습니다.

추천 시스템: K-NN은 추천 시스템에서도 사용될 수 있습니다. 사용자의 구매 이력이나 선호도에 기반하여 비슷한 사용자나 상품을 찾아서 추천할 수 있습니다. 예를 들어, 영화나 음악 추천 시스템에서 유사한 사용자가 좋아하는 항목을 추천하는데 활용될 수 있습니다.

패턴 인식: K-NN은 패턴 인식(pattern recognition) 문제를 해결하는데 사용될 수 있습니다. 이미지, 음성, 텍스트 등의 데이터에서 패턴을 인식하고 분류할 수 있습니다. 예를 들어, 얼굴 인식, 음성 인식, 문자 인식 등 다양한 패턴 인식 문제에 적용될 수 있습니다.

회귀 분석: K-NN은 회귀 분석(regression analysis)에도 사용될 수 있습니다. 입력 데이터와 가장 가까운 이웃들의 평균이나 가중 평균을 사용하여 연속적인 값인 타깃 변수를 예측할 수 있습니다. 예를 들어, 부동산 가격 예측, 주가 예측 등의 회귀 분석 문제에 적용될 수 있습니다. </font>

분류에 사용할 수 있는 많은 모델이 있습니다. 다음으로 분류를 잘 할 수 있도록 도와주는 의사 결정 트리를 살펴보겠습니다.

## 1.2 의사 결정 트리(Decision Trees)

또 다른 지도 기계 학습 기술은 의사 결정 트리입니다. 이 [동영상](https://www.youtube.com/watch?v=eKD5gxPPeY00) 을 시청하고 결정 트리에 대해 자세히 알아보세요. 시청한 후 워크시트에 의사 결정 트리의 예를 그려보세요.(아래에 표시된 예를 참조)

우리는 매일 수많은 결정을 내립니다. 여러분은 특정한 결정을 어떻게 내리나요? 어떤 종류의 의사 결정 트리를 작성하실 건가요?

<img src = "./resources/dt1.jpg">

의사 결정 트리를 사용하려면 먼저 데이터로 모델을 훈련해야 합니다. 훈련 과정에서 알고리즘은 특정 매개변수를 기반으로 데이터 세트를 분할합니다. 지금은 알고리즘이 자동으로 매개변수를 계산하므로 이러한 매개변수를 계산하는 방법을 알 필요는 없습니다. 의사 결정 트리가 매개변수를 계산하는 방법에 대해 자세히 알아보려면 온라인에서 검색하여 찾아 볼 수 있습니다.

훈련 과정이 끝나면 의사 결정 트리는 결정 지점을 "기억"하고 새로운 데이터 세트에 적용하여 분류를 예측합니다. 이제 의사 결정 트리를 사용하여 Iris Flower 데이터 세트를 분류해 보겠습니다.

먼저 scikit learn에서 의사 결정 트리를 가져와야 합니다.

In [195]:
from sklearn import tree

다음으로 이 노트북의 앞부분에서 사용한 것과 동일한 df 데이터 프레임을 사용합니다. df 데이터 프레임에는 Iris Flower 데이터 세트가 포함되어 있으며 출력은 라벨 인코딩되어 있습니다. 먼저 꽃받침 길이(epal_length)와 꽃받침 너비(sepal_width)를 x 값으로 사용하고 클래스를 대상/결과 또는 y 값으로 사용합니다. 아래 코드를 실행해 보십시오.

In [211]:
# 의사 결정 트리 초기화
dt = tree.DecisionTreeClassifier()

# x 값과 y 값을 추출합니다. x는 sepal_length, sepal_width이고 y는 클래스입니다.
x = df[['sepal_length','sepal_width']]
y = df['class']

# 데이터가 올바른지 확인하기 위해 x 및 y의 .head()를 출력합니다.
print(x.head())
print(y.head())

# x 및 y 값을 사용하여 의사결정 트리를 훈련시킵니다. 이것은 .fit 메소드를 통해 수행됩니다.
dt = dt.fit(x,y)

   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6
0    1
1    1
2    1
3    1
4    1
Name: class, dtype: int64


의사 결정 트리를 초기화 시키는 코드를 보십시오. DecisionTreeRegressor 대신 DecisionTreeClassifier를 사용하는 이유는 무엇입니까?

<font color = 'pink'>
답변:
DecisionTreeRegressor: 이 모델은 주로 "얼마나?"와 같은 질문에 대한 답을 찾는 데 사용됩니다. 즉, 연속된 값을 예측합니다. 예를 들어, 집의 크기, 자동차의 속도와 같은 값들을 예측합니다.
DecisionTreeClassifier: 이 모델은 주로 "어떤 것?"과 같은 질문에 대한 답을 찾는 데 사용됩니다. 즉, 이산형 클래스(예: 고양이 vs. 개) 중 하나를 예측합니다. 예를 들어, 스팸 메일인지 아닌지를 분류하거나, 꽃의 종류를 예측하는 데 사용됩니다. </font>

이제 훈련된 의사 결정 트리를 사용하여 또 다른 예측을 진행 할 수 있습니까? 
sepal_length = 5, sepal_width = 3인 경우에는 어떻게 될까요? 위에 코드를 변경하여 알아보세요!

In [212]:
# Create a dataframe called test2 with sepal_length and sepal_width as its columns. Sepal_length has been done for you in the code below.
test5 = pd.DataFrame()
test5['sepal_length'] = [5]
test5['sepal_width'] = [3]

# Use the .predict method to predict the new flower. You can call the predicted flower as predict_flower.
predict_flower = dt.predict(test5)

# Print predict_flower
print(predict_flower)

[1]


예측된 꽃 유형은 무엇이며 이전에KNN에서 예측한 유형과 동일합니까?

In [198]:
#your answer here

이제 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비를 기반으로 새로운 의사 결정 트리 dt2를 훈련시키십시오. 

sepal_length = 5.8, sepal_width = 2.3, feather_length = 5.0, feather_width = 1.3 으로 꽃 유형을 예측합니다.

In [199]:
from sklearn import tree  # 필요한 모듈 가져오기

# 의사 결정 트리 초기화
dt = tree.DecisionTreeClassifier()

# x 값과 y 값을 추출합니다. x는 sepal_length, sepal_width이고 y는 클래스입니다.
x = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['class']

# 데이터가 올바른지 확인하기 위해 x 및 y의 .head()를 출력합니다.
print(x.head())
print(y.head())

# x 및 y 값을 사용하여 의사결정 트리를 훈련시킵니다. 이것은 .fit 메소드를 통해 수행됩니다.
dt2 = dt.fit(x, y)

# 학습된 의사결정트리를 사용하여 꽃의 유형을 예측합니다.
test6 = pd.DataFrame()
test6['sepal_length'] = [5.8]
test6['sepal_width'] = [2.3]
test6['petal_length'] = [5.0]
test6['petal_width'] = [1.3]
predict_flower2 = dt2.predict(test6)

# predict_flower 출력
print(predict_flower2)

   sepal_length  sepal_width  petal_length  petal_width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2
0    1
1    1
2    1
3    1
4    1
Name: class, dtype: int64
[3]


새로 학습된 의사 결정 트리가 예측하는 종류는 무엇입니까? KNN에서 예측한 것과 동일한가요?

In [200]:
#your answer here

위의 결과를 통해 대부분의 기계 학습 기술이 동일한 문제를 해결하는 데 사용될 수 있지만 결과/예측값은 모델에 따라 다를 수 있음을 알 수 있습니다! 따라서 모델의 정확도에 따라 어떤 모뎅을 사용할지 선택해야 합니다. 이후 노트북 레슨에서 모델의 품질을 평가하는 방법을 배울 것입니다.

In [201]:
from sklearn import tree
import graphviz

# 의사 결정 트리 초기화
dt = tree.DecisionTreeClassifier()

# x 값과 y 값을 추출합니다. x는 sepal_length, sepal_width이고 y는 클래스입니다.
x = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['class']

# 의사결정 트리 모델을 훈련합니다.
dt.fit(x, y)

# 클래스 이름을 문자열로 변환합니다.
class_names_str = y.unique().astype(str)

# 의사결정 트리를 DOT 형식으로 변환합니다.
dot_data = tree.export_graphviz(dt, out_file=None, 
                                feature_names=x.columns,  
                                class_names=class_names_str,  # 문자열로 변환한 클래스 이름을 전달합니다.
                                filled=True, rounded=True,  
                                special_characters=True)  

# DOT 형식의 데이터를 시각화하여 의사결정 트리를 그립니다.
graph = graphviz.Source(dot_data)
graph.render(view=True)  # 시각화를 표시합니다.



'Source.gv.pdf'