# Day-9: Chat-GPT를 활용한 인공지능, 머신러닝


:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 머신러닝의 개념과 머신러닝 라이브러리인 scikit-learn을 익혀본다.
  - 붓꽃 예제를 통해 scikit-learn을 다뤄본다.

- 기대효과
  - 몇 가지 머신러닝 모형을 다뤄보고 기본 개념을 익힐 수 있다.
:::

## Practice-1: 붓꽃(iris) 품종 예측하기

붓꽃 데이터는 1936년 한 영국 통계학자에 의해 선형분류 문제의 예제로 활용되면서 머신러닝의 대표적인 예제로 활용되고 있다.

붓꽃의 특징(feature)은 꽃받침 길이(sepal length), 꽃받침 폭(sepal width), 꽃잎 길이(petal length), 꽃잎 폭(petal width)으로 나눠지며, 얻고자 하는 목표값(label)은 setosa, versicolor, verginica 품종이다.

붓꽃 데이터에는 세 품종 각각 50개씩 총 150개의 데이터가 들어있다.

https://en.wikipedia.org/wiki/Iris_flower_data_set

<div align="center"><img src="https://haesunbyun.github.io/common/images/ai7.png"></div>

- seaborn에 있는 load_dataset()을 이용하여 iris 데이터를 불러와보자.
- 그런 후에 5개의 행을 확인해보자. seaborn은 데이터프레임으로 읽어와진다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
#Todo


- pairplot() 함수를 통해 dataset에 존재하는 모든 변수들 간의 상관관계를 한번에 보여주는 그래프를 그려보자.
- 이때 붓꽃의 종류(species)가 3종류이니 hue옵션을 통해 카테고리를 분류하여 나타내보자.
- 각 X변수들 간에 어떤 관계가 있는지 보는 것도 데이터 분석에 큰 도움이 된다.

### 데이타 확인 및 파악
- 사이킷런 모듈의 이름은 sklearn이며, 붓꽃 데이터는 워낙 유명한 데이터라 sklearn의 datasets에 이미 들어가 있다.
- 이 밖에도 아래와 같이 다양한 데이터 셋을 제공하고 있다.

|dataset 이름|데이터 셋에 대한 설명 (적합한 모델)|
|:----------:|:----------|
|`load_boston`|load and return the boston house-prices dataset (regression).|
|`load_iris`|Load and return the iris dataset (classification). |
|`load_diabetes`|Load and return the diabetes dataset (regression). |
|`load_digits`|Load and return the digits dataset (classification).|
|`load_linnerud`|Load and return the linnerud dataset (multivariate regression).|
|`load_wine`|Load and return the wine dataset (classification).|
|`load_breast_cancer`|Load and return the breast cancer wisconsin dataset (classification).|


- 먼저 iris 데이터셋을 import 시킨다.

```
from sklearn.datasets import load_iris
iris = load_iris()
iris
```

- iris 데이터의 타입을 확인해보자. sklearn.utils.Bunch 타입이다.

- 데이터를 가져왔다면 전체적인 구성과 구조, 모양을 확인하는 것이 먼저 이루어져야 한다.
- dir() 함수를 통해 iris 객체가 어떤 변수와 메소드(method)를 가지고 있는지 확인한다.

-  iris 객체의 변수에 들어있는 데이터들을 확인해본다.

In [None]:
iris.data

In [None]:
iris.filename

In [None]:
iris.feature_names

In [None]:
iris.target

- 데이터가 배열로 저장되어 있는 경우 원소의 데이터 타입이 표현된다.
- dtype은 https://engineer-mole.tistory.com/ 85에서 참고하기 바란다.

In [None]:
iris.target_names

In [None]:
iris.target.shape

In [None]:
display(iris.target, iris.target_shape)

### train set과 test set으로 분리
- 지도학습에서는 트레이닝 데이터 즉, 학습을 위한 특징(feature)와 결정값인 레이블(label)데이터로 모델을 학습 한 뒤, 별도의 테스트 데이터에서 미지의 레이블을 예측한다.
- 명확한 정답이 주어진 데이터를 먼저 학습하고 미지의 정답을 예측하는 방식이다.
- 그래서 붓꽃 데이터를 train_test_split()을 사용하여 트레이닝 데이터와 테스트 데이터로 나눈다.
- train_test_split()함수는 별도의 옵션을 설정하지 않으면 트레이닝:테스트의 비율을 75:25로 분리한다.
- 일반적으로 train 데이터는 2차원 배열의 행렬이므로 대문자 X를 사용하고, target 데이터는 1차원 배열의 벡터이므로 소문자 y를 사용한다.

In [None]:
from sklearn.model_selection import train_test_split
#X_train, X_test, y_train, y_test = train_test_split(train 데이타로 사용할 변수, target 데이타로 사용할 변수)

- X_train 데이터와 X_test 데이터의 모양(shape)을 확인해보자.

- y_train 데이터와 y_test 데이터의 모양(shape)을 확인해보자.

- 데이터 5개만 자세히 확인해보자.
```
display(X_train[:5], y_train[:5])
```

### k-NN(최근접 이웃) 분류모델
- 머신러닝 알고리즘으로는 k-NN 알고리즘을 적용해보자.
- k-NN알고리즘은 거리기반 분류 분석모델이다.
- 거리가 가까운 k개의 다른 데이터의 레이블을 참조하여 유사 속성에 따라 분류하는 알고리즘이다.
- k-NN을 사용해보는 이유는 붓꽃이 꽃잎의 길이, 꽃잎의 너비, 꽃받침의 길이, 꽃받침의 너비에 따라 품종의 유사성이 있으므로 이 값들을 기반으로 유사한 너비와 길이를 가진 값들을 동일 품종으로 예측하기 위함이다. 즉 가까운 k개의 너비와 길이를 기반으로 품종을 결정짓고자 한다.
- 너비와 길이를 기반으로 서로 간의 거리를 측정할 때 유클리디안 거리 계산법을 사용한다.

$d(i,j) = \sqrt{(x_j-x_i)^2 + (y_j-y_i)^2}$

<div align="center"><img src="https://haesunbyun.github.io/common/images/ai8.png" ></div>

- k-NN 알고리즘은 이미지 처리, 영상에서 글자 인식, 얼굴 인식, 선호도 예측, 유전자 패턴 인식 등 많은 분야에서 사용되고 있다.
- sklearn모듈에서 k-NN 알고리즘은 sklearn.neighbors에 KNeighborsClassifier()로 구현되어 있다.

- k-NN에서 k값은 옵션 n_neighbors로 설정가능하다. 디폴트는 5이다.
- 여기서는 아주 심플하게 k를 1로 설정한 k-NN 알고리즘으로 모델을 만들어보자.

#### 모델 생성

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=1)

- KNeighborsClassifier()뿐만 아니라 sklearn모듈에 구현되어 있는 많은 머신러닝 알고리즘들은 파라미터를 통해 알고리즘의 성능을 튜닝할 수 있다.

In [None]:
help(KNeighborsClassifier)

#### 모델 훈련

- 이제 만들어진 모델에 트레이닝데이터를 입력으로 넣어서 학습하도록 시키자.
- 학습은 fit()함수를 통해서 이루어진다.
- feature로 X_train을 입력으로 주고, label(답)로 y_train을 입력으로 줘서 학습시킨다.
- 데이터가 150개뿐이라 학습은 금방 끝난다.

In [None]:
#data(입력값) target(출력값)을 줘서 학습시킨다.


#### 모델 예측

- 학습이 완료되었으니 샘플 하나를 입력으로 줘서 예측해보도록 하자.
- 예측은 만든 모델객체.predict()로 예측할 수 있다. 이때 샘플이 하나일지라도 2차원 배열로 줘야 한다.
- 임의값 [[6,3,4,1.5]]을 줬더니 array([1])의 값을 반환한다. 즉, 'versicolor'로 예측한다.

- 정답을 제대로 예측했는지 하나 하나 확인해보기 위해 X_test를 predict()에 넣어준 후, 정답인 y_test와 모델이 예측한 y_pred를 확인해보자.


#### 모델 평가

- 모델이 잘 만들어졌는지 평가하기 위해 X_test, y_test를 넣어서 평가점수를 확인해보자.
- 만든 모델의 예측 점수를 확인해보자.(이 데이터는 원래 잘 분리된 데이터라 모델 평가 점수가 높게 나온다.)

#### chatGPT를 통한 질문

- 붓꽃 데이터는 어떤 머신러닝 알고리즘으로 학습시키는 것이 좋을까?
- KNN 알고리즘을 설명해줘(KNN 분류과정을 설명해줘)
- 붓꽃 데이터를 KNN 으로 학습시키는 파이썬 코드를 작성해줘

In [None]:
# 시각화를 위한 산점도 행렬 생성
sns.pairplot(iris_data, hue="species")
plt.show()

## Practice-2: 몸무게 예측하기

### 선형회귀(Linear Regression) 모델

- 선형회귀는 종속 변수 y와 하나 이상의 독립 변수 x와의 선형 상관관계를 모델링하는 기법이다.
  - 종속변수: 독립변수의 값에 영향을 받는 변수, 결과가 되는 column
    - '온도가 30도가 되니 아이스크림 판매량이 500개를 돌파했다.'에서 아이스크림 판매량이 종속변수이다.
    - 타이타닉 데이터에서 종속변수
      - 생존여부(생존(1) 또는 사망(0))
  - 독립변수: 종속변수에 영향을 미치는 변수, 원인이 되는 column
    - '온도가 30도가 되니 아이스크림 판매량이 500개를 돌파했다.'에서 온도가 독립변수이다.
    - 타이타닉 데이터의 독립변수
      - 나이(Age): 승객의 나이
      - 성별(Sex): 승객의 성별
      - 객실 등급(Pclass): 승객의 티켓 등급(1등석, 2등석, 3등석)
      - 승선 장소(Embarked): 승객이 탑승한 항구(C = Cherbourg, Q = Queenstown, S = Southampton)
      - 형제자매/배우자 수(SibSp): 함께 탑승한 형제자매 또는 배우자의 수
      - 부모님/자녀 수(Parch): 함께 탑승한 부모님 또는 자녀의 수
      - 티켓 요금(Fare): 티켓의 요금


- 선형회귀는 이와 같이 두 변수(종속변수, 독립변수)의 관계를 알아내거나 이를 이용하여 y(종속변수)가 밝혀지지 않은 x(독립변수)값에 대해 y를 예측하는 데에 사용된다.
- 가장 간단한 선형모델은 바로 일차함수이다.
```
y = mx + b
# m은 직선의 기울기(계수)
# b는 y절편
```
- m은 기울기로, 입력 변수 x에 곱해지는 계수(Coefficient)이다.
- b는 절편(intercept)으로 회귀 선을 나타내는 직선이 y축을 교차하는 지점을 말한다. 회귀 모델에서 상수항을 나타내며, 회귀 선의 시작점을 결정한다.

- 기본적으로 선형회귀 알고리즘은 데이터를 설명하는 가장 적절한 기울기와 절편값을 찾는다.
- x변수는 데이터의 feature(특징)이라 바꿀 수 없고, 우리는 m과 b를 제어할 수 있다.
- 선형회귀 알고리즘은 기본적으로 데이터 요소에 여러 직선을 갖다 대 보고 가장 작은 오류를 내는 직선을 반환한다.


#### 데이타 확인 및 파악

In [None]:
# 키와 몸무게 정보
X = [[164], [179], [162], [170], [154]]   #다중회귀에 적용되도록 함
y = [53, 63, 55, 59, 55]               #y = f(X)의 결과

#### 모델 생성

In [None]:
import numpy as np
from sklearn import linear_model  #scikit-learn 모듈을 가져옴.

regr = linear_model.LinearRegression()  #선형회귀 모델 생성

#### 모델 훈련

In [None]:
regr.fit(X, y)                     #선형회귀모델에 X, y를 적용한다.

- 선형 회귀 모델에서 coef_는 각 특성의 계수(coefficient)를 나타낸다.
- 선형 회귀 모델은 입력 특성(feature)과 이에 대응하는 가중치(weight)를 사용하여 출력 값을 예측하는 모델이다.
- coef_ 배열은 각 입력 특성의 가중치를 담고 있으며, 이를 통해 각 특성이 예측값에 어떤 영향을 미치는지를 파악할 수 있다.

In [None]:
regr.coef_

- 선형 회귀 모델에서 intercept_는 절편이다.

In [None]:
regr.intercept_

#### 모델 예측

In [None]:
y_pred = regr.predict(X) # 실제 데이터를 통해 예측한 값을 확인해보자.
print(y_pred)
# [53, 63, 55, 59, 55] # 실제 데이터

#### 모델 평가

In [None]:
score = regr.score(X, y)
score

#### 그래프로 나타내기

In [None]:
import matplotlib.pyplot as plt

plt.scatter(X, y, color='blue', label='Real Data')  # 실제 데이터
plt.plot(X, y_pred, color='red', label='Linear Regression')  # 선형 회귀 모델
plt.xlabel('Height')  # x축 레이블
plt.ylabel('Weight')  # y축 레이블
plt.title('Linear regression model for height and weight.')  # 그래프 제목
plt.legend()  # 범례 표시
plt.show()  # 그래프 출력

## Practice-3: 붓꽃(iris)의 꽃받침 길이 예측하기

### 선형회귀(Linear Regression) 모델

- 이번에는 선형회귀모델을 적용하여 붓꽃 꽃받침의 길이를 예측해보자.
- 선형 회귀는 종속 변수 y와 하나 이상의 독립 변수 x가 필요하므로 종속변수와 독립변수를 결정해보자.
- 이번에는 pandas의 데이터프레임에 저장되어 있는 데이터를 붓꽃 데이터를 활용해보자.

#### 데이타 확인 및 파악

In [None]:
import pandas as pd
import seaborn as sns
iris_data = sns.load_dataset('iris')
iris_data.head()

- columns의 인덱스 0(임의로 선택)을 종속변수로 지정하고, 인덱스 1~3을 독립변수로 지정해보자.

In [None]:
iris_data.columns

In [None]:
# 독립변수
X = iris_data[['sepal_width']]  #'꽃받침 너비', 2차원 배열

# 종속변수
y = iris_data['sepal_length'] #'꽃받침 길이'

- train_test_split()을 사용하여 트레이닝 데이터와 테스트 데이터로 나눈다.
- 옵션 test_size = 0.3로 줘서 트레이닝:테스트의 비율을 70:30으로 분리해보자.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

- 학습용인 X_train 데이터의 모양을 확인해보자.

In [None]:
print(X_train.shape, y_train.shape)

- 검증용인 X_test 데이터의 모양을 확인해보자.

In [None]:
print(X_test.shape, y_test.shape)

#### 모델 생성
- 데이터를 분리했으니 선형회귀모델을 생성해보자.
- 선형회귀모델은 sklearn.linear_model의 LinearRegression()을 이용하여 생성할 수 있다.
- LinearRegression()에 들어갈 옵션은 default로 두고 model을 만들어보자.

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()

#### 모델 훈련
- 독립변수 X와 종속변수 y를 전달하여 학습을 시키자.

In [None]:
model.fit(X_train, y_train)

- 변수 coef_를 이용하여 기울기를 확인할 수 있다.
- 독립변수에 대한 기울기는 아래와 같다.

In [None]:
model.coef_        # 기울기

- 변수 intercept_를 이용하여 절편을 확인할 수 있다.


In [None]:
model.intercept_  # 절편

#### 모델 예측
- 만든 회귀모델에 테스트데이타를 주고 sepal_length를 예측해보도록 하자.

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
len(y_pred)

#### 모델 평가
- 오리지널 데이터와 정답을 줘서 모델의 평가점수를 확인해보자.

In [None]:
score = model.score(X_test, y_test)

In [None]:
score

#### 그래프로 나타내보기

In [None]:
# 예측 결과와 실제 데이터 비교를 위한 그래프 생성
plt.scatter(X_test, y_test, color='blue', label='Real Data')  # 실제 데이터
plt.plot(X_test, y_pred, color='red', label='Linear regression model')  # 선형 회귀 모델
plt.xlabel('sepal_width')  # x축 레이블
plt.ylabel('sepal_length')  # y축 레이블
plt.title('Linear regression model')  # 그래프 제목
plt.legend()  # 범례 표시
plt.show()  # 그래프 출력


#### 전체 소스코드

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 붓꽃 데이터 가져오기
iris_data = sns.load_dataset('iris')
iris_data.head()

# 특성과 타겟 데이터 선택
# 독립변수
cols = list(iris_data.columns)
x_idx = 2
y_idx = 3
X = iris_data[[cols[x_idx]]]

# 종속변수
y = iris_data[cols[y_idx]]

# 훈련 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀 모델 생성 및 훈련
model = LinearRegression()
model.fit(X_train, y_train)

# 테스트 데이터 예측
y_pred = model.predict(X_test)

# 모델평가
score = model.score(X_test, y_pred)
print('Score:',score)

# 예측 결과와 실제 데이터 비교를 위한 그래프 생성
plt.scatter(X_test, y_test, color='blue', label='Real Data')  # 실제 데이터
plt.plot(X_test, y_pred, color='red', label='Linear regression model')  # 선형 회귀 모델
plt.xlabel(cols[x_idx])  # x축 레이블
plt.ylabel(cols[y_idx])  # y축 레이블
plt.title('Linear regression model')  # 그래프 제목
plt.legend()  # 범례 표시
plt.show()  # 그래프 출력

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

cols = list(iris_data.columns)
print(cols)
x_cols = cols[1:4]
y_col = cols[0]
print(x_cols, y_col)


iris_df = iris_data[cols[:4]] # 분석에 불필요한 5번째 칼럼 species 제외한 데이터
iris_train, iris_test = train_test_split(iris_df, test_size = 0.3)

#모델 생성
model = LinearRegression()

#모델 훈련
model.fit(X = iris_train[x_cols], y = iris_train[y_col])

print('model.coef_ ', model.coef_ ) # 기울기
print('model.intercept_', model.intercept_)  # 절편

#모델 예측
y_pred = model.predict(X=iris_test[x_cols])
print('예측결과', y_pred)

#모델 평가
score = model.score(iris_test[x_cols], iris_test[y_col])
print('score', score)


## Practice-4: 붓꽃(iris)의 품종 분류하기

### 군집(clustering) 모델
- 군집모델 가운데 k-means 알고리즘을 적용하여 붓꽃의 품종을 예측해보자.
- 군집은 비지도 학습에 포함된다.


#### 모델 생성

In [None]:
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

- 품종이 3가지이므로 cluster의 수를 3으로 준다.

In [None]:
kmeans = KMeans(n_clusters=3)

#### 모델 훈련

In [None]:
kmeans.fit(iris_df) #학습시킴

- 학습시킨 후 분류한 정보는 labels_을 통해 확인 가능하다.

In [None]:
kmeans.labels_

In [None]:
len(kmeans.labels_)

In [None]:
iris_df['target'] = iris_data.species
iris_df['cluster'] = kmeans.labels_

In [None]:
iris_df.head()

#### 클러스터링 결과 확인

In [None]:
iris_result = iris_df.groupby(['target','cluster']).size()
print(iris_result)

In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

iris = load_iris()
X = iris.data  # 특성

kmeans = KMeans(n_clusters=3, random_state=42)  # 예시로 3개의 클러스터를 사용

kmeans.fit(X)

predicted_clusters = kmeans.predict(X)

# 시각화를 위해 주성분 분석을 사용하여 데이터를 2차원으로 축소
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 클러스터링 결과 시각화
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=predicted_clusters, cmap='viridis')
plt.show()


## 마무리

- 머신러닝을 지원하는 모듈인 scikit-learn에 구현되어 있는 지도학습 알고리즘인 k-NN알고리즘을 이용하여 머신러닝 모델을 만들어보고 붓꽃 데이터의 품종을 분류해보고, 선형회귀 모델로 붓꽃의 sepal_length를 예측해보았다.
- 비지도 학습 알고리즘인 군집(clustering) 모델을 이용하여 품종을 클러스터링 해 보았다.
