<a href="https://colab.research.google.com/github/shkimusw/bigdata/blob/main/%5B12%E1%84%8C%E1%85%AE%E1%84%8E%E1%85%A1_%E1%84%80%E1%85%A1%E1%86%BC%E1%84%8B%E1%85%B4%5D_%E1%84%87%E1%85%AE%E1%86%BA%E1%84%81%E1%85%A9%E1%86%BE_%E1%84%87%E1%85%AE%E1%86%AB%E1%84%85%E1%85%B2%E1%84%92%E1%85%A1%E1%84%80%E1%85%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **머신러닝 기초연습**

한 아마추어 식물학자가 들에서 발견한 붓꽃(iris)의 품종을 알고 싶어한다. 이 식물학자는 붓꽃의 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이를 센티미터 단위로 측정하였다.

또 전문 식물학자가 setosa, versicolor, virginica 종으로 분류한 붓꽃의 측정 데이터도 가지고 있다. 이 측정값을 이용해서 앞에서 채집한 붓꽃이 어떤 품종인지 구분하려 한다. 이 아마추어 식물학자가 야생에서 채집한 붓꽃은 이 세 종류뿐이라고 가정하자.

우리의 목표는 어떤 품종인지 구분해놓은 측정 데이터를 이용해 새로 채집한 붓꽃의 품종을 예측하는 머신러닝 모델을 만드는 것이다.

# 데이터셋 불러오기

In [8]:
# 라이브러리 환경
import pandas as pd
import numpy as np

In [9]:
# sklearn 데이터셋에서 iris 데이터셋 로딩
from sklearn import datasets
iris = datasets.load_iris()

# iris 데이터셋은 딕셔너리 형태이므로, key 값을 확인
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [None]:
# DESCR 키를 이용하여 데이터셋 설명(Description) 출력
print(iris['DESCR'])

In [None]:
print("특성의 이름: \n{}".format(iris['feature_names']))

In [None]:
print("타깃의 이름: {}".format(iris['target_names']))

In [None]:
# target 배열은 샘플 붓꽃의 품종을 담은 NumPy 배열이다.
# target 속성의 데이터셋 크기
print("데이터셋 크기:", iris['target'].shape)

# target 속성의 데이터셋 내용
print("데이터셋 내용: \n", iris['target'])

In [None]:
# data는 꽃잎의 길이와 폭, 꽃받침의 길이와 폭을 수치 값으로 가지고 있는 NumPy 배열이다.
# data 속성의 데이터셋 크기
print("데이터셋 크기:", iris['data'].shape)
# data 속성의 데이터셋 내용 (첫 7개 행을 추출)
print("데이터셋 내용: \n", iris['data'][:7, :])

In [None]:
# data 속성을 판다스 데이터프레임으로 변환
df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
print("데이터프레임의 형태:", df.shape)
df.head()

In [None]:
# 열(column) 이름을 간결하게 변경
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
df.head(2)

In [None]:
# Target 열 추가
df['Target'] = iris['target']
print('데이터셋의 크기: ', df.shape)
df.head()

# 데이터 탐색

In [None]:
# 데이터프레임의 기본정보
df.info()

In [None]:
# 통계정보 요약
df.describe()

In [None]:
# 결측값 확인
df.isnull().sum()

In [None]:
# 중복 데이터 확인
df.duplicated().sum()

In [None]:
# 중복 데이터 출력
df.loc[df.duplicated(), :]

In [None]:
# 중복 데이터 모두 출력
df.loc[(df.sepal_length==5.8)&(df.petal_width==1.9), :]

In [None]:
# 중복 데이터 제거
df = df.drop_duplicates()
# 삭제되었는지 확인
df.loc[(df.sepal_length==5.8)&(df.petal_width==1.9), :]

In [None]:
# 변수 간의 상관관계 분석
df.corr()

In [13]:
# 시각화 라이브러리 설정
import matplotlib.pyplot as plt
# seaborn 라이브러리를 사용해보자.
import seaborn as sns
sns.set(font_scale=1.2)

In [None]:
# 상관계수 히트맵
sns.heatmap(data=df.corr(), square=True, annot=True)
plt.show()

In [None]:
# Target 값의 분포 - value_counts 함수
df['Target'].value_counts()

In [None]:
# sepal_length 값의 분포 - hist 함수
plt.hist(x='sepal_length', data=df)
plt.show()

In [None]:
# sepal_width 값의 분포 - displot 함수 (histogram)
sns.displot(x='sepal_width', kind='hist', data=df)
plt.show()

In [None]:
# petal_length 값의 분포 - displot 함수 (kde 밀도 함수 그래프)
sns.displot(x='petal_width', kind='kde', data=df)
plt.show()

# 봉우리가 두 개인 것으로 보아 서로 이질적인 데이터가 섞여있음을 추정해볼 수 있다.

In [None]:
# 품종별 sepal_length 값의 분포 비교
sns.displot( x='sepal_length', hue='Target', kind='kde', data=df)
plt.show()

In [None]:
# 나머지 3개 피처 데이터를 한번에 그래프로 출력
for col in ['sepal_width', 'petal_length', 'petal_width']:
    sns.displot(x=col, hue='Target', kind='kde', data=df)
plt.show()

In [None]:
# 두 변수 간의 관계
sns.pairplot(df, hue = 'Target', height = 2.5, diag_kind = 'kde')  # 히스토그램으로 보고 싶으면 'hist'로 설정
plt.show()

# Baseline 모델 학습

이제 본격적으로 컴퓨터에게 학습을 시켜보자. 모델 학습에 사용할 훈련(train) 데이터와 모델 성능을 평가하는데 사용할 테스트 데이터(test)를 분할한다.

사이킷런의 train_test_split 함수를 사용해보자.

#### 학습용-테스트 데이터셋 분리하기

In [14]:
from sklearn.model_selection import train_test_split 

X_data = df.loc[:, 'sepal_length':'petal_width']
y_data = df.loc[:, 'Target']

X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, 
                                                    test_size=0.2, #test size : 전체 데이터 중 20%를 테스트용, 80%를 훈련용으로 분할
                                                    shuffle=True, 
                                                    random_state=20) # random state 옵션을 지정해두면 무작위추출시 항상 일정한 기준으로 분할하여 같은 데이터를 사용하게 된다. 
                                                    #따라서 코드를 다시 실행해도 같은 결과를 얻는다.

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(120, 4) (120,)
(30, 4) (30,)


### 로지스틱 회귀

In [None]:
# 모델 학습
from sklearn.linear_model import LogisticRegression
lrc = LogisticRegression()
lrc.fit(X_train, y_train)

In [None]:
# 예측
y_lrc_pred = lrc.predict(X_test)
print("예측값: ", y_lrc_pred[:5])  #30개 중 5개의 꽃만 예측해보자.
# 성능 평가
from sklearn.metrics import accuracy_score
lrc_acc = accuracy_score(y_test, y_lrc_pred)
print("Accuracy: %.4f" % lrc_acc)

예측값:  [0 1 1 2 1]
Accuracy: 1.0000


In [None]:
# 확률값 예측
y_lrc_prob = lrc.predict_proba(X_test)
y_lrc_prob #각 꽃 당 클래스0, 클래스1, 클래스 2의 예측확률 나타냄

### 의사결정나무

In [None]:
# 모델 학습 및 예측
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(max_depth=3, random_state=20)  #트리의 최대깊이는 3으로 설정한다. 지나치게 복잡한 구조를 갖게되면 모델이 훈련 데이터에 과대적합되기 때문이다.
dtc.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, random_state=20)

In [None]:
# 예측
y_dtc_pred = dtc.predict(X_test)
print("예측값: ", y_dtc_pred[:5])
# 성능 평가
dtc_acc = accuracy_score(y_test, y_dtc_pred)
print("Accuracy: %.4f" % dtc_acc)

예측값:  [0 1 1 2 1]
Accuracy: 0.9333


### KNN

In [None]:
# 모델 학습
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train, y_train)

In [None]:
# 예측
y_knn_pred = knn.predict(X_test)
print("예측값: ", y_knn_pred[:5])

In [None]:
# 성능 평가
knn_acc = accuracy_score(y_test, y_knn_pred)
print("Accuracy: %.4f" % knn_acc)

K의 값을 바꿔 모델 성능을 평가해보자.