### 과제1
비지도 학습의 목적인 Grouping에 대해 자세히 설명해 주세요! Dataset을 Grouping한다는 것이 무슨 의미인지 간단히 서술해 주시고,

세션에서 언급되었던 Grouping을 위한 두 수단에 대해서 예시 모델을 제시하여 설명해 주시면 됩니다! 예시 모델의 종류에 대해서는 구글링을 통해 조사할 수 있겠습니다.

### 과제1 Answer

비지도 학습의 목적 중 하나는 데이터셋을 그룹화(Grouping)하는 것입니다. Grouping은 유사한 패턴, 속성 또는 특성을 갖는 데이터를 동일한 그룹으로 묶어 분류하는 작업을 의미합니다. 이러한 그룹은 사전에 정의된 레이블이나 카테고리 없이 형성되며, 모델은 주어진 데이터에서 스스로 패턴을 찾아내어 각 그룹을 형성하게 됩니다.

비지도 학습에서의 Grouping은 다양한 방식으로 이루어질 수 있습니다. 대표적인 예로는 군집화(Clustering)가 있습니다. 군집화는 비슷한 데이터 포인트들을 하나의 군집으로 묶어내는 작업으로, k-means나 계층적 군집화 등의 알고리즘이 사용될 수 있습니다. 이를 통해 데이터셋 내에서 유사한 패턴이나 그룹을 찾아낼 수 있습니다.

Grouping은 데이터 이해, 특징 추출, 이상치 탐지 등 다양한 응용 분야에서 사용됩니다. 예를 들어, 고객 행동 데이터를 그룹화하여 비슷한 구매 패턴을 가진 고객들을 식별하거나, 의료 데이터를 그룹화하여 유사한 환자 집단을 형성하는 등의 작업이 있을 수 있습니다. Grouping을 통해 발견된 패턴은 뒤이어 지도 학습의 레이블로 활용되거나, 데이터 이해를 기반으로 의사결정이나 전략 수립에 활용될 수 있습니다.

1. Clustering: K-Means Clustering

K-Means Clustering은 가장 간단하고 널리 사용되는 군집화 알고리즘 중 하나입니다. 이 알고리즘은 주어진 데이터를 K개의 클러스터로 그룹화합니다. 각 클러스터는 중심(centroid)을 가지며, 각 데이터 포인트는 가장 가까운 중심에 할당됩니다. 알고리즘은 클러스터 내의 데이터 포인트들의 거리 합을 최소화하면서 중심을 조정합니다.

In [6]:
from sklearn.cluster import KMeans
import numpy as np

# 가상의 데이터 생성
X = np.array([[1, 2], [5, 8], [1.5, 1.8], [8, 8], [1, 0.6], [9, 11]])

# K-Means 모델 생성 (클러스터 개수 k=2)
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)

# 각 데이터 포인트의 클러스터 할당
labels = kmeans.labels_

# 클러스터 중심 확인
centroids = kmeans.cluster_centers_

print("Labels:", labels)
print("Centroids:", centroids)


Labels: [0 1 0 1 0 1]
Centroids: [[1.17 1.47]
 [7.33 9.  ]]


2. Dimensionality Reduction: Principal Component Analysis (PCA)

PCA는 데이터셋의 차원을 줄이는데 사용되는 효과적인 방법 중 하나입니다. 이는 데이터의 주성분(Principal Components)을 찾아내어 주성분들로 구성된 공간으로 데이터를 변환합니다. 주성분은 데이터의 분산을 최대화하는 방향으로 정의되며, 이를 이용하여 원래 데이터의 정보를 가능한 한 보존하면서 차원을 축소합니다.

In [2]:
from sklearn.decomposition import PCA
import numpy as np

# 가상의 데이터 생성
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# PCA 모델 생성 (원하는 차원 수로 n_components 설정)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("Original Data:")
print(X)
print("\nReduced Data (2 Principal Components):")
print(X_pca)


Original Data:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

Reduced Data (2 Principal Components):
[[ 5.19615242e+00  6.24556048e-17]
 [-0.00000000e+00 -0.00000000e+00]
 [-5.19615242e+00  6.24556048e-17]]


이 예시에서는 원래 3차원의 데이터를 2차원으로 축소했습니다. PCA는 데이터의 분산을 기준으로 주요한 정보를 보존하면서 차원을 축소하기 때문에, 주로 시각화나 데이터 압축 등의 목적으로 사용됩니다.

### 과제2
드라이브에 첨부된 diabetes.csv 파일을 이용해, decision tree를 이용한 classifier model을 디자인해 주세요!

분류 문제에 맞는 (간단한 수준의) 데이터 전처리 및 Feature selection이 선행되어야 합니다.

모델의 성능은 상관 없지만, 모델 구동 결과 및 평가지표의 출력은 정상적으로 이루어져야 합니다! 평가지표의 종류 또한 상관 없습니다.

데이터셋에 대한 설명은 아래 캐클 링크를 참조해 주세요!
https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

과제 진행에 있어 어려움을 겪으신다면 아래 링크의 내용을 참조하시면 됩니다!
https://www.datacamp.com/tutorial/decision-tree-classification-python


In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [8]:
df = pd.read_csv('diabetes.csv')
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [9]:
# 결측치 확인
print(df.isnull().sum())

# 특성과 레이블 분리
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

# 훈련 데이터와 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64


In [10]:
# Decision Tree 모델 생성
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

# 테스트 데이터로 예측
y_pred = model.predict(X_test)

# 정확도 출력
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# 분류 보고서 출력
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# 혼동 행렬 출력
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred))


Accuracy: 0.7467532467532467

Classification Report:
              precision    recall  f1-score   support

           0       0.83      0.76      0.79        99
           1       0.62      0.73      0.67        55

    accuracy                           0.75       154
   macro avg       0.73      0.74      0.73       154
weighted avg       0.76      0.75      0.75       154


Confusion Matrix:
[[75 24]
 [15 40]]
