In [1]:
# 라이브러리 로딩
import pandas as pd

# 데이터셋을 학습용(training set)과 검증, 테스트용(test set)으로 나누기 위한 함수
from sklearn.model_selection import train_test_split

# 의사결정나무(Decision Tree) 분류 모델
from sklearn.tree import DecisionTreeClassifier

# 랜덤 포레스트(Random Forest) 분류 모델
# 여러 개의 결정 트리를 합쳐 예측 성능을 높임
from sklearn.ensemble import RandomForestClassifier

# 로지스틱 회귀(Logistic Regression) 분류 모델
from sklearn.linear_model import LogisticRegression

# 분류 모델의 성능을 평가할 때 정확도(accuracy)를 계산하는 함수
from sklearn.metrics import accuracy_score

# -----------------------------

# 1) 데이터 준비

# -----------------------------

# 각 컬럼에 대한 컬럼명 추가
# 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 라벨
cols = ["sepal_length", "sepal_width", "petal_length", "petal_width", "label"]

# header를 없애고 cols에 정의한 컬럼명을 부여함
# dropna() : 결측값(NaN)이 포함된 행 또는 열을 삭제
df = pd.read_csv("/content/drive/MyDrive/data/iris.data", header=None, names=cols).dropna()


# 전체 데이터프레임에서 "label"이라는 열을 빼고 남은 모든 열을 입력 특성(X) 데이터로 저장
X = df.drop(columns=["label"])

# 예측의 목표가 되는 정답(y) 데이터(= "label" 열)만 별도로 저장
y = df["label"]


'''
X, y를 나눔
random으로 섞어주고
y번의 레이블을 고려해서 맞춰라
'''

'''
X_train  :  훈련을 위한 feature(입력)들을 모아놓음
X_test   :  테스트를 위한 feature(입력)들을 모아놓음
y_train  :  훈련을 위한 label(정답)들을 모아놓음
y_test   :  테스트를 위한 label(정답)들을 모아놓음
'''

# X, y : 입력 데이터(X)와 정답 데이터(y)를 각각 넣음
# test_size=0.2 : 전체 데이터 중에서 20%를 테스트 데이터로 할당하고, 나머지 80%를 학습 데이터로 사용
# stratify=y : y의 클래스 비율이 학습 테이터와 테스트 데이터에 동일하게 분배되도록 함
# random_state=42 : 데이터 분할을 항상 동일하게 재현할 수 있도록 난수 시드(랜덤 시드)를 고정
X_train, X_test, y_train, y_test = train_test_split(

    X, y, test_size=0.2, stratify=y, random_state=42

)



# -----------------------------

# 2) 모델 구성

# -----------------------------

# 의사결정나무(Decision Tree) 분류기 객체 생성
# random_state=42 : 알고리즘 내 무작위성을 고정하여 결과 재현성 보장
dt = DecisionTreeClassifier(random_state=42)

# 랜덤 포레스트(Random Forest) 분류기 객체 생성
# n_estimators=200 : 트리를 200개 생성하여 집단(앙상블) 예측을 함
# random_state=42 : 결과의 재현성 확보
rf = RandomForestClassifier(n_estimators=200, random_state=42)

# 로지스틱 회귀(Logistic Regression) 분류기 객체 생성
# max_iter=500 : 최적화를 위한 반복 횟수 (최대 500회 시도)
lr = LogisticRegression(max_iter=500)



# -----------------------------

# 3) 모델 학습

# -----------------------------
# 훈련 데이터의 (정답, 값), (정답, 값)
# fit() : 각 모델은 학습 데이터의 패턴을 내부적으로 기억하게 되어 이후 예측(predict)이나 평가(score) 등의 작업 수행 가능

# 의사결정나무 모델에 대해 준비된 학습 데이터(X_train, y_train)를 사용해 모델의 내부 파라미터를 학습
dt.fit(X_train, y_train)

# 랜덤포레스트 모델에 대해 준비된 학습 데이터(X_train, y_train)를 사용해 모델의 내부 파라미터를 학습
rf.fit(X_train, y_train)

# 로지스틱 회귀 모델에 대해 준비된 학습 데이터(X_train, y_train)를 사용해 모델의 내부 파라미터를 학습
lr.fit(X_train, y_train)



# -----------------------------

# 4) 모델 평가

# -----------------------------

'''
accuracy_score()
- 예측값과 실제값이 얼마나 일치하는지 비율(0~1 사이)로 반환됨
- 1에 가까울수록 모델이 실제 정답과 잘 맞췄다는 의미
'''

# 의사결정나무 모델(dt)이 테스트 입력 데이터(X_test)를 예측한 결과(dt.predict(X_test))와 실제 정답 데이터(y_test)를 비교해 정확도를 계산하고 변수에 저장
dt_acc = accuracy_score(y_test, dt.predict(X_test))

# 랜덤포레스트 모델(rf)이 테스트 입력 데이터(X_test)를 예측한 결과(dt.predict(X_test))와 실제 정답 데이터(y_test)를 비교해 정확도를 계산하고 변수에 저장
rf_acc = accuracy_score(y_test, rf.predict(X_test))

# 로지스틱 회귀 모델(lr)이 테스트 입력 데이터(X_test)를 예측한 결과(dt.predict(X_test))와 실제 정답 데이터(y_test)를 비교해 정확도를 계산하고 변수에 저장
lr_acc = accuracy_score(y_test, lr.predict(X_test))



print("=== Test Accuracy ===")

print(f"Decision Tree : {dt_acc:.4f}")

print(f"Random Forest : {rf_acc:.4f}")

print(f"Logistic Reg. : {lr_acc:.4f}")



=== Test Accuracy ===
Decision Tree : 0.9333
Random Forest : 0.9000
Logistic Reg. : 0.9667


In [2]:
# 라이브러리 로딩
import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score



# -----------------------------

# 1) 데이터 준비

# -----------------------------

# 각 컬럼에 대한 컬럼명 추가
# 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 라벨
cols = ["sepal_length", "sepal_width", "petal_length", "petal_width", "label"]

# header가 없고 cols에 정의한 컬럼명을 부여함
df = pd.read_csv("/content/drive/MyDrive/data/iris.data", header=None, names=cols).dropna()

# 데이터프레임 불러옴
print(df)

     sepal_length  sepal_width  petal_length  petal_width           label
0             5.1          3.5           1.4          0.2     Iris-setosa
1             4.9          3.0           1.4          0.2     Iris-setosa
2             4.7          3.2           1.3          0.2     Iris-setosa
3             4.6          3.1           1.5          0.2     Iris-setosa
4             5.0          3.6           1.4          0.2     Iris-setosa
..            ...          ...           ...          ...             ...
145           6.7          3.0           5.2          2.3  Iris-virginica
146           6.3          2.5           5.0          1.9  Iris-virginica
147           6.5          3.0           5.2          2.0  Iris-virginica
148           6.2          3.4           5.4          2.3  Iris-virginica
149           5.9          3.0           5.1          1.8  Iris-virginica

[150 rows x 5 columns]


In [3]:
X

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [4]:
y

Unnamed: 0,label
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
...,...
145,Iris-virginica
146,Iris-virginica
147,Iris-virginica
148,Iris-virginica
