In [27]:
# 필요한 라이브러리 임포트
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from google.colab import drive
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

file_path = '/content/drive/MyDrive/Colab Notebooks/iris.data'
column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

In [28]:
df = pd.read_csv(file_path, header=None, names=column_names)

In [29]:
# 파일 head 확인
print("--- 원본 데이터 상위 5개 행 ---")
print(df.head())
print("-" * 30)

--- 원본 데이터 상위 5개 행 ---
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa
------------------------------


In [30]:
# 결측치 확인
print(df.isnull().sum())

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
class           0
dtype: int64


In [31]:
# 데이터 전처리 및 분리
# 특성(X)과 레이블(y) 분리
X = df.drop('class', axis=1)
y = df['class']

In [32]:
# 훈련 데이터, 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"훈련 데이터 크기: {len(X_train)}")
print(f"테스트 데이터 크기: {len(X_test)}")

훈련 데이터 크기: 120
테스트 데이터 크기: 30


In [33]:
# 랜덤 포레스트(Random Forest) 모델 학습 및 평가
print("--- 랜덤 포레스트 분류 결과 ---")
# 모델 초기화 및 학습
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# 예측
y_pred_rf = rf_model.predict(X_test)

# 성능 평가
accuracy_rf = accuracy_score(y_test, y_pred_rf)
report_rf = classification_report(y_test, y_pred_rf)

print(f"정확도 (Accuracy): {accuracy_rf:.2f}")
print("분류 보고서 (Classification Report):\n", report_rf)

--- 랜덤 포레스트 분류 결과 ---
정확도 (Accuracy): 1.00
분류 보고서 (Classification Report):
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30



In [34]:
# 로지스틱 회귀(Logistic Regression) 모델 학습 및 평가
print("--- 로지스틱 회귀 분류 결과 ---")
# 모델 초기화 및 학습
lr_model = LogisticRegression(max_iter=200, random_state=42)
lr_model.fit(X_train, y_train)

# 예측
y_pred_lr = lr_model.predict(X_test)

# 성능 평가
accuracy_lr = accuracy_score(y_test, y_pred_lr)
report_lr = classification_report(y_test, y_pred_lr)

print(f"정확도 (Accuracy): {accuracy_lr:.2f}")
print("분류 보고서 (Classification Report):\n", report_lr)

--- 로지스틱 회귀 분류 결과 ---
정확도 (Accuracy): 1.00
분류 보고서 (Classification Report):
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30



In [35]:
# 1. 결정 트리(DT) 모델 학습 및 평가
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
dt_pred = dt_model.predict(X_test)
dt_acc = accuracy_score(y_test, dt_pred)
print(f"Decision Tree Accuracy: {dt_acc:.4f}")

# 2. 랜덤 포레스트(RF) 모델 학습 및 평가
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)
rf_acc = accuracy_score(y_test, rf_pred)
print(f"Random Forest Accuracy: {rf_acc:.4f}")

# 3. 서포트 벡터 머신(SVM) 모델 학습 및 평가
svm_model = SVC(random_state=42)
svm_model.fit(X_train, y_train)
svm_pred = svm_model.predict(X_test)
svm_acc = accuracy_score(y_test, svm_pred)
print(f"SVM Accuracy: {svm_acc:.4f}")

# 4. 로지스틱 회귀(LR) 모델 학습 및 평가
lr_model = LogisticRegression(max_iter=200, random_state=42)
lr_model.fit(X_train, y_train)
lr_pred = lr_model.predict(X_test)
lr_acc = accuracy_score(y_test, lr_pred)
print(f"Logistic Regression Accuracy: {lr_acc:.4f}")

Decision Tree Accuracy: 1.0000
Random Forest Accuracy: 1.0000
SVM Accuracy: 1.0000
Logistic Regression Accuracy: 1.0000


In [36]:
# 새로운 데이터로 예측
print("--- 새로운 데이터로 예측 ---")
new_data_features = np.array([[5.1, 3.5, 1.4, 0.2]])
new_data_df = pd.DataFrame(new_data_features, columns=column_names[:-1])

# 랜덤 포레스트로 예측
rf_prediction = rf_model.predict(new_data_df)
print(f"랜덤 포레스트 모델의 예측 결과: {rf_prediction[0]}")

# 로지스틱 회귀로 예측
lr_prediction = lr_model.predict(new_data_df)
print(f"로지스틱 회귀 모델의 예측 결과: {lr_prediction[0]}")
print("-" * 30)

--- 새로운 데이터로 예측 ---
랜덤 포레스트 모델의 예측 결과: Iris-setosa
로지스틱 회귀 모델의 예측 결과: Iris-setosa
------------------------------
