## IRIS 데이터 분류(의사결정나무, 랜덤포레스트, 서포트벡터머신, 로지스틱회귀)

In [18]:
# 사용 패키지 불러오기
import pandas as pd # 판다스
from sklearn.model_selection import train_test_split # 훈련/테스트 세트 분리
from sklearn.preprocessing import StandardScaler # 표준화
from sklearn.tree import DecisionTreeClassifier # DT
from sklearn.ensemble import RandomForestClassifier # RF
from sklearn.svm import SVC # SVM
from sklearn.linear_model import LogisticRegression # LR
from sklearn.metrics import accuracy_score # 정확도

In [19]:
# 붓꽃 데이터 CSV 파일 읽기
file_path = "C:/Users/samsung-user/OneDrive/바탕 화면/인공지능개론/iris.csv" 
df = pd.read_csv(file_path)

In [21]:
# 데이터프레임 확인
print(df.head())  
print(df.columns) 

   SepalLength  SepalWidth  PetalLength  PetalWidth         Name
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')


In [22]:
# 훈련 세트 & 테스트 세트 분할 (8:2)
X = df.drop(columns=['Name'])  # 타겟 변수 : 'species' (클래스 레이블)
y = df['Name']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [23]:
# 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [24]:
# 모델 : 의사결정나무(DT), 랜덤포레스트(RF), 서포트벡터머신(SVM), 로지스틱선형회귀(LR)
models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "SVM": SVC(kernel='linear', random_state=42),
    "Logistic Regression": LogisticRegression(max_iter=200, random_state=42)
}

In [25]:
# 모델 학습 및 평가
for name, model in models.items():
    if name in ["SVM", "Logistic Regression"]:  
        model.fit(X_train_scaled, y_train)  # 🔹 SVM, LR은 표준화 데이터 사용
        y_pred = model.predict(X_test_scaled)
    else:
        model.fit(X_train, y_train)  # 🔹 DT, RF는 원본 데이터 사용
        y_pred = model.predict(X_test)
    
    accuracy = accuracy_score(y_test, y_pred)
    print(f"{name} Accuracy: {accuracy:.4f}")

Decision Tree Accuracy: 0.9333
Random Forest Accuracy: 0.9000
SVM Accuracy: 1.0000
Logistic Regression Accuracy: 0.9333


In [None]:
# 결론 : 네가지 모델의 정확도가 모두 90% 이상으로 높게 나타남. 다만 정확도가 높다고 해서 항상 좋은 모델이라는 것은 아님.