In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.preprocessing import LabelEncoder

# CSV 파일 불러오기
file_path = "D:/iris.csv"  
df = pd.read_csv(file_path)  # CSV 파일을 불러와 데이터프레임 생성

# 데이터 확인
print("데이터 확인 (상위 5개 행 출력):")
print(df.head())  # 데이터가 어떻게 생겼는지 확인
print("\n열 이름 확인:")
print(df.columns)  # 열(column) 이름 출력

# 'Name' 컬럼을 숫자로 변환 (Label Encoding)
encoder = LabelEncoder()
df['species'] = encoder.fit_transform(df['Name'])  # 문자열을 숫자로 변환

# 입력(X)과 출력(y) 분리
X = df.drop(columns=['Name'])  # 입력(features): 꽃의 특성 (Name 제외)
y = df['species']  # 출력(label): 숫자로 변환된 품종

# 데이터 분할 (훈련 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # stratify=y를 추가하여 클래스 비율 유지

# 1. 의사결정 나무 (Decision Tree)
dt_model = DecisionTreeClassifier(random_state=42)  # 모델 생성
dt_model.fit(X_train, y_train)  # 학습
dt_pred = dt_model.predict(X_test)  # 예측
print("\n--- Decision Tree Classifier ---")
print(f"Accuracy: {accuracy_score(y_test, dt_pred):.4f}")  # 정확도 출력
print("Confusion Matrix:")
print(confusion_matrix(y_test, dt_pred))  # 혼동 행렬 출력

# 2. 랜덤 포레스트 (Random Forest)
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)  # 모델 생성 (100개의 트리 사용)
rf_model.fit(X_train, y_train)  # 학습
rf_pred = rf_model.predict(X_test)  # 예측
print("\n--- Random Forest Classifier ---")
print(f"Accuracy: {accuracy_score(y_test, rf_pred):.4f}")  # 정확도 출력
print("Confusion Matrix:")
print(confusion_matrix(y_test, rf_pred))  # 혼동 행렬 출력

# 3. 서포트 벡터 머신 (SVM)
svm_model = SVC(kernel='linear', random_state=42)  # 선형 커널 SVM 모델 생성
svm_model.fit(X_train, y_train)  # 학습
svm_pred = svm_model.predict(X_test)  # 예측
print("\n--- SVM Classifier ---")
print(f"Accuracy: {accuracy_score(y_test, svm_pred):.4f}")  # 정확도 출력
print("Confusion Matrix:")
print(confusion_matrix(y_test, svm_pred))  # 혼동 행렬 출력

# 4. 로지스틱 회귀 (Logistic Regression)
lr_model = LogisticRegression(max_iter=200, random_state=42)  # 학습 횟수 200회 설정
lr_model.fit(X_train, y_train)  # 학습
lr_pred = lr_model.predict(X_test)  # 예측
print("\n--- Logistic Regression Classifier ---")
print(f"Accuracy: {accuracy_score(y_test, lr_pred):.4f}")  # 정확도 출력
print("Confusion Matrix:")
print(confusion_matrix(y_test, lr_pred))  # 혼동 행렬 출력


데이터 확인 (상위 5개 행 출력):
   SepalLength  SepalWidth  PetalLength  PetalWidth         Name
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa

열 이름 확인:
Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')

--- Decision Tree Classifier ---
Accuracy: 1.0000
Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]

--- Random Forest Classifier ---
Accuracy: 1.0000
Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]

--- SVM Classifier ---
Accuracy: 1.0000
Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]

--- Logistic Regression Classifier ---
Accuracy: 1.0000
Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
