In [24]:
# sklearn(Scikit-learn) - 파이썬 머신러닝 라이브리리
import pandas as pd
from sklearn.model_selection import train_test_split # 데이터를 train, test로 나누는 데 사용됨
from sklearn.preprocessing import StandardScaler # 데이터를 표준화하는 데 사용됨
from sklearn.tree import DecisionTreeClassifier # 결정 트리 모델을 학습시키는 데 사용됨
from sklearn.ensemble import RandomForestClassifier # 랜덤 포레스트
from sklearn.svm import SVC # 서포트 벡터 머신
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델
from sklearn.metrics import accuracy_score # 모델의 예측 성능 평가

In [25]:
# 1. 데이터 로드
# 붓꽃 데이터 CSV 파일 읽기
file_path = "C:/iris.csv"
df = pd.read_csv(file_path) # pandas.DataFrame 타입을 반환(2차원 데이터 구조)

# 데이터 프레임 확인
print(df.head()) # 처음 5개의 행 반환
print(df.columns) # 열 이름 확인, Index 객체 반환

   SepalLength  SepalWidth  PetalLength  PetalWidth         Name
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')


In [26]:
# 2. 데이터 분할
x = df.drop(columns=['Name']) # label인 'Name' 열을 제외한 열들을 포함시킴
y = df['Name'] # 'Name' 열 선택
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42) # test_size -> 테스트 데이터의 비율, random_state -> 난수 시드(같은 데이터 분할을 위해 사용)

In [27]:
# 3. 데이터 정규화
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train) # train 데이터의 평균과 표준편차를 계산하고 변환
x_test = scaler.transform(x_test) # test 데이터를 변환 -> train 데이터에서 구한 평균과 표준편차를 그대로 사용

In [28]:
# 4. 결정 트리 학습 및 평가
dt_model = DecisionTreeClassifier()
dt_model.fit(x_train, y_train) # 학습
dt_pred = dt_model.predict(x_test) # 예측
dt_accuracy = accuracy_score(y_test, dt_pred) # 정답률
print(f"Decision Tree Accuracy: {dt_accuracy:.4f}")

Decision Tree Accuracy: 1.0000


In [29]:
# 5. 랜덤 포레스트 학습 및 평가
rf_model = RandomForestClassifier()
rf_model.fit(x_train, y_train)
rf_pred = rf_model.predict(x_test)
rf_accuracy = accuracy_score(y_test, rf_pred)
print(f"Random Forest Accuracy: {rf_accuracy:.4f}")

Random Forest Accuracy: 1.0000


In [30]:
# 6. SVM 학습 및 평가
svm_model = SVC()
svm_model.fit(x_train, y_train)
svm_pred = svm_model.predict(x_test)
svm_accuracy = accuracy_score(y_test, svm_pred)
print(f"SVM Accuracy: {svm_accuracy:.4f}")

SVM Accuracy: 1.0000


In [31]:
# 7. 로지스틱 회귀 학습 및 평가
lr_model = LogisticRegression(max_iter=200)
lr_model.fit(x_train, y_train)
lr_pred = lr_model.predict(x_test)
lr_accuracy = accuracy_score(y_test, lr_pred)
print(f"Logistic Regression Accuracy: {lr_accuracy:.4f}")

Logistic Regression Accuracy: 1.0000
