# 1주차 붓꽃 데이터 활용 (RF, DT, SVM, LR)

## 붓꽃(Iris) 데이터셋을 사용해 Random Forest(RF), Decision Tree(DT), Support Vector Machine(SVM), **Logistic Regression(LR)**으로 분류하는 파이썬 코드

In [10]:
import pandas as pd

# 붓꽃 데이터 CSV 파일 읽기
file_path = "./iris.csv"  # 본인이 iris.csv를 저장한 경로를 입력합니다.
df = pd.read_csv(file_path)

# 데이터프레임 확인
df.head()
print(df.columns)

Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')


In [11]:
# 필요한 라이브러리 임포트
from sklearn.datasets import load_iris  # 붓꽃 데이터셋 로드
from sklearn.model_selection import train_test_split  # 데이터 분할
from sklearn.preprocessing import StandardScaler  # 데이터 표준화
from sklearn.metrics import accuracy_score, classification_report  # 평가 지표

# 1. 데이터 로드
iris = load_iris()  # 붓꽃 데이터셋 로드
X = iris.data       # 특성 (꽃잎 길이, 꽃잎 너비 등)
y = iris.target     # 레이블 (0: setosa, 1: versicolor, 2: virginica)

# 2. 학습/테스트 데이터 분리 (80:20 비율)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 데이터 표준화 (SVM과 LR은 스케일 조정이 중요)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 공통 부분 : 데이터 로드 및 전처리
### 데이터를 불러오고 학습/테스트 데이터로 나누고, 일부 모델은 표준화(스케일링)를 수행

In [12]:
from sklearn.ensemble import RandomForestClassifier

# 1. 모델 초기화 (100개의 트리 사용)
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# 2. 학습
rf_model.fit(X_train, y_train)

# 3. 예측
rf_preds = rf_model.predict(X_test)

# 4. 평가
print("Random Forest Accuracy:", accuracy_score(y_test, rf_preds))
print(classification_report(y_test, rf_preds))

Random Forest Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## Random Forest (RF)
### 여러 개의 결정 트리를 만들어 예측 결과를 투표(앙상블)해서 최종 걸과 도출

In [13]:
from sklearn.tree import DecisionTreeClassifier

# 1. 모델 초기화
dt_model = DecisionTreeClassifier(random_state=42)

# 2. 학습
dt_model.fit(X_train, y_train)

# 3. 예측
dt_preds = dt_model.predict(X_test)

# 4. 평가
print("Decision Tree Accuracy:", accuracy_score(y_test, dt_preds))
print(classification_report(y_test, dt_preds))

Decision Tree Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## Decision Tree(DT)
### 특성 값을 기준으로 데이터를 반복적으로 나눠 나무 형태의 구조 생성

In [14]:
from sklearn.svm import SVC

# 1. 모델 초기화 (선형 커널 사용)
svm_model = SVC(kernel='linear', random_state=42)

# 2. 학습 (스케일 조정된 데이터 사용)
svm_model.fit(X_train_scaled, y_train)

# 3. 예측
svm_preds = svm_model.predict(X_test_scaled)

# 4. 평가
print("SVM Accuracy:", accuracy_score(y_test, svm_preds))
print(classification_report(y_test, svm_preds))

SVM Accuracy: 0.9666666666666667
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94         9
           2       0.92      1.00      0.96        11

    accuracy                           0.97        30
   macro avg       0.97      0.96      0.97        30
weighted avg       0.97      0.97      0.97        30



## Support Vector Machine (SVM)
### 데이터를 고차원 공간에 투영해 초평면을 찾아 데이터를 분류

In [15]:
from sklearn.linear_model import LogisticRegression

# 1. 모델 초기화
lr_model = LogisticRegression(max_iter=200, random_state=42)

# 2. 학습 (스케일 조정된 데이터 사용)
lr_model.fit(X_train_scaled, y_train)

# 3. 예측
lr_preds = lr_model.predict(X_test_scaled)

# 4. 평가
print("Logistic Regression Accuracy:", accuracy_score(y_test, lr_preds))
print(classification_report(y_test, lr_preds))

Logistic Regression Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## Logistic Regression (LR)
### 시그모이드 함수(로지스틱 함수)를 사용해 클래스 확률 예측

In [16]:
print(f"Random Forest Accuracy: {accuracy_score(y_test, rf_preds):.2f}")
print(f"Decision Tree Accuracy: {accuracy_score(y_test, dt_preds):.2f}")
print(f"SVM Accuracy: {accuracy_score(y_test, svm_preds):.2f}")
print(f"Logistic Regression Accuracy: {accuracy_score(y_test, lr_preds):.2f}")

Random Forest Accuracy: 1.00
Decision Tree Accuracy: 1.00
SVM Accuracy: 0.97
Logistic Regression Accuracy: 1.00


## 성능 비교
### 각 모델의 정확도를 비교해서 성능 평가

|   모델   |  핵심 아이디어 | 장점   |   단점   |
|--------|--------|--------|--------|
| Random Forest | 다수의 결정 트리를 앙상블 | 과적합 방지, 강력한 성능 | 속도 느림  |
| Decision Tree | 데이터를 트리 구조로 분류 | 해석 쉬움 | 과적합 위험   |
|  SVM  |  초평면으로 데이터 분류   |  복잡한 데이터에 강함  |  느리고 스케일링 필요  |
|  Logistic Regression  |  시그모이드 함수로 확률 예측  |  간결하고 빠름  | 복잡한 데이터엔 부적합 |