# Basic Classification model(DT, RF, SVM, LR)
#### Documentation for operation test of basic classification model(DT, RF, SVM, LR)

### Import Libraries

In [21]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

## Classification(Learning, Test)

In [24]:
# 붓꽃 데이터 CSV 파일 읽기
file_path = "C:/Users/plo55/Downloads/iris.csv"  # 본인이 iris.csv를 저장한 경로를 입력합니다.
df = pd.read_csv(file_path)

# 데이터프레임 확인
print(df.head())  # 데이터의 처음 5행을 출력한다.
print(df.columns)  # 데이터의 컬럼명을 출력한다.

# 데이터 준비
X = df.drop('Name', axis=1) # 데이터 특성 (Name 컬럼 제외)
Y = df['Name'] # 레이블 (Name 컬럼)

# 데이터 분할 (Training Data 70%와 Test Data 30%)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

# 데이터 표준화
# SVM 모델과 LR 모델은 거리 기반 또는 경사 하강법을 사용하므로,
# 특성 값의 범위 차이가 크면 학습이 제대로 되지 않거나 성능이 저하될 수 있기 때문에 표준화된 데이터를 사용해야 한다.
# df.describe() 함수를 통해 확인해 본 결과 표준화된 데이터가 아니므로 표준화를 진행한다.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Decision Tree (DT)
dt_model = DecisionTreeClassifier() # DT 모델 생성.
dt_model.fit(X_train, Y_train) # 모델 학습.
dt_predictions = dt_model.predict(X_test) # 예측. 즉, dt_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Decision Tree Accuracy:", accuracy_score(Y_test, dt_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Random Forest (RF)
rf_model = RandomForestClassifier() # RF 모델 생성.
rf_model.fit(X_train, Y_train) # 모델 학습.
rf_predictions = rf_model.predict(X_test) # 예측. 즉, rf_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Random Forest Accuracy:", accuracy_score(Y_test, rf_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Support Vector Machine (SVM)
svm_model = SVC() # SVM 모델 생성.
svm_model.fit(X_train, Y_train) # 모델 학습.
svm_predictions = svm_model.predict(X_test) # 예측. 즉, svm_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("SVM Accuracy:", accuracy_score(Y_test, svm_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Logistic Regression (LR)
lr_model = LogisticRegression() # LR 모델 생성.
lr_model.fit(X_train, Y_train) # 모델 학습.
lr_predictions = lr_model.predict(X_test) # 예측. 즉, lr_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Logistic Regression Accuracy:", accuracy_score(Y_test, lr_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

   SepalLength  SepalWidth  PetalLength  PetalWidth         Name
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')
Decision Tree Accuracy: 1.0
Random Forest Accuracy: 1.0
SVM Accuracy: 1.0
Logistic Regression Accuracy: 1.0


## Input new data and test

In [27]:
# 새로운 데이터 입력
new_data = {
    'SepalLength': [5.1],  # 꽃받침 길이
    'SepalWidth': [3.5],   # 꽃받침 너비
    'PetalLength': [1.4],  # 꽃잎 길이
    'PetalWidth': [0.2]    # 꽃잎 너비
}
new_df = pd.DataFrame(new_data)

# 새로운 데이터도 표준화 적용
new_data_scaled = scaler.transform(new_df)

# 예측 수행
dt_pred = dt_model.predict(new_data_scaled)
rf_pred = rf_model.predict(new_data_scaled)
svm_pred = svm_model.predict(new_data_scaled)
lr_pred = lr_model.predict(new_data_scaled)

# 예측 결과 출력
print("Decision Tree 예측 결과:", dt_pred[0])
print("Random Forest 예측 결과:", rf_pred[0])
print("SVM 예측 결과:", svm_pred[0])
print("Logistic Regression 예측 결과:", lr_pred[0])


Decision Tree 예측 결과: Iris-setosa
Random Forest 예측 결과: Iris-setosa
SVM 예측 결과: Iris-setosa
Logistic Regression 예측 결과: Iris-setosa


## Input new data from the user and test

In [30]:
# 사용자로부터 입력 받기
SepalLength = float(input("꽃받침 길이를 입력하세요: "))
SepalWidth = float(input("꽃받침 너비를 입력하세요: "))
PetalLength = float(input("꽃잎 길이를 입력하세요: "))
PetalWidth = float(input("꽃잎 너비를 입력하세요: "))

# 새로운 데이터 입력
new_data = {
    'SepalLength': [SepalLength],
    'SepalWidth': [SepalWidth],
    'PetalLength': [PetalLength],
    'PetalWidth': [PetalWidth]
}
new_df = pd.DataFrame(new_data)

# 새로운 데이터도 표준화 적용
new_data_scaled = scaler.transform(new_df)

# 예측 수행
dt_pred = dt_model.predict(new_data_scaled)
rf_pred = rf_model.predict(new_data_scaled)
svm_pred = svm_model.predict(new_data_scaled)
lr_pred = lr_model.predict(new_data_scaled)

# 예측 결과 출력
print("Decision Tree 예측 결과:", dt_pred[0])
print("Random Forest 예측 결과:", rf_pred[0])
print("SVM 예측 결과:", svm_pred[0])
print("Logistic Regression 예측 결과:", lr_pred[0]) 

꽃받침 길이를 입력하세요:  3
꽃받침 너비를 입력하세요:  4
꽃잎 길이를 입력하세요:  5
꽃잎 너비를 입력하세요:  6


Decision Tree 예측 결과: Iris-virginica
Random Forest 예측 결과: Iris-virginica
SVM 예측 결과: Iris-virginica
Logistic Regression 예측 결과: Iris-virginica
