In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import joblib


In [None]:
# 1. 데이터 로드
print("\n[1단계] 데이터 로드 중...")
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='target')
print(" 데이터 샘플 예시:")
print(X.head())
print("\n 타겟 값 예시:")
print(y.head())



[1단계] 데이터 로드 중...
 데이터 샘플 예시:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2

 타겟 값 예시:
0    0
1    0
2    0
3    0
4    0
Name: target, dtype: int64


In [None]:
# 2. 전처리 (예시: 결측치 확인)
print("\n[2단계] 데이터 전처리 점검...")
print(" 결측치 여부 확인:")
print(X.isnull().sum())
print("\n 기본 통계량 확인:")
print(X.describe())



[2단계] 데이터 전처리 점검...
 결측치 여부 확인:
sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

 기본 통계량 확인:
       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  


In [None]:
# 3. 데이터 분할
print("\n[3단계] 데이터 분할 (train/test)...")
X_train, X_test, y_train, y_test = train_test_split(
 X, y, test_size=0.2, stratify=y, random_state=42
)
print(f" 훈련 데이터 크기: {X_train.shape}")
print(f" 테스트 데이터 크기: {X_test.shape}")
print("\n 훈련 데이터 예시:")
print(X_train.head())



[3단계] 데이터 분할 (train/test)...
 훈련 데이터 크기: (120, 4)
 테스트 데이터 크기: (30, 4)

 훈련 데이터 예시:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
8                  4.4               2.9                1.4               0.2
106                4.9               2.5                4.5               1.7
76                 6.8               2.8                4.8               1.4
9                  4.9               3.1                1.5               0.1
89                 5.5               2.5                4.0               1.3


In [None]:
# 4. 모델 학습
print("\n[4단계] 모델 학습(RandomForestClassifier)...")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
print(" 모델 학습 완료.")



[4단계] 모델 학습(RandomForestClassifier)...
 모델 학습 완료.


In [6]:
# 5. 모델 저장 및 로딩
print("\n[5단계] 학습된 모델 저장 및 로딩...")
joblib.dump(model, 'iris_rf_model.pkl')
print(" 모델 저장 완료 (iris_rf_model.pkl)")
loaded_model = joblib.load('iris_rf_model.pkl')
print(" 모델 로딩 완료")



[5단계] 학습된 모델 저장 및 로딩...
 모델 저장 완료 (iris_rf_model.pkl)
 모델 로딩 완료


In [7]:
# 6. 예측
print("\n[6단계] 테스트 데이터 예측 수행...")
print(" 예측에 사용될 테스트 데이터 샘플:")
print(X_test.head())
y_pred = loaded_model.predict(X_test)
print(" 예측 완료")



[6단계] 테스트 데이터 예측 수행...
 예측에 사용될 테스트 데이터 샘플:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
38                 4.4               3.0                1.3               0.2
127                6.1               3.0                4.9               1.8
57                 4.9               2.4                3.3               1.0
93                 5.0               2.3                3.3               1.0
42                 4.4               3.2                1.3               0.2
 예측 완료


In [8]:
# 7. 결과 평가
print("\n[7단계] 결과 평가")
accuracy = accuracy_score(y_test, y_pred)
print(f" 정확도: {accuracy:.4f}\n")
print(" 분류 리포트:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))


[7단계] 결과 평가
 정확도: 0.9000

 분류 리포트:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       0.82      0.90      0.86        10
   virginica       0.89      0.80      0.84        10

    accuracy                           0.90        30
   macro avg       0.90      0.90      0.90        30
weighted avg       0.90      0.90      0.90        30



In [9]:
# 8. 임의 데이터로 예측 수행
print("\n[8단계] 임의 데이터로 예측 수행...")
import numpy as np

# 임의의 데이터 생성 (Iris 데이터의 특징 범위 내에서)
random_data = np.array([
    [5.0, 3.2, 1.2, 0.2],  # setosa로 예상되는 데이터
    [6.5, 2.8, 4.6, 1.5],  # versicolor로 예상되는 데이터
    [7.2, 3.0, 6.1, 2.0]   # virginica로 예상되는 데이터
])

# 데이터프레임으로 변환 (모델이 pandas DataFrame을 기대할 경우)
random_df = pd.DataFrame(random_data, columns=iris.feature_names)

print(" 입력된 임의 데이터 샘플:")
print(random_df)

# 예측 수행
predictions = loaded_model.predict(random_df)

# 클래스 이름 매핑
predicted_classes = [iris.target_names[pred] for pred in predictions]

print("\n 예측 결과:")
for i, pred in enumerate(predicted_classes):
    print(f"샘플 {i+1}: {pred}")


[8단계] 임의 데이터로 예측 수행...
 입력된 임의 데이터 샘플:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.0               3.2                1.2               0.2
1                6.5               2.8                4.6               1.5
2                7.2               3.0                6.1               2.0

 예측 결과:
샘플 1: setosa
샘플 2: versicolor
샘플 3: virginica
