In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 데이터 이해 및 탐색

In [None]:
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

In [None]:
names = iris["target_names"].tolist()
df['target'] = df['target'].map({0: names[0], 1: names[1], 2: names[2]})
names

In [None]:
# 데이터 샘플
df.head()

In [None]:
# 데이터 요약
df.describe().T

In [None]:
# 클래스 분포
df['target'].value_counts()

In [None]:
sns.set(style="ticks")
sns.pairplot(df, hue='target', markers=["o", "s", "D"], height=2, aspect=1)
plt.suptitle("Iris Dataset Pair Plot", y=1.02)  # 그래프 제목 추가
plt.show()

In [None]:
filtered_df = df[df['target'].isin(["setosa", "versicolor"])]
sns.set(style="ticks")
sns.pairplot(filtered_df, hue='target', height=2, aspect=1)
plt.suptitle("Iris Dataset Pair Plot", y=1.02)  # 그래프 제목 추가
plt.show()

# 데이터 전처리

In [None]:
# 결측치 확인
df.isnull().sum()

In [None]:
# 피처 이름 정리 (공백 제거)
df.columns = [col.replace(" (cm)", "").replace(" ", "_") for col in df.columns]

In [None]:
df.head()

# 피처 엔지니어링

In [None]:
# 예: petal 길이와 너비의 비율 추가
df['petal_ratio'] = df['petal_length'] / df['petal_width']
df['sepal_ratio'] = df['sepal_length'] / df['sepal_width']

# 데이터 분할 (데이터, 레이블)

In [None]:
X = df.drop('target', axis=1)
y = df['target']

In [None]:
X.shape, y.shape

# 표준화

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
pd.DataFrame(X_scaled).describe().T

In [None]:
X_scaled.shape

# 훈련/검증 세트 분할

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

In [None]:
X_train.shape, y_train.shape

In [None]:
X_test.shape, y_test.shape

# 모델링

In [None]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 성능 평가

In [None]:
print(classification_report(y_test, y_pred))

- precision(정밀도): 모델이 “그 클래스라고 예측한 것” 중 실제로 맞은 비율
- recall(재현율): “실제로 그 클래스인 것” 중 모델이 맞게 찾아낸 비율
- f1-score: 정밀도와 재현율의 조화평균
- support: 각 클래스의 실제 샘플 수

In [None]:
# 혼동 행렬
conf_mat = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_mat, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
plt.show()