In [None]:
# 스태킹은 잘 활용하면 강력한 기법이지만, 무조건 성능을 향상시키는 것은 아닙니다. 모델 간의 상호작용, 데이터의 특성, 모델의 다양성 등을 고려해야 하며, 
# 이를 잘 조정하지 못하면 단일 모델보다 성능이 떨어질 수 있습니다. 성능이 떨어지는 이유를 분석하고, 이를 개선하기 위한 실험과 튜닝이 필요합니다.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.ensemble import StackingClassifier

# 데이터셋 로드
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 기본 학습자들
estimators = [
    ('rf', RandomForestClassifier(n_estimators=10, random_state=42)),
    ('gb', GradientBoostingClassifier(n_estimators=10, random_state=42))
]

# 스태킹 모델 (메타 학습자: 로지스틱 회귀)
stacking_clf = StackingClassifier(
    estimators=estimators,
    final_estimator=LogisticRegression()
)

# 학습 및 평가
stacking_clf.fit(X_train, y_train)
accuracy = stacking_clf.score(X_test, y_test)

print(f"Stacking Model Accuracy: {accuracy}")


Stacking Model Accuracy: 1.0


In [3]:
from sklearn.preprocessing import StandardScaler
import pandas as pd
fish = pd.read_csv('http://bit.ly/fish_csv_data')
fish['Species'].unique() # ['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt']
fish.head(2)
fish.columns # ['Species', 'Weight', 'Length', 'Diagonal', 'Height', 'Width']
# fish = fish.loc[(fish['Species']=='Bream') | (fish['Species']=='Smelt')] #Bream, Smelt 두개만 , 이진분류
fish1 = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']]
print(type(fish1))# <class 'pandas.core.frame.DataFrame'>
fish2 = fish1.values
print(type(fish2)) # <class 'numpy.ndarray'>
fish3 = fish['Species'].values
fish['Species'].unique()
X_train, X_test, y_train, y_test = train_test_split(fish2, fish3, random_state=42)
# StandardScaler 객체 생성
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

# 기본 학습자들
estimators = [
    ('rf', RandomForestClassifier(n_estimators=10, random_state=42)),
    ('gb', GradientBoostingClassifier(n_estimators=10, random_state=42))
]

# 스태킹 모델 (메타 학습자: 로지스틱 회귀)
stacking_clf = StackingClassifier(
    estimators=estimators,
    final_estimator=LogisticRegression()
)

# 학습 및 평가
stacking_clf.fit(X_train, y_train)
accuracy = stacking_clf.score(X_test, y_test)

print(f"Stacking Model Accuracy: {accuracy}")



<class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'>




Stacking Model Accuracy: 0.675
