In [None]:
변수선택법이 적용되는 모델

회귀 모델(Regression Models):
선형 회귀(Linear Regression)
로지스틱 회귀(Logistic Regression)
릿지 회귀(Ridge Regression)
라쏘 회귀(Lasso Regression)
회귀 모델에서 변수 선택법은 모델의 설명력을 높이고, 불필요한 변수를 제거해 모델의 해석 가능성을 높이는 데 유용합니다.

분류 모델(Classification Models):
의사결정나무(Decision Trees)
랜덤 포레스트(Random Forest)
서포트 벡터 머신(Support Vector Machines, SVM)
k-최근접 이웃(k-Nearest Neighbors, k-NN)
분류 모델에서도 변수 선택은 중요한 역할을 하며, 특히 고차원 데이터셋에서 과적합을 방지하는 데 효과적입니다.
클러스터링(Clustering) 및 차원 축소(Dimensionality Reduction):

K-평균(K-Means)
주성분 분석(Principal Component Analysis, PCA)
t-SNE
차원 축소 기법은 변수 선택법의 일종으로, 데이터의 차원을 줄이면서도 중요한 정보를 유지하는 데 중점을 둡니다.

앙상블 모델(Ensemble Models):
랜덤 포레스트(Random Forest)
그래디언트 부스팅(Gradient Boosting)
앙상블 모델에서는 변수 중요도를 기반으로 한 변수 선택이 자주 사용됩니다.

변수선택법 유형

# 필터 방법(Filter Methods):
분산 임계값(Variance Threshold): 일정 수준 이하의 분산을 가진 변수를 제거합니다.
상관계수(Correlation Coefficient): 종속 변수와의 상관관계에 따라 변수를 선택합니다.
카이 제곱 검정(Chi-Square Test): 카이 제곱 통계를 이용해 독립성과 연관성이 높은 변수를 선택합니다.

# 랩퍼 방법(Wrapper Methods):
전진 선택법(Forward Selection), 후진 제거법(Backward Elimination): 반복적으로 변수를 추가하거나 제거하여 모델의 성능을 최적화합니다.
RFE(Recursive Feature Elimination): 모델을 반복적으로 학습시켜 가장 덜 중요한 변수를 제거하는 방식입니다.

# 임베디드 방법(Embedded Methods):
라쏘(Lasso) 및 릿지(Ridge) 회귀: 페널티를 사용해 불필요한 변수를 자연스럽게 제거합니다.
트리 기반 방법(Tree-based Methods): 의사결정나무, 랜덤 포레스트 등의 모델에서 변수 중요도를 계산해 변수를 선택합니다.



변수선택방법 (필터방법)
#
분산 임계값

# module import
import numpy as np
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
# VarianceThreshold 객체 생성 (임계값을 0.1로 설정)
selector = VarianceThreshold(threshold=0.1)
X_reduced = selector.fit_transform(df)

# 선택된 변수의 인덱스 확인
selected_features = df.columns[selector.get_support()]

print("\nSelected features:")
print(selected_features)

# 변환된 데이터 출력
print("\nReduced data:")
print(X_reduced)

# 참고사항
임계값 선택: 임계값을 너무 낮게 설정하면 중요한 변수가 제거될 수 있습니다. 반대로, 너무 높게 설정하면 불필요한 변수들이 남을 수 있습니다.
데이터의 스케일: 변수가 스케일이 다른 경우, 데이터 표준화(Standardization)를 수행한 후 분산 임계값을 적용하는 것이 좋습니다.

#
상관계수 

# module import
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# 보스턴 주택 가격 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터프레임으로 결합
df = pd.concat([X, y], axis=1)

# 각 독립 변수와 종속 변수 간의 상관계수 계산
correlation_matrix = df.corr()
correlation_with_target = correlation_matrix['PRICE'].drop('PRICE')

print("Correlation with target variable (PRICE):")
print(correlation_with_target)

# 상관계수가 높은 변수 선택 (임계값 설정: 0.5)
selected_features = correlation_with_target[abs(correlation_with_target) > 0.5].index

print("\nSelected features based on correlation:")
print(selected_features)

#
카이제곱검정

# module import
import pandas as pd
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Iris 데이터셋 로드
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 데이터 표준화 (카이제곱 검정은 비율에 영향을 받을 수 있으므로 표준화가 필요)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 카이제곱 검정을 사용하여 특성 선택
selector = SelectKBest(score_func=chi2, k='all')  # 모든 특성에 대해 검정
selector.fit(X_train_scaled, y_train)

# 각 특성의 카이제곱 통계량과 p-value 출력
scores = selector.scores_
p_values = selector.pvalues_

features = X.columns
results = pd.DataFrame({
    'Feature': features,
    'Chi2 Score': scores,
    'p-value': p_values
})

print(results)

# k 최적 값으로 특정 특성만 선택할 수 있습니다. 예를 들어, 가장 중요한 2개의 특성 선택
selector = SelectKBest(score_func=chi2, k=2)
X_train_selected = selector.fit_transform(X_train_scaled, y_train)
X_test_selected = selector.transform(X_test_scaled)

# 선택된 특성의 인덱스
selected_features = X.columns[selector.get_support()]

print("\nSelected features:")
print(selected_features)

# 주의사항
카이제곱 검정의 전제 조건: 카이제곱 검정은 특성이 범주형 데이터일 때 가장 적합합니다. 연속형 데이터는 카이제곱 검정을 직접 적용하기 어렵습니다. 이 예제에서는 연속형 데이터를 사용하므로, 실제 적용 시에는 적절한 전처리와 변환이 필요할 수 있습니다.
데이터의 스케일: 카이제곱 검정은 데이터의 스케일에 영향을 받을 수 있으므로, 특성 스케일링이 중요합니다.

변수선택방법 (랩퍼방법)

#
전진선택법

# module import
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.metrics import mean_squared_error

# 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 회귀 모델 생성
model = LinearRegression()

# 전진 선택법을 사용하여 변수 선택
selector = SequentialFeatureSelector(model, n_features_to_select='auto', direction='forward', scoring='neg_mean_squared_error', cv=5)
selector.fit(X_train, y_train)

# 선택된 변수들
selected_features = X.columns[selector.get_support()]

print("Selected features:")
print(selected_features)

# 모델을 학습하고 성능 평가
model.fit(X_train[selected_features], y_train)
y_pred = model.predict(X_test[selected_features])
mse = mean_squared_error(y_test, y_pred)

print("\nMean Squared Error with selected features:")
print(mse)

# 참고사항
중지 기준: SequentialFeatureSelector는 내부적으로 교차 검증을 통해 모델의 성능을 평가하고, 변수 추가 시 성능 향상이 없을 때 중지합니다.
모델 성능 평가: scoring 파라미터를 통해 모델 성능 평가 지표를 설정할 수 있습니다. 회귀 문제에서는 'neg_mean_squared_error'와 같은 지표를 사용할 수 있습니다.
교차 검증: cv 파라미터를 통해 교차 검증의 folds 수를 설정할 수 있습니다.

전진 선택법은 변수 선택을 자동화하고, 모델의 성능을 최적화하는 데 유용한 방법입니다. 하지만, 변수 선택의 결과는 데이터와 모델에 따라 달라질 수 있으므로, 다른 변수 선택 기법과 함께 사용하여 최적의 결과를 얻는 것이 좋습니다.

#
 후진제거법
 # module import
 import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 후진 제거법 함수 정의
def backward_elimination(X, y, significance_level=0.05):
    """Perform backward elimination for feature selection."""
    features = X.columns
    while len(features) > 0:
        # 모델 학습
        X_with_const = sm.add_constant(X[features])  # 상수항 추가
        model = sm.OLS(y, X_with_const).fit()
        
        # p-value가 가장 높은 변수 확인
        p_values = model.pvalues
        max_p_value = p_values.max()
        if max_p_value > significance_level:
            # p-value가 임계값보다 크면 해당 변수 제거
            feature_to_remove = p_values.idxmax()
            features = features.drop(feature_to_remove)
        else:
            # 모든 변수의 p-value가 임계값 이하이면 종료
            break

    return features

# 후진 제거법 수행
selected_features = backward_elimination(X_train, y_train)

print("Selected features after backward elimination:")
print(selected_features)

# 선택된 특성으로 모델 학습 및 평가
X_train_selected = X_train[selected_features]
X_test_selected = X_test[selected_features]

# 최종 모델 학습
model = sm.OLS(y_train, sm.add_constant(X_train_selected)).fit()
y_pred = model.predict(sm.add_constant(X_test_selected))

# 성능 평가
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

print("\nMean Squared Error with selected features:")
print(mse)

# 참고사항
p-value: p-value는 변수의 중요성을 나타내는 지표로, 보통 0.05 이하일 때 해당 변수가 통계적으로 유의미하다고 간주합니다.
중지 기준: 후진 제거법은 p-value 외에도 다른 기준을 사용할 수 있습니다 (예: AIC, BIC 등).
성능 평가: 모델의 성능을 평가하여 최종 모델의 성능이 개선되었는지 확인합니다.
후진 제거법은 모든 변수를 포함한 상태에서 시작하여 단계적으로 변수들을 제거하는 방법으로, 모델의 성능을 최적화하는 데 유용합니다. 데이터와 모델의 특성에 따라 최적의 변수를 선택하는 과정에서 유연하게 적용할 수 있습니다.

# 
RFE
# module import 
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.metrics import mean_squared_error

# 보스턴 주택 가격 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 회귀 모델 생성
model = LinearRegression()

# RFE를 사용한 변수 선택
selector = RFE(estimator=model, n_features_to_select=5)  # 선택할 변수 개수 설정
selector = selector.fit(X_train, y_train)

# 선택된 변수들
selected_features = X.columns[selector.support_]

print("Selected features:")
print(selected_features)

# 선택된 특성으로 모델 학습 및 평가
X_train_selected = X_train[selected_features]
X_test_selected = X_test[selected_features]

# 최종 모델 학습
model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)
mse = mean_squared_error(y_test, y_pred)

print("\nMean Squared Error with selected features:")
print(mse)

# 참고사항
변수 개수 설정: n_features_to_select를 통해 선택할 변수의 개수를 설정할 수 있습니다. 이 값을 조정하여 최적의 변수 개수를 찾는 것이 좋습니다.
다양한 모델: RFE는 회귀뿐만 아니라 분류 모델에도 적용할 수 있습니다. estimator 파라미터를 변경하여 다른 모델을 사용할 수 있습니다.
변수 중요도 평가: RFE는 모델의 변수 중요도를 기반으로 변수를 선택합니다. 따라서, 모델의 성능이 중요한 요소가 됩니다.
RFE는 변수 선택을 자동화하고, 모델의 성능을 최적화하는 데 유용한 방법입니다. 데이터의 특성에 맞게 변수 선택 과정을 조정하고, 다양한 모델을 실험하여 최적의 성능을 얻는 것이 좋습니다.

#
엘라스틱넷

# module import
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import ElasticNetCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 데이터 로드
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 엘라스틱넷 모델 생성 및 학습
# ElasticNetCV는 교차 검증을 통해 최적의 α와 l1_ratio(ρ)를 찾습니다.
model = ElasticNetCV(cv=5, random_state=42)
model.fit(X_train, y_train)

# 선택된 변수의 가중치 확인
selected_features = X.columns[model.coef_ != 0]
print("Selected features using ElasticNet:")
print(selected_features)

# 선택된 변수들로 모델 재학습 및 성능 평가
X_train_selected = X_train[selected_features]
X_test_selected = X_test[selected_features]

model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)

# 모델 성능 평가 (예: MSE)
mse = mean_squared_error(y_test, y_pred)
print("\nMean Squared Error with selected features:")
print(mse)

# colusion
최종 결론
엘라스틱넷은 회귀 모델에서 변수 선택을 효과적으로 수행할 수 있는 강력한 방법입니다. 이 방법은 특히 다중공선성이 있는 데이터나 고차원 데이터에서 유용하며, 선택된 변수들로 모델을 더 간결하고 해석 가능하게 만들 수 있습니다.

변수선택법 (임베디드방법)

#
라쏘 회귀
# module import
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel

# 보스턴 주택 가격 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 라쏘 회귀 모델 생성
lasso = Lasso(alpha=0.1)  # alpha는 정규화 강도
lasso.fit(X_train, y_train)

# 중요 변수 추출
model = SelectFromModel(lasso, prefit=True)
X_train_selected = model.transform(X_train)
X_test_selected = model.transform(X_test)

# 오류 발생 시 
lasso_selected = Lasso(alpha=0.1)
lasso_selected.fit(X_train_selected, y_train)

# 선택된 변수들
selected_features = X.columns[model.get_support()]

print("Selected features using Lasso regression:")
print(selected_features)

# 모델 성능 평가
from sklearn.metrics import mean_squared_error
y_pred = lasso.predict(X_test_selected)
mse = mean_squared_error(y_test, y_pred)

print("\nMean Squared Error with selected features:")
print(mse)

#
릿지 회귀
# module import
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge

# 보스턴 주택 가격 데이터 로드
data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='PRICE')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 릿지 회귀 모델 생성
ridge = Ridge(alpha=1.0)  # alpha는 정규화 강도
ridge.fit(X_train, y_train)

# 계수의 크기로 변수 중요도 평가
coefficients = pd.Series(ridge.coef_, index=X.columns)

# 중요 변수 추출 (계수의 절대값 기준)
important_features = coefficients[abs(coefficients) > 0.1].index

print("Important features using Ridge regression:")
print(important_features)

# 모델 성능 평가
from sklearn.metrics import mean_squared_error
y_pred = ridge.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print("\nMean Squared Error with selected features:")
print(mse)
# colusion
라쏘 회귀: L1 정규화를 통해 변수 선택을 자연스럽게 수행하며, 중요하지 않은 변수의 계수를 0으로 만들어 변수 선택을 구현합니다.
릿지 회귀: L2 정규화를 통해 모든 변수의 계수를 균등하게 줄이지만, 변수 선택보다는 과적합 방지에 중점을 둡니다. 변수의 중요도는 계수의 크기를 통해 간접적으로 평가할 수 있습니다.

#
트리기반방법

#
랜덤포레스트 기반
# module import
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score

# 데이터 로드
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 랜덤 포레스트 모델 생성
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 변수 중요도 추출
importances = model.feature_importances_

# 중요도 기준으로 변수 선택
selector = SelectFromModel(model, threshold='mean', prefit=True)
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# 선택된 변수들
selected_features = X.columns[selector.get_support()]

print("Selected features using Random Forest:")
print(selected_features)

# 선택된 변수들로 모델 재학습 및 성능 평가
model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)
accuracy = accuracy_score(y_test, y_pred)

print("\nAccuracy with selected features:")
print(accuracy)

#
그라디언트 부스팅 기반
# module import
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score

# 데이터 로드
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 그라디언트 부스팅 모델 생성
model = GradientBoostingClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 변수 중요도 추출
importances = model.feature_importances_

# 중요도 기준으로 변수 선택
selector = SelectFromModel(model, threshold='mean', prefit=True)
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# 선택된 변수들
selected_features = X.columns[selector.get_support()]

print("Selected features using Gradient Boosting:")
print(selected_features)

# 선택된 변수들로 모델 재학습 및 성능 평가
model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)
accuracy = accuracy_score(y_test, y_pred)

print("\nAccuracy with selected features:")
print(accuracy)

# 참고사항
변수 중요도 기준: SelectFromModel에서 threshold 파라미터를 조정하여 중요도가 높은 변수들만 선택할 수 있습니다. 예를 들어, threshold=0.01로 설정하면 중요도가 0.01 이상인 변수만 선택됩니다.
하이퍼파라미터 튜닝: 그라디언트 부스팅 모델은 n_estimators, learning_rate, max_depth 등 여러 하이퍼파라미터가 있으며, 이들을 적절히 튜닝하여 최적의 성능을 얻는 것이 중요합니다.
과적합 방지: 그라디언트 부스팅은 매우 강력한 모델이지만, 과적합의 위험이 있으므로 교차 검증을 통해 모델 성능을 평가하고 변수 선택의 효과를 검증하는 것이 좋습니다.


# 
XGboost
# module import 
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score

# 데이터 로드
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# XGBoost 모델 생성
model = xgb.XGBClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 변수 중요도 추출
importances = model.feature_importances_

# 중요도 기준으로 변수 선택
selector = SelectFromModel(model, threshold="mean", prefit=True)
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# 선택된 변수들
selected_features = X.columns[selector.get_support()]

print("Selected features using XGBoost:")
print(selected_features)

# 선택된 변수들로 모델 재학습 및 성능 평가
model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)
accuracy = accuracy_score(y_test, y_pred)

print("\nAccuracy with selected features:")
print(accuracy)

# 참고사항
하이퍼파라미터 조정: XGBoost는 다양한 하이퍼파라미터를 제공합니다. learning_rate, max_depth, subsample 등의 파라미터를 조정하여 모델 성능을 최적화할 수 있습니다.
변수 중요도 기준: threshold 파라미터를 조정하여 선택할 변수의 기준을 설정할 수 있습니다. 예를 들어, '0.01*mean'으로 설정하면 평균의 1% 이상의 중요도를 가진 변수만 선택됩니다.
다양한 중요도 측정 방법: SelectFromModel을 사용할 때 기본적으로 중요도 기준은 gain을 사용합니다. importance_type 파라미터를 설정하여 다른 중요도 측정 방법(weight, cover)을 사용할 수 있습니다.
XGBoost를 사용한 변수 선택은 특히 고차원 데이터에서 모델의 성능을 최적화하고 불필요한 변수를 제거하는 데 매우 유용합니다. 이 방법을 통해 모델의 복잡성을 줄이고, 해석 가능성을 높일 수 있습니다.




스케일링

# module import 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, MaxAbsScaler, RobustScaler

# 데이터 간단히 확인
print(data.head())

# 필요한 특성만 추출하고 결측치 처리 (간단한 예시)
features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
X = data[features]
y = data['Survived']

# 결측치 처리 (간단히 평균으로 대체)
X['Age'].fillna(X['Age'].mean(), inplace=True)

# 특성과 레이블을 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 표준화 (Standardization)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print("Standardized training data:")
print(X_train_scaled[:5])

# 최소-최대 정규화 (Min-Max Scaling)
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print("Min-Max scaled training data:")
print(X_train_scaled[:5])

# 최대 절대값 스케일링 (MaxAbs Scaling)
scaler = MaxAbsScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print("MaxAbs scaled training data:")
print(X_train_scaled[:5])

# 로버스트 스케일링 (Robust Scaling)
scaler = RobustScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print("Robust scaled training data:")
print(X_train_scaled[:5])


회귀분석
# 향후 버전 업에 대한 경고 메시지 출력 안하기 
import warnings

warnings.filterwarnings(action='ignore') 

# module import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# data load
boston_df = pd.read_csv('./Boston.csv')
boston_df

# data columns rename
boston_df = boston_df[['crim','zn','indus','chas','nox','rm','age','dis','rad','tax','ptratio','black','lstat','medv']]
boston_df.rename(columns={boston_df.columns[-1]:'price'},inplace=True)

# 종속변수, 독립변수 설정 and 상관계수 생성
cols = ["price", "rm", "age", "rad"]
boston_df_corr = boston_df.corr()

# 히트맵
plt.figure(figsize=(15,15))
mask = np.array(boston_df_corr)
mask[np.tril_indices_from(mask)] = False
sns.heatmap(boston_df_corr, mask = mask, annot=True, cmap='Blues')
plt.show()

# pairplot
sns.pairplot(boston_df[cols], kind='reg')
plt.show()

# 데이터분할 module import
from sklearn.model_selection import train_test_split

# X, Y 분할하기
y = boston_df['PRICE']
X = boston_df.drop(['PRICE'], axis=1, inplace=False)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

# 회귀모델 모듈 load
from sklearn.linear_model import LinearRegression

# model 생성
model = LinearRegression()
model.fit(X_train, y_train)

# 계수 확인
model.coef_
model.intercept_

# 평균제곱오차, r2-score module load
from sklearn.metrics import mean_squared_error, r2_score

# 예측모델 생성
y_pred = model.predict(X_test)

# 평균제곱오차, r2-score output
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))


#
릿지회귀(L2)

# module import
sklearn.linear_model import Ridge

# model
model = Ridge(alpha = .1)
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

rmse
r2

#
라쏘회귀(L1)

# module import
sklearn.linear_model from Lasso

# model
model =Lasso(alpha = .1)
model.fit(x_train, y_train)
y_pred = model.predict(x_test)

rmse
r2

# 
엘라스틱넷 

# module import 
from sklearn.linear_model import ElasticNet

# model
model = ElasticNet(alpha = .1, l1_ratio = .5) 
-- l1_ratio = 0 [Ridge] l1_ratio = 1 [Lidge] range 0 ~ 1
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

rmse
r2



로지스틱회귀 기본가정 검정
# 선형성 검정 (Box_Tidwell test)
import statsmodels.api as sm

X_train_const = sm.add_constant(X_train)
logit_model = sm.Logit(y_train,X_train_const).fit()
print(logit_model.summary())

# 독립성 검정 (sm.Logit 사용시)
residual = logit_model.resid_pearson

plt.plot(residual, marker = 'o', linestyle = 'none', color = 'g', alpha = .5)
plt.title('Residuals vs. Observation Index')
plt.xlabel('Observation Index')
plt.ylabel('Residuals')
plt.show()

# 이상치 및 영향력 있는 관측치 
def compute_influence(logit_model, X):
    """ Compute influence measures for Logit model """
    # 모델의 예측 확률
    pred_probs = logit_model.predict(X)
    
    # 잔차 계산 (Pearson residuals)
    residuals = (y_train - pred_probs) / np.sqrt(pred_probs * (1 - pred_probs))
    
    # Leverage 계산
    H = np.dot(X, np.linalg.pinv(np.dot(X.T, X))).dot(X.T)
    leverage = np.diag(H)
    
    # Cook's Distance 계산
    influence = np.sqrt((residuals**2) * leverage / (1 - leverage))
    
    return leverage, influence

leverage, cooks_distance = compute_influence(logit_model, X_train_const)


plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.scatter(range(len(leverage)), leverage, alpha=0.7)
plt.title('Leverage')
plt.xlabel('Index')
plt.ylabel('Leverage')

plt.subplot(1, 2, 2)
plt.scatter(range(len(cooks_distance)), cooks_distance, alpha=0.7)
plt.title("Cook's Distance")
plt.xlabel('Index')
plt.ylabel("Cook's Distance")

plt.tight_layout()
plt.show()

# 다중공선성 확인 
from statsmodels.stats.outliers_influence import variance_inflation_factor

vif = pd.DataFrame()
vif['Variable'] = X_train_const.columns
vif['VIF'] = [variance_inflation_factor(X_train_const.values, i) for i in range(X_train_const.shape[1])]

print(vif)

# 모델 적합도 검정
from sklearn.metrics import roc_auc_score, roc_curve

y_pred_prob = logit_model.predict(X_train_const)
roc_auc = roc_auc_score(y_train, y_pred_prob)
fpr, tpr, _ = roc_curve(y_train, y_pred_prob)

plt.plot(fpr, tpr, color = 'g')
plt.fill_between(fpr, tpr, color='g', alpha=0.4)

plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.grid(True)
plt.show()

print(f"ROC AUC: {roc_auc:.4f}")


분류 머신러닝 함수 (교차검증 + 그리드서치)
# 분류모델 함수 (모두 적용)

    # Evaluate model (common for train, val, test)
    def evaluate_model(best_model, X, y):
        y_pred = best_model.predict(X)

        if hasattr(best_model, "predict_proba"):
            y_prob = best_model.predict_proba(X)[:, 1]
        elif hasattr(best_model, "decision_function"):
            y_prob = best_model.decision_function(X)
        else:
            raise ValueError("Model does not support probability or decision function.")

        fpr, tpr, _ = roc_curve(y, y_prob, pos_label=1)
        roc_auc = auc(fpr, tpr)

        precision, recall, _ = precision_recall_curve(y, y_prob, pos_label=1)
        pr_auc = auc(recall, precision)

        F1 = f1_score(y, y_pred)
        accuracy = accuracy_score(y, y_pred)

        report = classification_report(y, y_pred, output_dict=True)

        return fpr, tpr, roc_auc, precision, recall, pr_auc, F1, accuracy, report







회귀 머신러닝 함수 (교차검증 + 그리드서치)
# 회귀 머신러닝 함수 

def ML(model, param_grid):

    # Grid search function
    def Grid_set_(model, param_grid):
        start_time = time.time() 
        grid_search = GridSearchCV(model, param_grid, cv=KFold(n_splits=10), scoring='neg_mean_squared_error', n_jobs=-1, verbose=1)
        grid_search.fit(X_train, y_train)
        end_time = time.time() 
        grid_search_time = end_time - start_time * 1000 
        print(f"Grid Search Time: {grid_search_time:.2f} seconds")
        
        best_model = grid_search.best_estimator_

        cv_scores = -cross_val_score(best_model, X_train, y_train, cv=KFold(n_splits=10), scoring='neg_mean_squared_error')
        print(f"***** {model.__class__.__name__} *****")
        print(f"Cross-validation MSE (Training): {cv_scores.mean():.2f}")
        print(f'Grid Search Best Score (negative MSE): {grid_search.best_score_:.2f}')
        return best_model, grid_search, cv_scores

    # Evaluate model (common for train, val, test)
    def evaluate_model(best_model, X, y):
        y_pred = best_model.predict(X)
        mse = mean_squared_error(y, y_pred)
        mae = mean_absolute_error(y, y_pred)
        r2 = r2_score(y, y_pred)
        return mse, mae, r2, y_pred
        
    # Train data evaluation
    def Train_set(best_model, X_train, y_train):
        start_time = time.time() 
        results = evaluate_model(best_model, X_train, y_train)
        end_time = time.time() 
        train_time = end_time - start_time * 1000
        print(f"Training Time: {train_time:.2f} seconds")
        return results

    # Validation data evaluation
    def Validation_set(best_model, X_val, y_val):
        start_time = time.time() 
        results = evaluate_model(best_model, X_val, y_val)
        end_time = time.time() 
        validation_time = end_time - start_time * 1000
        print(f"Validation Time: {validation_time:.2f} seconds")
        return results

    # Test data evaluation
    def Test_set(best_model, X_test, y_test):
        start_time = time.time()  
        results = evaluate_model(best_model, X_test, y_test)
        end_time = time.time() 
        test_time = end_time - start_time  * 1000
        print(f"Test Time: {test_time:.2f} seconds")
        return results


    # Bar graph data
    def Bar_Source():
        train_stats = [{
            'MSE_train': mse_train,
            'MAE_train': mae_train,
            'R2_train': r2_train,
            'Model': model.__class__.__name__
        }]
        train_score.append(train_stats)

        val_stats = [{
            'MSE_val': mse_val,
            'MAE_val': mae_val,
            'R2_val': r2_val,
            'Model': model.__class__.__name__
        }]
        val_score.append(val_stats)

        test_stats = [{
            'MSE_test': mse_test,
            'MAE_test': mae_test,
            'R2_test': r2_test,
            'Model': model.__class__.__name__
        }]
        test_score.append(test_stats)

        representative_stats = [{
            'CV_score': cv_scores.mean(),
            'Best_score': grid_search.best_score_,
            'Model': model.__class__.__name__
        }]
        representative_score.append(representative_stats)

    # Final results
    def Result_():
        results = {
            'Training': {
                'mse': mse_train,
                'mae': mae_train,
                'r2': r2_train,
                'predictions': y_train_pred
            },
            'Validation': {
                'mse': mse_val,
                'mae': mae_val,
                'r2': r2_val,
                'predictions': y_val_pred
            },
            'Test': {
                'mse': mse_test,
                'mae': mae_test,
                'r2': r2_test,
                'predictions': y_test_pred
            }
        }
        return results

    # Visualization & Output
    def output(results):
        for stage, result in results.items():
            print(f'*****{model.__class__.__name__}*****')
            print(f"Stage: {stage}")
            print(f"\nMSE: {result['mse']:.2f}")
            print(f"\nMAE: {result['mae']:.2f}")
            print(f"\nR^2 Score: {result['r2']:.2f}")
            print('\n')

    best_model, grid_search, cv_scores = Grid_set_(model, param_grid)

    # Run evaluations for Train, Validation, Test sets
    mse_train, mae_train, r2_train, y_train_pred = Train_set(best_model, X_train, y_train)
    mse_val, mae_val, r2_val, y_val_pred = Validation_set(best_model, X_val, y_val)
    mse_test, mae_test, r2_test, y_test_pred = Test_set(best_model, X_test, y_test)

    # Bar graph source update
    Bar_Source()

    # Results output
    results = Result_()
    output(results)


그래프 예시
# 그래프 예시 (분류모델)
lst = ['train','test','val','representative']

for i in lst : 
    source = [item for sublist in globals()[f'{i}_score'] for item in sublist]
    globals()[f'{i}_bar'] = pd.DataFrame(source)

print(train_bar)
print(test_bar)
print(val_bar)
print(representative_bar)




graph_lst = ['train', 'val', 'test']

for i in graph_lst:  
    fig, axes = plt.subplots(3, 2, figsize=(10, 10))

    sns.barplot(data=globals()[f'{i}_bar'].sort_values(f'ROC_AUC_{i}', ascending=False),
                x=f'ROC_AUC_{i}', y='Model', color='purple', alpha=0.5, ax=axes[0, 0])
    
    top_roc_auc = globals()[f'{i}_bar'].sort_values(f'ROC_AUC_{i}', ascending=False).head(1)
    sns.barplot(data=top_roc_auc, 
                x=f'ROC_AUC_{i}', y='Model', color='darkred',alpha=0.7, ax=axes[0, 0])

    axes[0, 0].bar_label(axes[0, 0].containers[0], fmt='%.2f', label_type='center', color='white', fontsize=8)    
    axes[0, 0].set_title('ROC_AUC')
    axes[0, 0].set_ylabel('')
    axes[0, 0].set_xlabel('')

    sns.barplot(data=globals()[f'{i}_bar'].sort_values(f'PR_AUC_{i}', ascending=False),
                x=f'PR_AUC_{i}', y='Model', color='purple', alpha=0.5, ax=axes[0, 1])
    
    top_pr_auc = globals()[f'{i}_bar'].sort_values(f'PR_AUC_{i}', ascending=False).head(1)
    sns.barplot(data=top_pr_auc, 
                x=f'PR_AUC_{i}', y='Model', color='darkred',alpha=0.7, ax=axes[0, 1])
    
    
    axes[0, 1].bar_label(axes[0, 1].containers[0], fmt='%.2f', label_type='center', color='white', fontsize=8)    
    axes[0, 1].set_title('PR_AUC')
    axes[0, 1].set_ylabel('')
    axes[0, 1].set_xlabel('')

    sns.barplot(data=globals()[f'{i}_bar'].sort_values(f'Recall_{i}', ascending=False),
                x=f'Recall_{i}', y='Model', color='purple', alpha=0.5, ax=axes[1, 0])
    
    top_recall = globals()[f'{i}_bar'].sort_values(f'Recall_{i}', ascending=False).head(1)
    sns.barplot(data=top_recall, 
                x=f'Recall_{i}', y='Model', color='darkred',alpha=0.7, ax=axes[1, 0])
    
    axes[1, 0].bar_label(axes[1, 0].containers[0], fmt='%.2f', label_type='center', color='white', fontsize=8)    
    axes[1, 0].set_title('Recall Score_mean')
    axes[1, 0].set_ylabel('')
    axes[1, 0].set_xlabel('')

    sns.barplot(data=globals()[f'{i}_bar'].sort_values(f'Precision_{i}', ascending=False),
                x=f'Precision_{i}', y='Model', color='purple', alpha=0.5, ax=axes[1, 1])
    
    top_pre = globals()[f'{i}_bar'].sort_values(f'Precision_{i}', ascending=False).head(1)
    sns.barplot(data=top_pre, 
                x=f'Precision_{i}', y='Model', color='darkred',alpha=0.7, ax=axes[1, 1])
    
    axes[1, 1].bar_label(axes[1, 1].containers[0], fmt='%.2f', label_type='center', color='white', fontsize=8)    
    axes[1, 1].set_title('Precision Score_mean')
    axes[1, 1].set_ylabel('')
    axes[1, 1].set_xlabel('')

    sns.barplot(data=globals()[f'{i}_bar'].sort_values(f'F1-score_{i}', ascending=False),
                x=f'F1-score_{i}', y='Model', color='purple', alpha=0.5, ax=axes[2, 0])
    
    top_f1 = globals()[f'{i}_bar'].sort_values(f'F1-score_{i}', ascending=False).head(1)
    sns.barplot(data=top_f1, 
                x=f'F1-score_{i}', y='Model', color='darkred',alpha=0.7, ax=axes[2, 0])
    axes[2, 0].bar_label(axes[2, 0].containers[0], fmt='%.2f', label_type='center', color='white', fontsize=8)    
    axes[2, 0].set_title('F1-score')
    axes[2, 0].set_ylabel('')
    axes[2, 0].set_xlabel('')

    fig.delaxes(axes[2, 1])

    fig.suptitle(f'{i.capitalize()} - Data Score')

    plt.tight_layout(rect=[0, 0, 1, 0.96])

    plt.show()

fig, axes = plt.subplots(1, 2, figsize=(10, 5))

sns.barplot(data=representative_bar.sort_values('CV_score', ascending=False),
            x='CV_score', y='Model', color='purple', alpha=0.5, ax=axes[0])

sns.barplot(data =representative_bar.sort_values('CV_score',ascending=False).head(1), 
            x = 'CV_score', y= 'Model', color = 'darkred', alpha = .7, ax = axes[0])

axes[0].bar_label(axes[0].containers[0], fmt='%.2f', label_type = 'center', color = 'white', fontsize = 8)
axes[0].set_title('CV_accuracy')
axes[0].set_ylabel('')
axes[0].set_xlabel('')

sns.barplot(data=representative_bar.sort_values('Best_score', ascending=False),
            x='Best_score', y='Model', color='purple', alpha=0.5, ax=axes[1])

sns.barplot(data=representative_bar.sort_values('Best_score',ascending=False).head(1), 
            x = 'Best_score', y= 'Model', color = 'darkred', alpha = .7, ax = axes[1])

axes[1].bar_label(axes[1].containers[0], fmt='%.2f', label_type = 'center', color = 'white', fontsize = 8)
axes[1].set_title('Grid Search_Best_score')
axes[1].set_ylabel('')
axes[1].set_xlabel('')
fig.suptitle('Representative - Data Score')
plt.tight_layout()
plt.show()



# melt 활용한 그래프 예시 (분류)
----------------------------------------------------------------
train_bar['Dataset'] = 'Train'
val_bar['Dataset'] = 'Validation'
test_bar['Dataset'] = 'Test'

combined_bar = pd.concat([train_bar, val_bar, test_bar], ignore_index=True)


fig, axes = plt.subplots(3, 2, figsize=(15, 15))

sns.barplot(data=combined_bar.melt(id_vars=['Model', 'Dataset'], value_vars=['ROC_AUC_train', 'ROC_AUC_val', 'ROC_AUC_test']),
            x='value', y='Model', hue='Dataset', palette='inferno', ax=axes[0, 0])
axes[0, 0].set_title('ROC AUC')
axes[0, 0].set_xlabel('')
axes[0, 0].set_ylabel('')
axes[0, 0].legend(loc='upper left', bbox_to_anchor=(1, 1))


sns.barplot(data=combined_bar.melt(id_vars=['Model', 'Dataset'], value_vars=['PR_AUC_train', 'PR_AUC_val', 'PR_AUC_test']),
            x='value', y='Model', hue='Dataset', palette='inferno', ax=axes[0, 1])
axes[0, 1].set_title('PR AUC')
axes[0, 1].set_xlabel('')
axes[0, 1].set_ylabel('')
axes[0, 1].legend(loc='upper left', bbox_to_anchor=(1, 1))


sns.barplot(data=combined_bar.melt(id_vars=['Model', 'Dataset'], value_vars=['Recall_train', 'Recall_val', 'Recall_test']),
            x='value', y='Model', hue='Dataset', palette='inferno', ax=axes[1, 0])
axes[1, 0].set_title('Recall')
axes[1, 0].set_xlabel('')
axes[1, 0].set_ylabel('')
axes[1, 0].legend(loc='upper left', bbox_to_anchor=(1, 1))


sns.barplot(data=combined_bar.melt(id_vars=['Model', 'Dataset'], value_vars=['Precision_train', 'Precision_val', 'Precision_test']),
            x='value', y='Model', hue='Dataset', palette='inferno', ax=axes[1, 1])
axes[1, 1].set_title('Precision')
axes[1, 1].set_xlabel('')
axes[1, 1].set_ylabel('')
axes[1, 1].legend(loc='upper left', bbox_to_anchor=(1, 1))


sns.barplot(data=combined_bar.melt(id_vars=['Model', 'Dataset'], value_vars=['F1-score_train', 'F1-score_val', 'F1-score_test']),
            x='value', y='Model', hue='Dataset', palette='inferno', ax=axes[2, 0])
axes[2, 0].set_title('F1 Score')
axes[2, 0].set_xlabel('')
axes[2, 0].set_ylabel('')
axes[2, 0].legend(loc='upper left', bbox_to_anchor=(1, 1))


fig.delaxes(axes[2, 1])  

fig.suptitle('Total-Data')
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()

sns.barplot(data=combined_bar.melt(id_vars=['Model','Dataset'], value_vars=['Accuracy_train','Accuracy_val','Accuracy_test']),
            x = 'value', y='Model', hue='Dataset',palette='magma')
plt.title('Model_Fitting_Check (Accuracy)')
plt.xlabel('')
plt.ylabel('')
plt.legend(loc = 'upper left', bbox_to_anchor=(1, 1))
plt.show()

하이퍼파라미터를 알아봅시다.

# model = LogisticRegression(
    penalty='l2',           # 규제 종류 ('l1', 'l2', 'elasticnet' 또는 'none')
    dual=False,             # 듀얼 폼 사용 여부 (샘플 수 > 특성 수인 경우만 사용)
    tol=1e-4,               # 허용 오차
    C=1.0,                  # 규제 강도 (작을수록 규제가 강해짐)
    solver='lbfgs',         # 최적화 알고리즘 ('newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga')
    max_iter=100,           # 최대 반복 횟수
    random_state=42,        # 난수 시드
    class_weight=None,      # 클래스 가중치 ('balanced' 또는 None)
    multi_class='auto'      # 다중 클래스 문제 해결 방식 ('auto', 'ovr', 'multinomial')
)

# model = DecisionTreeClassifier(
    criterion='gini',        # 분할 품질 기준 ('gini' 또는 'entropy')
    splitter='best',         # 분할 전략 ('best' 또는 'random')
    max_depth=None,          # 트리의 최대 깊이
    min_samples_split=2,     # 분할을 위한 최소 샘플 수
    min_samples_leaf=1,      # 리프 노드가 될 수 있는 최소 샘플 수
    max_features=None,       # 분할 시 고려할 최대 특성 수
    random_state=42,         # 난수 시드
    max_leaf_nodes=None      # 최대 리프 노드 수
)

# model = RandomForestClassifier(
    n_estimators=100,        # 트리 개수
    criterion='gini',        # 분할 품질 기준 ('gini' 또는 'entropy')
    max_depth=None,          # 트리의 최대 깊이
    min_samples_split=2,     # 분할을 위한 최소 샘플 수
    min_samples_leaf=1,      # 리프 노드가 될 수 있는 최소 샘플 수
    max_features='auto',     # 분할 시 고려할 최대 특성 수 ('auto', 'sqrt', 'log2')
    bootstrap=True,          # 부트스트래핑 여부
    random_state=42,         # 난수 시드
    n_jobs=-1                # 병렬 처리할 CPU 코어 수 (-1은 모든 코어 사용)
)

# model = GradientBoostingClassifier(
    loss='deviance',         # 손실 함수 ('deviance' 또는 'exponential')
    learning_rate=0.1,       # 학습 속도
    n_estimators=100,        # 부스팅 단계 개수
    subsample=1.0,           # 각 트리마다 샘플링할 비율
    criterion='friedman_mse',# 분할 품질 기준 ('friedman_mse', 'mse', 'mae')
    max_depth=3,             # 트리의 최대 깊이
    min_samples_split=2,     # 분할을 위한 최소 샘플 수
    random_state=42,         # 난수 시드
    max_features=None        # 분할 시 고려할 최대 특성 수
)

# model = KNeighborsClassifier(
    n_neighbors=5,           # 이웃할 샘플 수
    weights='uniform',       # 가중치 ('uniform' 또는 'distance')
    algorithm='auto',        # 알고리즘 ('auto', 'ball_tree', 'kd_tree', 'brute')
    leaf_size=30,            # 트리 기반 알고리즘에서 사용할 리프 크기
    p=2,                     # Minkowski 거리에서 사용할 차수
    metric='minkowski',      # 거리 측정 기준
    n_jobs=-1                # 병렬 처리할 CPU 코어 수 (-1은 모든 코어 사용)
)

# model = GaussianNB(
    var_smoothing=1e-9       # 각 클래스의 가우시안 분포에 추가하는 분산 값
)

# model = xgb.XGBClassifier(
    booster='gbtree',        # 부스터 종류 ('gbtree', 'gblinear', 'dart')
    learning_rate=0.1,       # 학습 속도
    n_estimators=100,        # 부스팅 단계 개수
    max_depth=3,             # 트리의 최대 깊이
    subsample=1.0,           # 각 트리마다 샘플링할 비율
    colsample_bytree=1.0,    # 각 트리에서 사용할 특성 비율
    gamma=0,                 # 리프 노드 추가에 대한 최소 손실 감소
    reg_alpha=0,             # L1 규제 강도
    reg_lambda=1,            # L2 규제 강도
    random_state=42          # 난수 시드
)

# model = lgb.LGBMClassifier(
    boosting_type='gbdt',    # 부스팅 유형 ('gbdt', 'dart', 'goss', 'rf')
    num_leaves=31,           # 트리의 최대 리프 노드 개수
    learning_rate=0.1,       # 학습 속도
    n_estimators=100,        # 부스팅 단계 개수
    max_depth=-1,            # 트리의 최대 깊이 (-1은 무제한)
    subsample=1.0,           # 샘플링할 비율
    colsample_bytree=1.0,    # 각 트리에서 사용할 특성 비율
    reg_alpha=0.0,           # L1 규제 강도
    reg_lambda=0.0,          # L2 규제 강도
    random_state=42          # 난수 시드
)

# model = ExtraTreeClassifier(
    criterion='gini',        # 분할 품질 기준 ('gini' 또는 'entropy')
    splitter='random',       # 분할 전략 ('best' 또는 'random')
    max_depth=None,          # 트리의 최대 깊이
    min_samples_split=2,     # 분할을 위한 최소 샘플 수
    min_samples_leaf=1,      # 리프 노드가 될 수 있는 최소 샘플 수
    random_state=42          # 난수 시드
)

# model = SVC(
    C=1.0,                   # 규제 강도 (C가 작을수록 규제가 강해짐)
    kernel='rbf',            # 커널 종류 ('linear', 'poly', 'rbf', 'sigmoid')
    degree=3,                # 다항 커널에서의 차수
    gamma='scale',           # 커널 계수 ('scale', 'auto')
    probability=True,        # 확률 추정 여부
    random_state=42          # 난수 시드
)

# model = MLPClassifier(
    hidden_layer_sizes=(100,), # 은닉층 크기
    activation='relu',         # 활성화 함수 ('identity', 'logistic', 'tanh', 'relu')
    solver='adam',             # 최적화 알고리즘 ('lbfgs', 'sgd', 'adam')
    alpha=0.0001,              # L2 규제 강도
    batch_size='auto',         # 미니 배치 크기
    learning_rate='constant',  # 학습률 스케줄 ('constant', 'invscaling', 'adaptive')
    max_iter=200,              # 최대 반복 횟수
    random_state=42            # 난수 시드
)

# model = LinearDiscriminantAnalysis(
    solver='svd',             # 알고리즘 ('svd', 'lsqr', 'eigen')
    shrinkage=None,           # Shrinkage (None, 'auto', float)
    priors=None,              # 클래스별 사전 확률
    n_components=None         # 축소할 차원 수
)

# model = QuadraticDiscriminantAnalysis(
    reg_param=0.0,            # 정규화 파라미터
    priors=None,              # 클래스별 사전 확률
    tol=1e-4                  # 허용 오차
)

# model = AdaBoostClassifier(
    n_estimators=50,       # 사용할 약한 학습기의 개수
    learning_rate=1.0,     # 학습 속도
    algorithm='SAMME.R',   # 'SAMME' 또는 'SAMME.R' 알고리즘
    random_state=42        # 난수 시드
)

# model = BaggingClassifier(
    base_estimator=DecisionTreeClassifier(), # 기본 학습기
    n_estimators=10,        # 기본 학습기의 개수
    max_samples=1.0,        # 각 기본 학습기가 훈련에 사용할 샘플 비율
    max_features=1.0,       # 각 기본 학습기가 훈련에 사용할 특성 비율
    bootstrap=True,         # 부트스트래핑 여부
    random_state=42         # 난수 시드
)

# model = GaussianProcessClassifier(
    kernel=RBF(),           # 사용되는 커널
    random_state=42         # 난수 시드
)

# model = LogisticRegressionCV(
    Cs=10,                  # 시도할 C 값의 개수
    cv=5,                   # 교차 검증 폴드 수
    penalty='l2',            # 패널티 종류 ('l1', 'l2' 가능)
    solver='lbfgs',          # 최적화 알고리즘
    max_iter=100,            # 최대 반복 횟수
    random_state=42          # 난수 시드
)

# model = PassiveAggressiveClassifier(
    C=1.0,                  # 규제 강도 (C가 클수록 규제가 약해짐)
    max_iter=1000,           # 최대 반복 횟수
    tol=1e-3,                # 허용 오차
    random_state=42          # 난수 시드
)

# model = RidgeClassifierCV(
    alphas=[0.1, 1.0, 10.0], # 시도할 alpha 값의 리스트
    cv=5                      # 교차 검증 폴드 수
)

# model = SGDClassifier(
    loss='hinge',             # 손실 함수 ('hinge' for SVM, 'log' for logistic regression)
    penalty='l2',             # 규제 ('l2', 'l1', 'elasticnet' 가능)
    max_iter=1000,            # 최대 반복 횟수
    tol=1e-3,                 # 허용 오차
    random_state=42           # 난수 시드
)

# model = Perceptron(
    max_iter=1000,            # 최대 반복 횟수
    tol=1e-3,                 # 허용 오차
    penalty=None,             # 규제 ('l2', 'l1', 'elasticnet' 가능)
    random_state=42           # 난수 시드
)

# model = BernoulliNB(
    alpha=1.0,                # 라플라스 스무딩 파라미터
    binarize=0.0              # 이진화 임계값
)

# model = NuSVC(
    nu=0.5,                  # 규제 파라미터 (0과 1 사이)
    kernel='rbf',            # 커널 종류 ('linear', 'poly', 'rbf', 'sigmoid' 가능)
    probability=True,        # 확률 추정 여부
    random_state=42          # 난수 시드
)

# model = LinearSVC(
    C=1.0,                   # 규제 강도
    max_iter=1000,            # 최대 반복 횟수
    tol=1e-3,                 # 허용 오차
    random_state=42           # 난수 시드
)

기법 모듈
# SKlearn Module
from sklearn.model_selection import train_test_split,GridSearchCV,cross_validate,cross_val_score,RandomizedSearchCV,StratifiedKFold,ShuffleSplit,KFold,LeaveOneOut

from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier,AdaBoostClassifier,BaggingClassifier

from sklearn.feature_selection import SelectFromModel

from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc, precision_recall_curve,accuracy_score,f1_score

from sklearn.linear_model import LogisticRegression, LogisticRegressionCV,PassiveAggressiveClassifier,RidgeClassifierCV,SGDClassifier,Perceptron

from sklearn.tree import DecisionTreeClassifier,ExtraTreeClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.naive_bayes import GaussianNB,BernoulliNB

import lightgbm as lgb

import xgboost as xgb

from sklearn.svm import SVC,NuSVC,LinearSVC

from sklearn.neural_network import MLPClassifier

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis,QuadraticDiscriminantAnalysis

from sklearn.gaussian_process import GaussianProcessClassifier

from sklearn.gaussian_process.kernels import RBF
