In [77]:
file_path = '/content/drive/MyDrive/winequality-red.csv'

In [92]:
# 특징 데이터의 개수 확인
num_features = X.shape[1]
print(f'이 자료의 특징(feature) 수는 총 {num_features}개입니다.')

이 자료의 특징(feature) 수는 총 11개입니다.


In [104]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 각 특징별 로지스틱 회귀 분석 결과를 저장할 딕셔너리
feature_analysis_results = {}

# 각 특징에 대해 로지스틱 회귀 분석 수행
for feature in features_list:
    print(f"\n--- 특징: {feature} ---")

    # 해당 특징만 선택
    X_single_feature = X_clf[[feature]]
    y_single_feature = y_binary # 목표 변수는 동일하게 사용

    # 데이터를 훈련 세트와 테스트 세트로 분할 (층화 분할)
    X_train_single, X_test_single, y_train_single, y_test_single = train_test_split(
        X_single_feature, y_single_feature, test_size=0.2, random_state=42, stratify=y_single_feature
    )

    # 로지스틱 회귀 모델 정의 및 훈련
    # 단일 특징이므로 max_iter를 기본값으로 사용하거나 필요시 조정
    try:
        model_single = LogisticRegression(random_state=42, max_iter=200)
        model_single.fit(X_train_single, y_train_single)

        # 테스트 데이터에 대한 예측 수행
        y_pred_single = model_single.predict(X_test_single)

        # 모델 평가 지표 계산
        accuracy_single = accuracy_score(y_test_single, y_pred_single)
        precision_single = precision_score(y_test_single, y_pred_single)
        recall_single = recall_score(y_test_single, y_pred_single)
        f1_single = f1_score(y_test_single, y_pred_single)

        # 결과 저장
        feature_analysis_results[feature] = {
            'Accuracy': accuracy_single,
            'Precision': precision_single,
            'Recall': recall_single,
            'F1-score': f1_single
        }

        # 결과 출력
        print(f'  정확도 (Accuracy): {accuracy_single:.4f}')
        print(f'  정밀도 (Precision): {precision_single:.4f}')
        print(f'  재현율 (Recall): {recall_single:.4f}')
        print(f'  F1-점수 (F1-score): {f1_single:.4f}')

    except Exception as e:
        print(f"  모델 훈련/평가 중 오류 발생: {e}")
        feature_analysis_results[feature] = {'Error': str(e)}


--- 특징: fixed acidity ---
  정확도 (Accuracy): 0.5500
  정밀도 (Precision): 0.5551
  재현율 (Recall): 0.7953
  F1-점수 (F1-score): 0.6538

--- 특징: volatile acidity ---
  정확도 (Accuracy): 0.6375
  정밀도 (Precision): 0.6486
  재현율 (Recall): 0.7018
  F1-점수 (F1-score): 0.6742

--- 특징: citric acid ---
  정확도 (Accuracy): 0.5844
  정밀도 (Precision): 0.5931
  재현율 (Recall): 0.7076
  F1-점수 (F1-score): 0.6453

--- 특징: residual sugar ---
  정확도 (Accuracy): 0.5344
  정밀도 (Precision): 0.5344
  재현율 (Recall): 1.0000
  F1-점수 (F1-score): 0.6965

--- 특징: chlorides ---
  정확도 (Accuracy): 0.5531
  정밀도 (Precision): 0.5458
  재현율 (Recall): 0.9766
  F1-점수 (F1-score): 0.7002

--- 특징: free sulfur dioxide ---
  정확도 (Accuracy): 0.5687
  정밀도 (Precision): 0.5587
  재현율 (Recall): 0.9181
  F1-점수 (F1-score): 0.6947

--- 특징: total sulfur dioxide ---
  정확도 (Accuracy): 0.6250
  정밀도 (Precision): 0.6186
  재현율 (Recall): 0.7778
  F1-점수 (F1-score): 0.6891

--- 특징: density ---
  정확도 (Accuracy): 0.5344
  정밀도 (Precision): 0.5344
  재현율 (Recall): 1.000

In [105]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler # 계수와 절편 해석을 위해 스케일링된 데이터를 사용한 모델 확인

print("각 특징별 로지스틱 회귀 모델의 계수와 절편:")

# 각 특징에 대해 로지스틱 회귀 모델을 다시 훈련 (이전 셀에서 모델 객체가 저장되지 않음)
# 스케일링된 데이터로 훈련하여 계수와 절편의 의미를 명확히 합니다.
for feature in features_list:
    # 해당 특징만 선택
    X_single_feature = X_clf[[feature]]
    y_single_feature = y_binary # 목표 변수는 동일하게 사용

    # 특징 스케일링
    scaler_coef = StandardScaler()
    X_single_scaled_coef = scaler_coef.fit_transform(X_single_feature)

    # 데이터를 훈련 세트와 테스트 세트로 분할 (층화 분할) - 훈련만 필요하므로 전체 데이터를 사용해도 무방
    # 여기서는 이전 분석과 일관성을 위해 분할 후 훈련 세트 사용
    X_train_single_coef, _, y_train_single_coef, _ = train_test_split(
        X_single_scaled_coef, y_single_feature, test_size=0.2, random_state=42, stratify=y_single_feature
    )

    # 로지스틱 회귀 모델 정의 및 훈련
    model_single_coef = LogisticRegression(random_state=42, max_iter=1000)
    model_single_coef.fit(X_train_single_coef, y_train_single_coef)

    # 모델의 계수와 절편 가져오기
    coefficient = model_single_coef.coef_[0][0]
    intercept = model_single_coef.intercept_[0]

    print(f"특징: {feature}: 계수 = {coefficient:.4f}, 절편 = {intercept:.4f}")

각 특징별 로지스틱 회귀 모델의 계수와 절편:
특징: fixed acidity: 계수 = 0.1857, 절편 = 0.1391
특징: volatile acidity: 계수 = -0.7273, 절편 = 0.1337
특징: citric acid: 계수 = 0.3121, 절편 = 0.1403
특징: residual sugar: 계수 = 0.0300, 절편 = 0.1394
특징: chlorides: 계수 = -0.2513, 절편 = 0.1318
특징: free sulfur dioxide: 계수 = -0.1094, 절편 = 0.1394
특징: total sulfur dioxide: 계수 = -0.4821, 절편 = 0.1342
특징: density: 계수 = -0.3153, 절편 = 0.1425
특징: pH: 계수 = -0.0157, 절편 = 0.1395
특징: sulphates: 계수 = 0.5713, 절편 = 0.1649
특징: alcohol: 계수 = 1.0729, 절편 = 0.2174
특징: Cluster: 계수 = 0.0173, 절편 = 0.1396


In [106]:
# 다중 로지스틱 회귀 모델의 계수와 절편 확인
coefficients = logistic_model.coef_[0]
intercept = logistic_model.intercept_[0]
features = X_clf.columns # X_clf는 모델 훈련에 사용된 특징

print("다중 로지스틱 회귀 모델의 특징별 계수:")
for feature, coef in zip(features, coefficients):
    print(f"  {feature}: {coef:.4f}")

print(f"\n다중 로지스틱 회귀 모델의 절편: {intercept:.4f}")

다중 로지스틱 회귀 모델의 특징별 계수:
  fixed acidity: 0.0951
  volatile acidity: -2.8199
  citric acid: -0.8504
  residual sugar: 0.0443
  chlorides: -1.0197
  free sulfur dioxide: 0.0286
  total sulfur dioxide: -0.0174
  density: -0.0443
  pH: -0.3796
  sulphates: 2.1205
  alcohol: 0.8931
  Cluster: -0.0249

다중 로지스틱 회귀 모델의 절편: -7.9075
