# 데이터 전처리 EX-5
## Red Wine Quality Dataset을 이용한 와인 품질 예측 모델 구현 (분류 모델)
### 문제 5: 데이터 스케일링

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1. 데이터 불러오기
df = pd.read_csv('winequality-red.csv')

# 2. 이진 분류 타겟 생성 (quality가 6 이상이면 1, 아니면 0)
df['quality_label'] = df['quality'].apply(lambda x: 1 if x >= 6 else 0)

# 3. 특성과 라벨 분리
feature_col = [
    'fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
    'chlorides', 'free sulfur dioxide', 'total sulfur dioxide',
    'density', 'pH', 'sulphates', 'alcohol'
]
X = df[feature_col]
y = df['quality_label']

# 4. 데이터 분리 : 학습용, 테스트용
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 5. StandaradScaler를 사용해 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 6. 학습
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)

# 7. 예측
y_pred = model.predict(X_test_scaled)

# 8. 성능 평가
acc = accuracy_score(y_test, y_pred)
print(f"정확도: {acc * 100:.2f}%")
print("\n분류 리포트:\n", classification_report(y_test, y_pred))
print("혼동 행렬:\n", confusion_matrix(y_test, y_pred))



정확도: 80.31%

분류 리포트:
               precision    recall  f1-score   support

           0       0.78      0.81      0.79       149
           1       0.83      0.80      0.81       171

    accuracy                           0.80       320
   macro avg       0.80      0.80      0.80       320
weighted avg       0.80      0.80      0.80       320

혼동 행렬:
 [[121  28]
 [ 35 136]]


# 지도학습 예제 1
### 신용카드 사기 거래 탐지(이진 분류)

In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

# 1. 데이터 불러오기
df = pd.read_csv('creditcard.csv')

# 2. 특성과 라벨 분리
X = df.drop('Class', axis=1)
y = df['Class']

# 3. 데이터 분리 : 학습용, 테스트용
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 4. StandaradScaler를 사용해 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 5. 랜덤 포레스트 모델 학습
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)

# 6. 예측
y_pred = model.predict(X_test_scaled)

# 7. 평가
print("정확도:", accuracy_score(y_test, y_pred))
print("정밀도:", precision_score(y_test, y_pred))
print("재현율:", recall_score(y_test, y_pred))
print("F1 점수:", f1_score(y_test, y_pred))
print("\n혼동 행렬")
print(confusion_matrix(y_test, y_pred))
print("\n분류 리포트")
print(classification_report(y_test, y_pred))


정확도: 0.9995962220427653
정밀도: 0.9411764705882353
재현율: 0.8163265306122449
F1 점수: 0.8743169398907104

혼동 행렬
[[56859     5]
 [   18    80]]

분류 리포트
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56864
           1       0.94      0.82      0.87        98

    accuracy                           1.00     56962
   macro avg       0.97      0.91      0.94     56962
weighted avg       1.00      1.00      1.00     56962



# 지도학습 예제 2
### 신용카드 사기 거래 탐지(이진 분류)

In [5]:
from sklearn.neighbors import KNeighborsClassifier

# 1. KNN 모델 사용
knn = KNeighborsClassifier(n_neighbors=5) # 가장 가까운 이웃의 개수
knn.fit(X_train_scaled, y_train)

# 2. 예측
y_pred = knn.predict(X_test_scaled)

# 3. 성능 평가
print("정확도:", accuracy_score(y_test, y_pred))
print("\n분류 리포트")
print(classification_report(y_test, y_pred))

정확도: 0.9995435553526912

분류 리포트
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56864
           1       0.92      0.81      0.86        98

    accuracy                           1.00     56962
   macro avg       0.96      0.90      0.93     56962
weighted avg       1.00      1.00      1.00     56962

