# 분류 과제

- **titanic 데이터셋에서 '탑승한 항구(Embarked)'를 예측하는 다중분류 모델을 만들어봅니다.**
- Embarked : Southampton(1), Cherbourg(2), Queenstown(3) 

- 로지스틱 회귀
- 의사결정나무
- 서포트벡터머신
- kNN
- 앙상블
- 최적화

---
## *과제1*
***당신은 이메일 스팸 필터를 만들고 테스트 중입니다. 필터는 100개의 스팸 이메일 중 72개를 스팸으로 식별했고, 실제 스팸이 아닌 이메일 200개 중 18개를 스팸으로 잘못 식별했습니다. 또한 필터는 스팸 이메일 28개를 놓쳤습니다. 이 때, 스팸 필터의 precision, recall, F-1 score를 계산하세요. 그리고 이 문제에서 precision과 recall 중 더 중요하다고 생각하는 지표와 그 이유를 간략히 서술하세요. (지표는 반올림하여 소수점 둘째 자리까지 표기하세요. 여기서 TP는 스팸 이메일을 양성으로 판단한 건을 의미합니다)***

***답*** : 

---

TP = 72 (스팸으로 예측했는데 맞음)
FP = 18 (스팸으로 예측했는데 틀림)
TN = 

In [1]:
# 라이브러리 설치
%pip install pandas numpy matplotlib seaborn scikit-learn

Note: you may need to restart the kernel to use updated packages.




---
## 데이터 불러오기 ~ 피쳐엔지니어링 (실습과 동일)

In [2]:
import seaborn as sns
import pandas as pd

df = pd.read_csv("./data/titanic.csv")

df['Initial'] = 0 # initial 컬럼을 만들고 일시적으로 값을 0으로 초기화
for index, row in df.iterrows():
    initial_search = row['Name'].split(',')[1].split('.')[0].strip() # Name 컬럼에서 .(dot)을 기준으로 알파벳 문자열 추출
    df.at[index, 'Initial'] = initial_search

# 유추 가능한 값들로 대체하고, 흔하지 않은 Initial들은 Other로 대체하겠습니다.
df['Initial'].replace([
    'Mlle', 'Mme', 'Ms', 'Dr', 'Major', 'Lady', 'Countess', 'Jonkheer', 'Col',
    'Rev', 'Capt', 'Sir', 'Don','the Countess' 
], [
    'Miss', 'Miss', 'Miss', 'Mr', 'Mr', 'Mrs', 'Mrs', 'Other', 'Other',
    'Other', 'Mr', 'Mr', 'Mr', 'Other'
],
    inplace=True)

# 결측값을 Initial별 평균값으로 대체
df.loc[(df.Age.isnull()) & (df.Initial == 'Mr'), 'Age'] = 33
df.loc[(df.Age.isnull()) & (df.Initial == 'Mrs'), 'Age'] = 36
df.loc[(df.Age.isnull()) & (df.Initial == 'Master'), 'Age'] = 5
df.loc[(df.Age.isnull()) & (df.Initial == 'Miss'), 'Age'] = 22
df.loc[(df.Age.isnull()) & (df.Initial == 'Other'), 'Age'] = 46

df.dropna(subset=['Embarked'], inplace=True)
df.drop(['Cabin','Name','PassengerId','Ticket'], axis=1, inplace=True)

df['Relatives'] = df["SibSp"] + df["Parch"]

# Sex 열 인코딩
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
# Age 열을 10년 단위로 나누어 인코딩
df['Age'] = (df['Age'] // 10).astype(int)
# Fare 열을 9분위로 구간화하고 인코딩
df['Fare'] = pd.qcut(df['Fare'], q=9, labels=range(9))
# Embarked 열 인코딩
df['Embarked'] = df['Embarked'].map({'S': 1, 'C': 2, 'Q': 3})
# Initial 열 인코딩
initial_mapping = {'Mr': 0, 'Miss': 1, 'Mrs': 2, 'Master': 3, 'Other':4}
df['Initial'] = df['Initial'].map(initial_mapping)


---
## 로지스틱 회귀 : 단일모델 다중분류

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

In [4]:
from sklearn.linear_model import LogisticRegression

# 데이터셋을 특성(features)과 타겟 변수(target)로 분리
X = df.drop('Embarked', axis=1)  
y = df['Embarked']

# 데이터를 훈련 세트와 테스트 세트로 나누기 (여기서는 테스트 세트가 전체의 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)  
X_test_scaled = scaler.transform(X_test)       

# 로지스틱회귀 모델 객체 생성
lr_model = LogisticRegression()

# 훈련 데이터로 모델 학습
lr_model.fit(X_train_scaled, y_train)
# 테스트 세트의 예측 결과 생성
y_pred = lr_model.predict(X_test_scaled)

# 정확도(accuracy) 계산과 분류 보고서 출력
accuracy = accuracy_score(y_test, y_pred)  # 정확도 계산
report = classification_report(y_test, y_pred)  # 분류 보고서 생성

# 정확도와 분류 보고서 출력
print(f'로지스틱회귀 모델의 정확도: {accuracy:.2f}')
print(report)

로지스틱회귀 모델의 정확도: 0.73
              precision    recall  f1-score   support

           1       0.73      1.00      0.84       130
           2       0.00      0.00      0.00        36
           3       0.00      0.00      0.00        12

    accuracy                           0.73       178
   macro avg       0.24      0.33      0.28       178
weighted avg       0.53      0.73      0.62       178



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


---
## *과제2 TF*
***1. 위 코드에서 Scaler는 독립변수(feature)와 종속변수(target)에 적용되어 이들이 동일한 스케일을 갖게 한다.***

***2. 위 코드에서 Scaler는 독립변수(feature)의 test데이터를 변환하는 시점에 스케일링 매개변수(최소값, 최대값)를 학습한다.***

***답*** : 

---
## 의사결정트리 : 단일모델 다중분류

In [5]:
from sklearn.tree import DecisionTreeClassifier

# Decision Tree 모델 생성 및 학습
tree_model = DecisionTreeClassifier(random_state=42)
tree_model.fit(X_train_scaled, y_train)

# Decision Tree 예측 결과 생성
tree_pred = tree_model.predict(X_test_scaled)

# Decision Tree 정확도 및 분류 보고서
tree_accuracy = accuracy_score(y_test, tree_pred)
tree_report = classification_report(y_test, tree_pred)

print("Decision Tree 모델의 정확도:", tree_accuracy)
print(tree_report)

Decision Tree 모델의 정확도: 0.702247191011236
              precision    recall  f1-score   support

           1       0.77      0.88      0.82       130
           2       0.38      0.22      0.28        36
           3       0.38      0.25      0.30        12

    accuracy                           0.70       178
   macro avg       0.51      0.45      0.47       178
weighted avg       0.66      0.70      0.67       178



---
## 서포트벡터머신 : 단일모델 다중분류

In [6]:
from sklearn.svm import SVC

# SVM 모델 생성 및 학습
svm_model = SVC(random_state=42)
svm_model.fit(X_train_scaled, y_train)

# SVM 예측 결과 생성
svm_pred = svm_model.predict(X_test_scaled)

# SVM 정확도 및 분류 보고서
svm_accuracy = accuracy_score(y_test, svm_pred)
svm_report = classification_report(y_test, svm_pred)

print("SVM 모델의 정확도:", svm_accuracy)
print(svm_report)

## kNN(k-Nearest Neighbor)

  _warn_prf(average, modifier, msg_start, len(result))


SVM 모델의 정확도: 0.7415730337078652
              precision    recall  f1-score   support

           1       0.74      0.99      0.85       130
           2       0.00      0.00      0.00        36
           3       0.75      0.25      0.38        12

    accuracy                           0.74       178
   macro avg       0.50      0.41      0.41       178
weighted avg       0.59      0.74      0.65       178



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


---
## kNN : 단일모델 다중분류

In [7]:
from sklearn.neighbors import KNeighborsClassifier

# kNN 모델 생성
knn_model = KNeighborsClassifier(n_neighbors=5)

# 모델 학습
knn_model.fit(X_train_scaled, y_train)

# 예측 수행
knn_pred = knn_model.predict(X_test_scaled)

# 정확도와 분류 보고서 계산
knn_accuracy = accuracy_score(y_test, knn_pred)
knn_report = classification_report(y_test, knn_pred)

print("kNN 모델의 정확도 : ", knn_accuracy)
print(knn_report)

kNN 모델의 정확도 :  0.7078651685393258
              precision    recall  f1-score   support

           1       0.77      0.88      0.82       130
           2       0.38      0.25      0.30        36
           3       0.50      0.25      0.33        12

    accuracy                           0.71       178
   macro avg       0.55      0.46      0.48       178
weighted avg       0.67      0.71      0.68       178



---
## *과제3*
***위 다중분류의 지표들을 보고, '1번 항구라고 예측한 모든 건에 대하여 실제 1번 항구를 예측한 건의 비율'은 어느 지표와 관련이 있는지 서술하시오.***

***답*** : 

---
## 보팅(Voting) : 앙상블 다중분류

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import VotingClassifier

# Logistic Regression Model
lr_model = LogisticRegression()
lr_model.fit(X_train_scaled, y_train)

# Decision Tree Model
tree_model = DecisionTreeClassifier(random_state=42)
tree_model.fit(X_train_scaled, y_train)

# SVM Model with probability estimates for soft voting
svm_model_prob = SVC(random_state=42, probability=True)  # Adjusted SVM initialization
svm_model_prob.fit(X_train_scaled, y_train)

# Hard Voting Classifier
voting_clf_hard = VotingClassifier(estimators=[
    ('lr', lr_model),
    ('dt', tree_model),
    ('svc', svm_model_prob)],  # Using the SVM model with probabilities
    voting='hard')

voting_clf_hard.fit(X_train_scaled, y_train)  # Training hard voting classifier

# Soft Voting Classifier
voting_clf_soft = VotingClassifier(estimators=[
    ('lr', lr_model),
    ('dt', tree_model),
    ('svc', svm_model_prob)],
    voting='soft')

voting_clf_soft.fit(X_train_scaled, y_train)  # Training soft voting classifier

# Making predictions and evaluating hard voting classifier
voting_pred_hard = voting_clf_hard.predict(X_test_scaled)
voting_hard_accuracy = accuracy_score(y_test, voting_pred_hard)
voting_hard_report = classification_report(y_test, voting_pred_hard)

# Making predictions and evaluating soft voting classifier
voting_pred_soft = voting_clf_soft.predict(X_test_scaled)
voting_soft_accuracy = accuracy_score(y_test, voting_pred_soft)
voting_soft_report = classification_report(y_test, voting_pred_soft)

print("하드보팅의 정확도 : ", voting_hard_accuracy)
print(voting_hard_report)
print("소프트보팅의 정확도 : ", voting_soft_accuracy)
print(voting_soft_report)

하드보팅의 정확도 :  0.7415730337078652
              precision    recall  f1-score   support

           1       0.74      0.99      0.85       130
           2       0.00      0.00      0.00        36
           3       0.75      0.25      0.38        12

    accuracy                           0.74       178
   macro avg       0.50      0.41      0.41       178
weighted avg       0.59      0.74      0.65       178

소프트보팅의 정확도 :  0.7134831460674157
              precision    recall  f1-score   support

           1       0.75      0.92      0.83       130
           2       0.33      0.11      0.17        36
           3       0.50      0.25      0.33        12

    accuracy                           0.71       178
   macro avg       0.53      0.43      0.44       178
weighted avg       0.65      0.71      0.66       178



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


---
## 배깅(Bagging), 페이스팅(Pasting) : 앙상블 다중분류

In [9]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Set up the bagging classifier
bagging_clf = BaggingClassifier(
    DecisionTreeClassifier(), 
    n_estimators=500, 
    max_samples=100, 
    bootstrap= True, 
    n_jobs=-1 # Use all cores
)

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Set up the pasting classifier
pasting_clf = BaggingClassifier(
    DecisionTreeClassifier(), 
    n_estimators=500, 
    max_samples=100, 
    bootstrap= False, 
    n_jobs=-1 # Use all cores
)

---
## *과제4*
***1. 위 코드를 보고, 사용된 기반 분류기의 종류를 서술하시오.***

***2. 위 코드를 보고, Bagging과 Pasting 생성에 다른 값을 가지는 parameter는 무엇인지 서술하시오.***

***답*** : 

---

In [10]:
bagging_clf.fit(X_train_scaled, y_train)
pasting_clf.fit(X_train_scaled, y_train)

In [11]:
from sklearn.metrics import accuracy_score

# Make predictions
y_pred_bagging = bagging_clf.predict(X_test_scaled)
y_pred_pasting = pasting_clf.predict(X_test_scaled)

# Evaluate accuracy
bagging_accuracy = accuracy_score(y_test, y_pred_bagging); bagging_report = classification_report(y_test, y_pred_bagging)
pasting_accuracy = accuracy_score(y_test, y_pred_pasting); pasting_report = classification_report(y_test, y_pred_pasting)

In [12]:
print("배깅의 정확도 : ", bagging_accuracy)
print(bagging_report)
print("페이스팅의 정확도 : ", pasting_accuracy)
print(pasting_report)

배깅의 정확도 :  0.7415730337078652
              precision    recall  f1-score   support

           1       0.76      0.95      0.85       130
           2       0.50      0.14      0.22        36
           3       0.60      0.25      0.35        12

    accuracy                           0.74       178
   macro avg       0.62      0.45      0.47       178
weighted avg       0.70      0.74      0.69       178

페이스팅의 정확도 :  0.7303370786516854
              precision    recall  f1-score   support

           1       0.75      0.95      0.84       130
           2       0.38      0.08      0.14        36
           3       0.60      0.25      0.35        12

    accuracy                           0.73       178
   macro avg       0.58      0.43      0.44       178
weighted avg       0.67      0.73      0.67       178



---
## 부스팅(Boosting) : 앙상블 다중분류

In [13]:
from sklearn.ensemble import AdaBoostClassifier

# Create AdaBoost classifier with a decision tree as base estimator
ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=3), n_estimators=200,
    algorithm="SAMME.R", learning_rate=0.5, random_state=42
)

# Fit the model on the training set
ada_clf.fit(X_train_scaled, y_train)

# Make predictions
y_pred_ada = ada_clf.predict(X_test_scaled)

# Calculate accuracy and print classification report
ada_accuracy = accuracy_score(y_test, y_pred_ada)
ada_report = classification_report(y_test, y_pred_ada)

print("AdaBoost Classifier Accuracy: ", ada_accuracy)
print(ada_report)

AdaBoost Classifier Accuracy:  0.7191011235955056
              precision    recall  f1-score   support

           1       0.76      0.89      0.82       130
           2       0.40      0.22      0.29        36
           3       0.67      0.33      0.44        12

    accuracy                           0.72       178
   macro avg       0.61      0.48      0.52       178
weighted avg       0.68      0.72      0.69       178



In [14]:
from sklearn.ensemble import GradientBoostingClassifier

# Create Gradient Boosting classifier
gb_clf = GradientBoostingClassifier(n_estimators=200, learning_rate=0.5, max_depth=3, random_state=42)

# Fit the model on the training set
gb_clf.fit(X_train_scaled, y_train)

# Make predictions
y_pred_gb = gb_clf.predict(X_test_scaled)

# Calculate accuracy and print classification report
gb_accuracy = accuracy_score(y_test, y_pred_gb)
gb_report = classification_report(y_test, y_pred_gb)

print("Gradient Boosting Classifier Accuracy: ", gb_accuracy)
print(gb_report)

Gradient Boosting Classifier Accuracy:  0.7471910112359551
              precision    recall  f1-score   support

           1       0.81      0.87      0.84       130
           2       0.50      0.47      0.49        36
           3       0.75      0.25      0.38        12

    accuracy                           0.75       178
   macro avg       0.69      0.53      0.57       178
weighted avg       0.74      0.75      0.73       178



---
## GridSearchCV : 최적화

In [15]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Define the parameter grid for GridSearchCV
param_grid = {
    'n_estimators': [100, 200, 500],
    'max_samples': [50, 100, 200],
    'bootstrap': [True, False],
    'max_features': [0.4, 0.7, 1.0]
}

# Initialize the GridSearchCV object
grid_search = GridSearchCV(BaggingClassifier(DecisionTreeClassifier(), n_jobs=-1), 
                           param_grid, cv=5)


grid_search.fit(X_train_scaled, y_train)
best_bagging_clf = grid_search.best_estimator_

# Predict using the best estimator on the test set
y_pred = best_bagging_clf.predict(X_test_scaled)

# Calculate accuracy and classification report
bagging_accuracy = accuracy_score(y_test, y_pred)
bagging_report = classification_report(y_test, y_pred)

print(best_bagging_clf)
print("optimized_bagging accuracy: ",bagging_accuracy)
print(bagging_report)

BaggingClassifier(bootstrap=False, estimator=DecisionTreeClassifier(),
                  max_features=0.7, max_samples=200, n_estimators=500,
                  n_jobs=-1)
optimized_bagging accuracy:  0.7696629213483146
              precision    recall  f1-score   support

           1       0.77      0.98      0.86       130
           2       0.70      0.19      0.30        36
           3       0.75      0.25      0.38        12

    accuracy                           0.77       178
   macro avg       0.74      0.47      0.51       178
weighted avg       0.76      0.77      0.72       178



---
## *과제5 T/F*

***1. 위 코드와 같이 모델의 성능을 최대화화기 위해 설정값들의 최적 조합을 찾는 과정을 하이퍼파라미터 최적화라고 한다.***

***2. 위 배깅/페이스팅 최적화의 parameter 중 max_samples는 무작위로 추출하는 샘플의 수로, 정수만 설정할 수 있다.***


***답*** :

---