## 머신러닝 기초2

## 01. 단일모델 - KNN, SVM

<img src = "https://images.unsplash.com/photo-1591453089816-0fbb971b454c?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80" width=80% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/f57lx37DCM4?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/fr/@markuswinkler?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Markus Winkler</a>
  
  </div>

### 0. 데이터 준비하기
- **데이터 설명**<br>
타이타닉 데이터셋은 1912년에 발생한 타이타닉호의 침몰 사고와 관련된 정보를 담고 있는 데이터셋입니다. 이 데이터셋은 Kaggle에서 제공하며 기계 학습과 데이터 분석을 위해 널리 사용되는 예제 데이터셋 중 하나로, 생존자 예측과 관련된 문제에 대한 연구 및 분석을 수행하는 데 자주 활용됩니다. <br><br>
이번 실습에서는 해당 데이터셋의 전처리 작업(결측치 처리, 가변수화, 정규화 등)을 완료한 데이터 파일('titanic_preprocessing.csv')을 활용할 예정이며, 각 컬럼은 다음과 같은 내용을 포함하고 있습니다. 

| 컬럼명         | 설명                                      |
|----------------|--------------------------------------------|
| Survived       | 생존 여부 (1: 생존, 0: 사망)               |
| Age            | 나이                                       |
| SibSp          | 함께 탑승한 형제자매 또는 배우자의 수       |
| Parch          | 함께 탑승한 부모 또는 자녀의 수             |
| Fare           | 운임 요금                                  |
| Title_Mr       | Mr. 호칭을 갖는 탑승객 여부 (1: 해당, 0: 해당X) |
| Title_Mrs      | Mrs. 호칭을 갖는 탑승객 여부 (1: 해당, 0: 해당X)|
| Title_Others   | Mr., Mrs. Miss 이외의 호칭을 갖는 탑승객 여부  |
| Pclass_2       | 2등석 여부 (1: 해당, 0: 해당X)              |
| Pclass_3       | 3등석 여부 (1: 해당, 0: 해당X)              |
| Sex_male       | 성별이 남성인지 여부 (1: 남성, 0: 여성)     |
| Embarked_Q     | 탑승지가 Queenstown인지 여부 (1: 해당, 0: 해당X)|
| Embarked_S     | 탑승지가 Southampton인지 여부 (1: 해당, 0: 해당X)|


#### 1️⃣ 데이터 불러오기

In [1]:
# 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

In [2]:
# 데이터 읽어오기
df = pd.read_csv("./data/titanic_preprocessing.csv")


In [3]:
# 샘플 데이터 확인하기
df.head()

Unnamed: 0,Survived,Age,SibSp,Parch,Fare,Title_Mr,Title_Mrs,Title_Others,Pclass_2,Pclass_3,Sex_male,Embarked_Q,Embarked_S
0,0.0,0.271174,0.125,0.0,0.014151,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0
1,1.0,0.472229,0.125,0.0,0.139136,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1.0,0.321438,0.0,0.0,0.015469,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
3,1.0,0.434531,0.125,0.0,0.103644,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.434531,0.0,0.0,0.015713,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0


#### 2️⃣ 데이터 분리하기

In [4]:
# Feature는 x, Target은 y 로 저장합니다.
x = df.drop(columns=['Survived'])
y = df['Survived']

In [5]:
# sklearn 패키키 증 train_test_split 함수 불러오기
from sklearn.model_selection import train_test_split

# Feature와 Target을 train, test 데이터 셋으로 나누기
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


---

### 1. K-Nearest Neighbors - Classification

#### 1️⃣ 라이브러리 호출하기

In [6]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

#### 2️⃣ 선언하기 
KNeighborsClassifier 클래스 객체 생성하기

In [7]:
model_knn = KNeighborsClassifier()

#### 3️⃣ 학습하기
fit 메서드로 가중치 값을 추정한다.

In [8]:
model_knn.fit(x_train, y_train)

#### 4️⃣ 예측하기
predict 메서드로 새로운 입력 데이터에 대한 출력 데이터 예측



In [9]:
y_pred = model_knn.predict(x_test)

#### 5️⃣ 평가하기

In [10]:
print("[classification_report]")
print(classification_report(y_test, y_pred))

[classification_report]
              precision    recall  f1-score   support

         0.0       0.83      0.84      0.83       105
         1.0       0.77      0.76      0.76        74

    accuracy                           0.80       179
   macro avg       0.80      0.80      0.80       179
weighted avg       0.80      0.80      0.80       179



#### 6️⃣ 파라미터 조정하기
> - n_neighbors : K 이웃의 개수<br> 
> 작은 K 값은 모델의 결정 경계를 불안정하게 만들 수 있습니다.<br>
> 큰 K 값은 모델의 결정 경계를 보다 부드럽게 만들 수 있지만, 다른 클래스의 영향을 받을 가능성이 높아집니다.

In [11]:
# 모델 선언
model_knn2 = KNeighborsClassifier(n_neighbors=2)

# 모델 학습
model_knn2.fit(x_train, y_train)

# 모델 예측
y_pred = model_knn2.predict(x_test)

# 모델 평가
print("[classification_report]")
print(classification_report(y_test, y_pred))

[classification_report]
              precision    recall  f1-score   support

         0.0       0.80      0.90      0.85       105
         1.0       0.83      0.68      0.75        74

    accuracy                           0.81       179
   macro avg       0.82      0.79      0.80       179
weighted avg       0.81      0.81      0.81       179



---

### 2. Support Vector Machine - Classification

#### 0️⃣ 데이터 준비하기

#### 1️⃣ 라이브러리 호출하기

In [12]:
from sklearn.svm import SVC


#### 2️⃣ 선언하기

In [13]:
model_svm = SVC()

#### 3️⃣ 학습하기

In [14]:
model_svm.fit(x_train, y_train)

#### 4️⃣ 예측하기

In [15]:
y_pred = model_svm.predict(x_test)

#### 5️⃣ 평가하기

In [16]:
print("[classification_report]")
print(classification_report(y_test, y_pred))

[classification_report]
              precision    recall  f1-score   support

         0.0       0.80      0.86      0.83       105
         1.0       0.78      0.70      0.74        74

    accuracy                           0.79       179
   macro avg       0.79      0.78      0.78       179
weighted avg       0.79      0.79      0.79       179



#### 6️⃣ 파라미터 조정하기
> - C : 마진의 규제 파라미터<br> 
> C 값이 작을수록 오분류를 허용하며, 마진이 커져, 모델을 단순화하고 일반화 능력을 향상시킬 수 있지만, 과소적합 위험이 있습니다.<br>
> C 값이 클수록 오분류에 대한 허용이 줄어들고, 모델을 복잡화하고 훈련 데이터에 더 잘 적합할 수 있지만, 과적합의 위험이 있습니다.

In [17]:
# 모델 선언
model_svm2 = SVC(C=10)

# 모델 학습
model_svm2.fit(x_train, y_train)

# 모델 예측
y_pred = model_svm2.predict(x_test)

# 모델 평가
print("[classification_report]")
print(classification_report(y_test, y_pred))

[classification_report]
              precision    recall  f1-score   support

         0.0       0.82      0.89      0.85       105
         1.0       0.82      0.72      0.76        74

    accuracy                           0.82       179
   macro avg       0.82      0.80      0.81       179
weighted avg       0.82      0.82      0.81       179



---