# 주제: 데이터 분할 및 모델 평가

이번 주에는 **모델 학습을 위한 데이터 분할 방법과 성능 평가 지표**를 배운다.  
목표:  
* 데이터를 **학습(train) / 검증 (validation) / 테스트(test)** 세트로 분할하기
* `train_test_split()`을 활용한 데이터 분할
* 모델 평가를 위한 성능 지표(정확도, 정밀도, 재현율, F1-score) 이해
* 교차 검증(Cross Validation) 기법 활용





# 1. 기본 예제

### Example 1. 데이터셋을 학습(train)과 테스트(test) 세트로 나누기

>**문제**: `titanic` 데이터를 불러와 `age`, `fare` column을 X 변수에, `survived` column을 y로 설정한 후, *80%는 학습 데이터, 20%는 테스트 데이터*로 분할하시오.  

>**힌트**: `train_test_split(X, y, test_size = 분할비율, random_state = 42)`을 사용하면 데이터를 쉽게 분할할 수 있음.

```python
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

# 데이터 불러오기
df = sns.load_dataset("titanic").dropna()

# 입력(X)과 출력(y) 설정
X = df[["age", "fare"]]
y = df["survived"]

# 데이터 분할 (80% 학습, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 분할된 데이터 크기 확인
print(f"Train set size: {X_train.shape}, Test set size: {X_test.shape}")
```


In [None]:
## Now, try it on your own. ##
## 실습 코드를 이곳에 작성하세요 ##

import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

df=sns.load_dataset("titanic").dropna()
# .dropna() 함수를 이용하여 결측치를 제거한 데이터 프레임을 만들 수 있음

X=df[["age", "fare"]]
Y=df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
# train_test_split(X, Y, test_size=테스트 데이터의 비율, random_state=시드)를 통해 원래 데이터에서 훈련, 테스트 데이터를 생성할 수 있음
# 시드를 설정하면 항상 같은 값이 나옴. 무작위로 설정하고자 하면 random_state=시드를 없앰
# 시드를 통해 이전에 실행한 결과를 재현할 수 있음

print(f"Train set size: {X_train.shape}, Test set size: {X_test.shape}")
# X_train.shape는 해당 행렬의 차원을 의미함(145열, 2행)
# 변수의 값을 출력하고자 할 때 print(f"...{변수}")를 이용함

X_train.head()

Train set size: (145, 2), Test set size: (37, 2)


Unnamed: 0,age,fare
331,45.5,28.5
336,29.0,66.6
193,3.0,26.0
75,25.0,7.65
248,37.0,52.5542


**해설**
* `train_test_split()`을 사용하면 데이터를 **랜덤하게** 학습/테스트 세트로 분할할 수 있다.
* `test_size=0.2` << 20%를 테스트 데이터로 분할한다는 의미이다.
* `random_state=42` 를 설정하면 **항상 같은 결과가 나오도록 재현 가능**하게 만든다.
---

### Example 2. 학습(train) / 검증(validation) / 테스트(test) 세트로 나누기

>**문제**: `train_test_split()`을 두 번 사용하여 데이터를 **학습 60% / 검증 20% / 테스트 20%**로 분할하시오.  

>**힌트**: 먼저 train-test 세트로 나누고, 다시 train 데이터를 train-validation 으로 나눈다.

```python
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

# 데이터 불러오기
df = sns.load_dataset("titanic").dropna()

# 입력(X)과 출력(y) 설정
X = df[["age", "fare"]]
y = df["survived"]

# 1차 분할: 학습(80%), 테스트(20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2차 분할: 학습(60%), 검증(20%)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)

# 데이터 크기 확인
print(f"Train set size: {X_train.shape}, Validation set size: {X_val.shape}, Test set size: {X_test.shape}")
```

In [None]:
## Now, try it on your own. ##
## 실습 코드를 이곳에 작성하세요 ##

import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

df=sns.load_dataset("titanic").dropna()

X=df[["age", "fare"]]
Y=df["survived"]

X_train, X_test, Y_train, Y_test=train_test_split(X, Y, test_size=0.2, random_state=42)
X_train, X_val, Y_train, Y_val=train_test_split(X_train, Y_train, test_size=0.25, random_state=42)
# 80%로 나누어진 훈련 데이터셋을 각각 60%의 훈련 데이터셋, 20%의 데이터셋으로 나누기 위해 test_size=0.25로 설정

print(f"Train set size: {X_train.shape}, Validation set size: {X_val.shape}, Test set size; {X_test.shape}")

Train set size: (108, 2), Validation set size: (37, 2), Test set size; (37, 2)


**해설**
* 데이터를 **학습 60% / 검증 20% / 테스트 20%**로 나누기 위해,
  1. 먼저 **80% 학습 / 20% 테스트**로 나누고,
  2. 그 중 학습 데이터(80%)를 다시 **학습 60% / 검증 20%**으로 나눈다.
* 이렇게 하면 학습 60%, 검증 20%, 테스트 20%가 된다.
---

### Example 3. 모델 평가 - 정확도(Accuracy) 계산하기

>**문제**: `LogisticRegression` 모델을 학습시키고, 테스트 데이터에서 정확도를 계산하시오.

>**힌트**: `accuracy_score(y_true, y_pred)를 사용하면 정확도를 계산할 수 있음.

```python
from sklearn.linear_model import LogisticRegresson
from sklearn.metrics import accuracy_score

# 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

# 예측 및 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Accuracy: {accuracy:.4f}")
```

In [None]:
## Now, try it on your own. ##
## 실습 코드를 이곳에 작성하세요 ##

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import iaccuracy_score

model = LogisticRegression()
model.fit(X_train, Y_train)
#LogsticRegression()을 이용하여 선형회귀모델을 제작하고, .fit(입력 데이터, 레이블값) 함수를 이용하여 모델을 학습시킴

Y_pred = model.predict(X_test)
accuracy = accuracy_score(Y_test, Y_pred)
# .predict(테스트 데이터)를 이용하면 해당 데이터의 레이블을 예측할 수 있음
# accuracy_score(실제 값, 예측 값)을 이용하면 예측 값의 정답률을 알 수 있음

print(f"Accuracy: {accuracy:.4f}")
# .4f는 소수점 넷째 자리까지 출력한다는 의미

Accuracy: 0.7568


**해설**
* **정확도(Accuracy) = 올바르게 예측한 샘플 수 / 전체 샘플 수**
* `accuracy_score(y_test, y_pred)`를 사용하면 정확도를 계산할 수 있다.
* 정확도는 **클래스 불균형이 있는 경우 신뢰하기 어렵다**는 단점이 있다.
---

### Example 4. 정밀도(Precision)와 재현율(Recall) 계산하기

>**문제**: `LogisticRegression` 모델을 학습한 후, 정밀도(Precision)와 재현율(Recall)을 계산하시오.

>**힌트**: `precision_score()`와 `recall_score()`를 사용하면 된다.

```python
from sklearn.metrics import precision_score, recall_score

precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
```

In [None]:
## Now, try it on your own. ##
## 실습 코드를 이곳에 작성하세요 ##

from sklearn.metrics import precision_score, recall_score

precision = precision_score(Y_test, Y_pred)
recall = recall_score(Y_test, Y_pred)

print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")

Precision: 0.7273
Recall: 1.0000


**해설**
* **정밀도(Precision) = 실제 양성으로 예측한 샘플 중 진짜 양성 비율**
* **재현율(Recall) = 실제 양성 샘플 중 올바르게 예측한 비율**
* 정밀도가 높으면 **False Positive**이 적고, 재현율이 높으면 **False Negative**이 적다.
---

### Example 5. 교차 검증(Cross Validation) 수행하기

>**문제**: `cross_val_score()`를 사용하여 `LogisticRegression` 모델의 5-Fold 교차 검증 결과를 확인하시오.

>**힌트**: `cross_val_score(model, X, y, cv=k)`를 사용하면 k-fold 교차 검증을 수행할 수 있다.

```python
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, y, cv=5)
print(f"Cross Validation Scores: {scores}")
print(f"Mean Accuracy: {scores.mean():.4f}")
```

In [None]:
## Now, try it on your own. ##
## 실습 코드를 이곳에 작성하세요 ##

from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, Y, cv=5)
# cv=k에서 k는 폴드의 횟수

print(f"Cross Validation Scores: {scores}")
print(f"Mean Accuracy: {scores.mean():.4f}")

Cross Validation Scores: [0.7027027  0.7027027  0.63888889 0.66666667 0.72222222]
Mean Accuracy: 0.6866


**해설**
* **교차 검증(Cross Validation)**은 데이터를 여러 개의 폴드(fold)로 나누어 여러 번 학습 및 평가하는 방법이다.
* `cv=5`는 **5-Fold 교차 검증**을 의미한다.
* 평균 정확도를 계산하여 **모델이 특정 데이터에 과적합(overfitting)하는지 확인**할 수 있다.
---

# 추가 연습 문제

## 1. Stratified K-Fold 교차 검증 수행하기

>**문제**: `StratifiedKFold`를 사용하여 클래스 비율을 유지하면서 교차 검증을 수행하라.

>**참고 자료**: [StratifiedKFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html)

---

참고 자료로 올린 사이트는 scikit-learn 라이브러리에서 호출할 수 있는 각종 함수들에 대한 Document 입니다.  
Document를 읽고 함수를 사용하는 방법에 대해 알아봅시다.

사이트에 접속하니, **StratifiedKFold** 이름의 제목 아래에 함수가 scikit-learn에서 어떻게 정의되어 있는지 확인할 수 있습니다.  
```python
class sklearn.model_selection.StratifiedKFold(n_splits=5, *, shuffle=False, random_state=None)
```
이는, `StratifiedKFold()` 함수가 scikit-learn 라이브러리에서 `sklearn/model_selection` 위치에 존재한다는 것을 의미합니다.  
따라서, 이 함수를 사용하기 위해서는 아래처럼 **정확한 위치에서 import 해야** 합니다.
```python
from sklearn.model_selection import StratifiedKFold
```
`StratifiedKFold()` 함수 내부의 Parameters에 대한 자세한 설명은 Document에 자세히 나와있으며, Example도 존재합니다.  
해당 내용 참고해서 문제를 해결하시기 바랍니다.

In [None]:
## YOUR CODE HERE ##

import numpy as np
from sklearn.model_selection import StratifiedKFold, cross_val_score, train_test_split
import seaborn as sns
import pandas as pd
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.linear_model import LogisticRegression

df=sns.load_dataset("titanic").dropna()

X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=40)

model = LogisticRegression()
model.fit(X_train, Y_train)
# Shuffle이 True일 때만 random_state를 설정할 수 있음(False일 때에는 None으로 설정됨)

precision = cross_val_score(model, X_train, Y_train, cv=skf, scoring="precision")
recall = cross_val_score(model, X_train, Y_train, cv=skf, scoring="recall")

print(f"Precision: {precision}")
print(f"Recall: {recall}")
# StratifiedKFold() 함수는 모델을 만드는 것이 아니라 인덱스를 분할하는 역할만 하므로 별도의 모델을 만들고 학습시켜 성능을 측정해야 함.

Precision: [0.65517241 0.7037037  0.68965517 0.67857143 0.68965517]
Recall: [1.   0.95 1.   0.95 1.  ]


## 2. 다른 모델(SVC)로 교차 검증 수행하기

>**문제**: `SVC()`를 사용하여 수업 시간에 배웠던 방식으로 5-Fold 교차 검증을 실행하라.

>**참고 자료**: [C-Support Vector Classification](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)

In [None]:
## YOUR CODE HERE ##

import pandas as pd
import seaborn as sns
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split, cross_val_predict, cross_val_score

df = sns.load_dataset("titanic").dropna()

X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = SVC()
# SVC() 함수는 서포트 벡터 머신 모델을 생성함
model.fit(X_train, Y_train)

scores = cross_val_score(model, X, Y, cv=5)
print(f"cross validation scores:, {scores}")
print(f"mean accuracy:, {scores.mean():.4f}")

cross validation scores:, [0.67567568 0.67567568 0.69444444 0.66666667 0.66666667]
mean accuracy:, 0.6758


## 3. ROC-AUC 점수 계산하기

>**문제**: `roc_auc_score(y_test, y_pred_prob)`을 사용하여 ROC-AUC 점수를 계산하라.

>**참고 자료**: [roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)

In [None]:
## YOUR CODE HERE ##

import pandas as pd
import seaborn as sns
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

df = sns.load_dataset("titanic").dropna()

X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=None)

model = LogisticRegression()
model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

auc_score = roc_auc_score(Y_test, Y_pred)
# 다른 점수를 계산하는 함수와 같이 roc_auc_score(테스트레이블, 예측레이블)의 형식으로 사용함.
print(f"ROC_AUC score: {auc_score:.4f}")

ROC_AUC score: 0.5789


## 4. Confusion Matrix 출력하기

>**문제**: `confusion_matrix(y_test, y_pred)`을 사용하여 혼동 행렬을 출력하라.

>**참고 자료**: [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)

In [None]:
## YOUR CODE HERE ##

import pandas as pd
import seaborn as sns
from sklearn.metrics import confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

df = sns.load_dataset("titanic").dropna()

X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

confusion_matrix(Y_test, Y_pred)
# 정확도, 정밀도, 재현율, ROC_AUC score 등과 같은 방법으로 사용

array([[ 3, 10],
       [ 0, 24]])

## 5. 데이터를 정규화한 후 모델 학습시키기

>**문제**: `MinMaxScaler()`로 데이터를 변환한 후 모델을 다시 학습하라.

>**참고 자료**: [MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

In [None]:
## YOUR CODE HERE ##

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

df = sns.load_dataset("titanic").dropna()
# MinMaxScaler() 함수는 데이터의 값을 0과 1 사이의 값으로 변환함.(괄호 안에 min, max 값을 설정하면 최대, 최소값을 변경할 수 있음)
# 따라서 MinMaxScaler() 함수를 사용할 때 범주형 변수는 적절하지 않으며, 수치형 변수를 사용해야 함.

print(df.head())

X = df[["age", "fare"]]
Y = df["survived"]

X_scaled = MinMaxScaler().fit_transform(X)
# MinMaxScaler().fit_transform(데이터)의 형식으로 사용하며, 데이터는 반드시 2차원이어야 함.(하나의 열만 들어 있으면 실행되지 않음)
print(X_scaled)

X_train, X_test, Y_train, Y_test = train_test_split(X_scaled, Y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)
accuracy = accuracy_score(Y_test, Y_pred)
print(f"Accuracy: {accuracy:.4f}")

    survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
1          1       1  female  38.0      1      0  71.2833        C  First   
3          1       1  female  35.0      1      0  53.1000        S  First   
6          0       1    male  54.0      0      0  51.8625        S  First   
10         1       3  female   4.0      1      1  16.7000        S  Third   
11         1       1  female  58.0      0      0  26.5500        S  First   

      who  adult_male deck  embark_town alive  alone  
1   woman       False    C    Cherbourg   yes  False  
3   woman       False    C  Southampton   yes  False  
6     man        True    E  Southampton    no   True  
10  child       False    G  Southampton   yes  False  
11  woman       False    C  Southampton   yes   True  
[[0.46889226 0.13913574]
 [0.43095599 0.1036443 ]
 [0.67121902 0.10122886]
 [0.0389479  0.03259623]
 [0.72180071 0.05182215]
 [0.41831057 0.02537431]
 [0.34243804 0.06929139]
 [0.22862924 0.51334181]
 [0.607

## 6. 모델의 예측 확률 출력하기

>**문제**: `predict_proba()`를 사용하여 예측 확률을 출력하라.

>**참고 자료**: `predict_proba()`는 앞선 연습 문제 2번에서 다룬 SVC 내부에 정의되어 있는 함수입니다.  
따라서, `from sklearn.linear_model import SVC`를 통해 SVC 모델을 import 했다면, 별도로 `predict_proba()`에 대해 설정해줘야 하는 코드는 없습니다.

In [None]:
## YOUR CODE HERE ##

from sklearn.svm import SVC
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

df = sns.load_dataset("titanic").dropna()

X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, Y_train)

Y_pred_proba = model.predict_proba(X_test)
print(Y_pred_proba)
# predict() 함수는 예측한 범주를 반환하고, predict_proba() 함수는 각 범주별 예측할 확률을 반환함.

[[0.13179198 0.86820802]
 [0.33733553 0.66266447]
 [0.11608604 0.88391396]
 [0.41520472 0.58479528]
 [0.40691317 0.59308683]
 [0.57275492 0.42724508]
 [0.24652629 0.75347371]
 [0.28232989 0.71767011]
 [0.36168178 0.63831822]
 [0.49545781 0.50454219]
 [0.29235094 0.70764906]
 [0.39696414 0.60303586]
 [0.191621   0.808379  ]
 [0.19130361 0.80869639]
 [0.40127229 0.59872771]
 [0.25528354 0.74471646]
 [0.21419221 0.78580779]
 [0.23350802 0.76649198]
 [0.47530335 0.52469665]
 [0.19270746 0.80729254]
 [0.45423469 0.54576531]
 [0.40768388 0.59231612]
 [0.39806827 0.60193173]
 [0.17879866 0.82120134]
 [0.50358283 0.49641717]
 [0.26016046 0.73983954]
 [0.20943893 0.79056107]
 [0.40073019 0.59926981]
 [0.36535206 0.63464794]
 [0.35587839 0.64412161]
 [0.32081104 0.67918896]
 [0.11505822 0.88494178]
 [0.54388204 0.45611796]
 [0.31555525 0.68444475]
 [0.25039629 0.74960371]
 [0.44543709 0.55456291]
 [0.21868021 0.78131979]]


## 7. RandomForest 모델로 교차 검증 수행하기

>**문제**: `RandomForestClassifier()`를 사용하여 5-Fold 교차 검증을 수행하라.

>**참고 자료**: [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

In [None]:
## YOUR CODE HERE ##

from sklearn.ensemble import RandomForestClassifier as RF
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
import pandas as pd

df = sns.load_dataset("titanic").dropna()
X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
X_train, X_val, Y_train, Y_val = train_test_split(X_train, Y_train, test_size=0.25, random_state=42)

model = RF()
model.fit(X_train, Y_train)

scores = cross_val_score(model, X, Y, cv=5)
print(f"cross val score: {scores}")
print(f"average score: {scores.mean():.4f}")

cross val score: [0.62162162 0.67567568 0.66666667 0.66666667 0.69444444]
average score: 0.6650


## 8. GridSearchCV를 이용하여 최적의 하이퍼파라미터 찾기

>**문제**: `GridSearchCV()`를 사용하여 `C`와 `penalty` 값을 조정하면서 최적의 `LogisticRegression` 모델을 찾아라 (모델 평가는 5-Fold 교차 검증을 사용할 것).

>**참고 자료**: [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)  
---
GridSearchCV는 교재에 **이론적인** 설명이 나와있지만, 처음 코드로 작성해보는 사람 입장에서는 한번에 이해하기 어려운 내용입니다.  
참고 자료에 나와있는 `param_grid` 파라미터에 대한 원문 내용과 한국어 번역 내용을 함께 올려드리오니 내용 참고하시기 바랍니다.  
(컴퓨터공학에서 다루는 내용(자료구조) 중에서 **"List"와 "Dictionary"**에 대한 기초 지식이 필요합니다.)  
>**param_grid : _dict or list of dictionaries_**  
Dictionary with parameters names (`str`) as keys and lists of parameter settings to try as values, or a list of such dictionaries, in which case the grids spanned by each dictionary in the list are explored. This enables searching over any sequence of parameter settings.

> 매개변수 이름(문자열)을 key로 하고, Search를 시도할 매개변수 설정의 List를 value로 가지는 Dictionary이거나, 그러한 Dictionary들이 여러개 존재하는 List일 수 있습니다. 후자의 경우, List에 있는 각 Dictionary가 정의하는 grid를 개별적으로 탐색합니다. 이는 다양한 매개변수 설정 조합을 가능하게끔 합니다.  

문제의 난이도를 고려하여, 여러분이 작성해야 하는 코드에서 `param_grid` 파라미터 설정을 위한 대한 자료구조 틀은 제공해 드리겠습니다.  
해당 line 에서 `C` 값과 `penalty` 값을 조절해가면서 최적의 모델을 찾아보세요.  
(최적의 하이퍼파라미터 값을 찾아가는 과정은 상당한 인내심이 필요합니다. `C`와 `penalty`값을 바꿔가면서 코드를 최소 3회 이상 실행해보는 것을 권장합니다.)

In [None]:
# YOUR CODE HERE
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

df = sns.load_dataset("titanic").dropna()
X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = LogisticRegression(solver='liblinear')
# penalty를 l1으로 설정하기 위해 solver='liblinear'로 설정함. 설정하지 않으면 일부 적합은 실패
model2 = LogisticRegression(solver='saga', max_iter=100000)
# penalty를 elasticnet으로 설정하기 위해 solver='saga'로 설정함. 설정하지 않으면 모든 적합이 실패
# max_iter는 C의 값이 커질 때 실패하지 않기 위해 설정함.
model3 = LogisticRegression(solver='lbfgs', max_iter=1000)
# penalty를 None으로 설정하기 위해 solver='lbfgs'로 설정함. 설정하지 않으면 모든 적합이 실패

# 하이퍼파라미터 그리드 설정
param_grid_1 = {"C": [0.1, 1, 10, 100, 1000], "penalty": ['l1', 'l2']} # !주의!: penalty 값은 반드시 문자열(str)로 지정되어야 합니다.

# param_grid = {"C": [규제 강도(작을수록 규제가 강해지며 단순한 모델이 되 과적합 확률이 내려감)],
#                "panelty": ['l1' - 가중치 일부를 0으로 만듦, 'l2' - 가중치 크기를 작게 만듦, 'elasticnet' - l1+l2, 'none' -규제 없음]}
# GridSearchCV 실행
grid1 = GridSearchCV(model, param_grid_1, cv=5)
grid1.fit(X_train, Y_train)

Y_pred1 = grid1.predict(X_test)
accuracy1 = accuracy_score(Y_test, Y_pred1)
print(f"Accuracy_1: {accuracy1:.4f}")

param_grid_2 = {"C": [5, 7, 10, 15, 20], "penalty": ['l1']} # !주의!: penalty 값은 반드시 문자열(str)로 지정되어야 합니다.
grid2 = GridSearchCV(model, param_grid_2, cv=5)
grid2.fit(X_train, Y_train)
Y_pred2 = grid2.predict(X_test)
accuracy2 = accuracy_score(Y_test, Y_pred2)
print(f"Accuracy_2: {accuracy2:.4f}")

param_grid_3 = {"C": [10000, 50000, 70000, 100000], "penalty": ['l2']}
grid3 = GridSearchCV(model, param_grid_3, cv=5)
grid3.fit(X_train, Y_train)
Y_pred3 = grid3.predict(X_test)
accuracy3 = accuracy_score(Y_test, Y_pred3)
print(f"Accuracy_3: {accuracy3:.4f}")

param_grid_4 = {"C": [0.1, 1, 10, 100, 1000], "penalty": ["elasticnet"], "l1_ratio":[0.1, 0.3, 0.5]}
# elasticnet을 사용할 때는 l1와 l2를 얼마나 섞을 것인지 비율을 지정해야 함.
grid4 = GridSearchCV(model2, param_grid_4, cv=5)
grid4.fit(X_train, Y_train)
Y_pred4 = grid4.predict(X_test)
accuracy4 = accuracy_score(Y_test, Y_pred4)
print(f"Accuracy_4: {accuracy4:.4f}")

param_grid_5 = {"C": [1], "penalty": [None]}
# "penalty": [None]으로 설정할 때 C값은 무시됨.
grid5 = GridSearchCV(model3, param_grid_5, cv=5)
grid5.fit(X_train, Y_train)
Y_pred5 = grid5.predict(X_test)
accuracy5 = accuracy_score(Y_test, Y_pred5)
print(f"Accuracy_5: {accuracy5:.4f}")

print(f"best params:", grid5.best_params_)

Accuracy_1: 0.6486
Accuracy_2: 0.7027
Accuracy_3: 0.7297
Accuracy_4: 0.6486
Accuracy_5: 0.7297
best params: {'C': 1, 'penalty': None}


## 9. Pipeline을 사용하여 데이터 변환 및 모델 학습을 한 번에 수행하기

>**문제**: `Pipeline`을 사용하여 데이터 **스케일링**과 **LogisticRegression 모델 학습**을 한 번에 실행하라.

>**참고 자료**: [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)

In [None]:
## YOUR CODE HERE ##

import pandas as pd
import seaborn as sns
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler as MMScaler
from sklearn.metrics import accuracy_score

df = sns.load_dataset("titanic").dropna()
X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

pipeline = Pipeline([('scaler', MMScaler()), ('model', LogisticRegression())])
p
# scaler = MMScaler()과 model = LogisticRegression()을 합침
# Pipeline([('작업명1', 작업 클래스), ('작업명2', 작업 클래스), ... ])의 형식으로 사용할 수 있음
pipeline.fit(X, Y)

Y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(Y_test, Y_pred)
print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.6757


## 10. XGBoost 모델을 사용하여 성능 평가하기

>**문제**: `XGBClassifier()`를 사용하여 `titanic` 데이터를 학습시키고 정확도를 평가하라.

>**참고 자료**: [XGBoost: Python Package Introduction](https://xgboost.readthedocs.io/en/release_3.0.0/python/python_intro.html)  
XGBoost는 scikit-learn이 아닌 별도의 Document에서 관련 내용을 설명하고 있습니다.  
scikit-learn Document를 읽는 법에 어느정도 익숙해졌다면, 이번 Document도 어렵지 않게 읽고 사용법을 습득할 수 있을겁니다.

In [None]:
## YOUR CODE HERE ##

from xgboost import XGBClassifier
import pandas as pd
import seaborn as sns
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

df = sns.load_dataset("titanic").dropna()
X = df[["age", "fare"]]
Y = df["survived"]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = XGBClassifier()
model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)
accuracy = accuracy_score(Y_test, Y_pred)
print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.7027
