In [2]:
#hiddencell
from pbl_tools import *

import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
fe = fm.FontEntry(fname = 'NotoSansKR-Regular.otf', name = 'NotoSansKR')
fm.fontManager.ttflist.insert(0, fe)
plt.rc('font', family='NotoSansKR')

import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

# 스테이지 5. 고급 데이터 전처리 및 차원 축소를 통한 모델 학습과 평가
## 도입
이번 스테이지에서는 고급 데이터 전처리와 차원 축소를 통한 모델 학습과 평가에 집중합니다.   
이전 스테이지에서는 데이터의 기본 구조와 피처 상호 작용을 다뤘으며,   
이번에는 더 깊은 수준의 데이터 전처리와 차원 축소 기술을 활용하여 모델을 개선하고자 합니다.

## 학습 목표
- 교육 수준(education)과 결혼 상태(marital.status)를 수준 카테고리로 재분류할 수 있다.
- 파생변수를 생성하여 데이터를 보다 의미 있게 표현할 수 있다.
- 범주형 변수를 원-핫 인코딩하여 모델 학습에 활용할 수 있다.
- PCA (주성분 분석)를 활용하여 데이터의 차원을 축소하고 주요 특성을 추출할 수 있다.
- PCA 주성분의 분산 설명량을 확인하고 누적 설명량을 고려하여 주성분 개수를 선택할 수 있다.
- 데이터를 표준화하고 PCA 모델을 적용하여 데이터를 변환할 수 있다.
- RandomForestClassifier 모델을 활용하여 데이터를 분석하고 성능을 평가할 수 있다.

# 1. pandas를 이용해 csv 파일 읽어오기
[문제 1]  
`Pandas` 라이브러리(library)를 가져와보세요.  
그리고 `train.csv`, `test.csv`, `sample_submission.csv` 파일을 각각 train, test, submission 변수로 읽어오세요.  
아래 빈칸을 채워주세요.  

In [2]:
import pandas as pd  

train = pd.___('train.csv')  
test = pd.___('test.csv')  
submission = pd.___('sample_submission.csv')

In [21]:
#checkcode
ensure_vals(globals(), 'train', 'test', 'submission')
@check_safety
def check(
    user_train: pd.DataFrame,
    user_test: pd.DataFrame,
    user_submission: pd.DataFrame
):
    c_point1 = hasattr(user_train, 'tail')
    c_point2 = hasattr(user_test, 'tail')
    c_point3 = hasattr(user_submission, 'tail')

    if c_point1 and c_point2 and c_point3:
        return True
    else:
        return False

check(train, test, submission)

True

### Inst.  


### Hint.
`pd.read_csv('파일경로/파일명')` 를 활용해 보세요.

### Solution.
```python
import pandas as pd  

train = pd.read_csv('train.csv')  
test = pd.read_csv('test.csv')  
submission = pd.read_csv('sample_submission.csv')
```

# 2.교육(education) 수준 카테고리 재분류

데이터 전처리 과정에서는 종종 특성의 값을 재구분하는 작업이 필요합니다.   
이는 카테고리형 변수의 값들을 더 큰 범주로 묶어 데이터의 복잡도를 줄이고,   
모델 학습에 유용한 정보를 보다 명확하게 표현하는데 도움이 됩니다.

우리의 데이터셋에서 'education' 특성은 사람들의 교육 수준을 나타내는 여러 가지 값으로 구성되어 있습니다.   
그러나 이러한 각각의 값들이 모델 학습에 동일하게 중요하지 않을 수 있으며,   
비슷한 교육 수준을 가진 카테고리들은 실질적으로 같은 의미를 가질 가능성이 있습니다.

따라서 'education' 특성의 일부 값을 새로운 범주로 묶어보도록 하겠습니다.   
이렇게 함으로써 우리는 데이터 내에서 비슷한 의미를 가진 여러 개의 범주를 단순화하여 모델 성능을 향상시키고자 합니다.

[문제 2]

- `replace()` 함수를 사용하여 초등학교 교육 수준('Preschool', '1st-4th', '5th-6th')과 중학교 초기('7th-8th') 및 후기('9th'), 고등학교 초기('10th', '11th') 및 후기('12th') 등을 포함하는 여러 개의 범주를 하나인 `LowEducation`으로 재구분해주세요.

- 일부 고등 교육 수준(대학 일부 코스와 전문 대학 코스)은 `SomeHigherEd`로,    
석사 학위와 전문 학위 프로그램은 모두 `Masters`로 재구분하였습니다.

In [5]:
train['education'].___(['Preschool', '10th', '11th', '12th', '1st-4th', '5th-6th', '7th-8th', '9th'], 'LowEducation', inplace=True)
train['education'].replace(['Some-college', 'Assoc-acdm', 'Assoc-voc'], 'SomeHigherEd', inplace=True)
train['education'].replace(['Masters', 'Prof-school'], ['Masters', 'Masters'], inplace=True)

In [23]:
#checkcode
ensure_vals(globals(), 'train')
@check_safety
def check(
    df: pd.DataFrame,
    col: str,
    val1: str,
    val2: str,
    val3: str
):
    c_point0 = val1 in df[col].unique()
    c_point1 = val2 in df[col].unique()
    c_point2 = val3 not in df[col].unique()

    if c_point0 and c_point1 and c_point2:
        return True
    else:
        return False

check(train, 'education', 'LowEducation', 'SomeHigherEd', 'Prof-school')

True

### Inst.

`inplace=True`는 데이터프레임을 직접 수정하도록 지시하는 파라미터입니다.   
이 파라미터를 `True`로 설정하면, 해당 연산이 원래의 데이터프레임에 적용되어 수정됩니다.   
따라서 새로운 데이터프레임을 반환하지 않고, 기존 데이터프레임이 변경됩니다.   
이를 통해 메모리를 절약하고 코드를 간결하게 작성할 수 있습니다.

### Hint.
empty

### Solution.
```python
train['education'].replace(['Preschool', '10th', '11th', '12th', '1st-4th', '5th-6th', '7th-8th', '9th'], 'LowEducation', inplace=True)
train['education'].replace(['Some-college', 'Assoc-acdm', 'Assoc-voc'], 'SomeHigherEd', inplace=True)
train['education'].replace(['Masters', 'Prof-school'], ['Masters', 'Masters'], inplace=True)
```

# 3.결혼 상태 (marital.status) 수준 카테고리 재분류

Never.married는 결혼을 한 번도 하지 않은 상태를 나타내며, Married.spouse.absent는 배우자가 부재한 상태를 나타냅니다.   
이 두 상태를 통합해주겠습니다.

Married.AF.spouse는 미국 공군의 배우자와 결혼한 상태를 나타내며, Married.civ.spouse는 미국 시민과 결혼한 상태를 나타냅니다.
이 두 상태를 통합해주겠습니다.

Separated는 별거 중인 상태를 나타내며, Divorced는 이혼한 상태를 나타냅니다.  
이 두 상태를 통합해주겠습니다.

[문제 3]  

- `train` 데이터셋의 `marital.status` 열에서 `Never.married`와 `Married.spouse.absent`의 값을 `UnmarriedStatus`로 대체해주세요.  
`inplace=True` 매개변수를 사용하여 원본 데이터프레임을 변경하도록 설정 해주세요.
- marital.status 열에서 `Married.AF.spouse`와 `Married.civ.spouse`의 값을 Married로 대체해주세요.
- marital.status 열에서 `Separated와 Divorced`의 값을 `MarriageEnded`로 대체해주세요.

In [6]:
train['marital.status'].___(['Never.married', 'Married.spouse.absent'], 'UnmarriedStatus', inplace=___)
train['marital.status'].replace(['Married.AF.spouse', 'Married.civ.spouse'], '___', inplace=True)
___[___].___([___, ___], ___, inplace=___)

In [29]:
#checkcode
ensure_vals(globals(), 'train')
@check_safety
def check(
    df: pd.DataFrame,
    col: str,
    val1: str,
    val2: str,
):
    c_point0 = val1 in df[col].unique()
    c_point1 = val2 not in df[col].unique()

    if c_point0 and c_point1:
        return True
    else:
        return False

check(train, 'marital.status', 'MarriageEnded', 'Separated')

True

### Inst.

### Hint.

replace 함수는 데이터프레임 또는 시리즈에서 특정 값을 다른 값으로 대체하는 데 사용되는 메서드입니다. 

### Solution.
```python
train['marital.status'].replace(['Never.married', 'Married.spouse.absent'], 'UnmarriedStatus', inplace=True)
train['marital.status'].replace(['Married.AF.spouse', 'Married.civ.spouse'], 'Married', inplace=True)
train['marital.status'].replace(['Separated', 'Divorced'], 'MarriageEnded', inplace=True)
```

# 4.나이(age)와 주당 근무시간(hours.per.week)을 곱한 새로운 특성 생성


데이터 분석 과정에서는 새로운 특성을 생성함으로써 모델의 성능을 향상시키는 `특성 엔지니어링(feature engineering)`이 필요합니다.   
이는 기존 데이터에서 추가적인 정보를 추출하거나, 데이터 간의 복잡한 관계를 캡처하는 데 도움이 됩니다.

우리의 경우, `age`와 `hours.per.week`라는 두 가지 특성 사이에 중요한 상호작용(interaction)이 있음을 발견하였습니다.   
이전 단계인 stage3에서 scatterplot을 그려본 결과, 나이와 주당 근무시간 사이에 분명한 패턴 혹은 관계가 보여,   
이 두 변수를 조합하여 새로운 특성 `age-hours`를 생성하기로 결정하였습니다.

새로운 `age-hours` 특성은 개개인의 나이와 그들이 일하는 시간 사이의 복합적인 영향력을 반영할 것입니다.   
이렇게 함으로써 우리 모델은 나이와 근무 시간 각각만 고려하는 것보다 더 많은 정보를 얻어 성능 개선에 도움을 줄 수 있게 될 것입니다.

In [30]:
train['age-hours'] = train['age']*train['hours.per.week']
train.head(3)

Unnamed: 0,ID,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,target,age-hours
0,TRAIN_0000,75,Self-emp-not-inc,218521,SomeHigherEd,10,Married-spouse-absent,Craft-repair,Not-in-family,White,Male,0,0,30,United-States,0,2250
1,TRAIN_0001,23,Private,194102,Bachelors,13,Never-married,Exec-managerial,Unmarried,White,Male,0,0,40,United-States,0,920
2,TRAIN_0002,34,Private,238305,SomeHigherEd,10,Married-civ-spouse,Other-service,Wife,White,Female,0,1628,12,,0,408


In [None]:
#checkcode
#empty

### Inst.


### Hint.
empty

### Solution.
empty

# 5.데이터 분할 및 train/valid 데이터 준비

[문제 4]
- 독립변수 x에는 train 데이터셋에서 target,education 을 제외한 나머지 모든 열의 값들로 설정해 주세요.
- 종속변수 y에는 train 데이터셋에서 target 열의 값으로 설정해 주세요.
- 독립변수 x, 종속변수 y 데이터를 훈련 세트(train)와 검증 세트(valid)로 (7:3의 비율로) 나누어 보세요.

In [314]:
x = ...
y = ...

from sklearn.model_selection import train_test_split
___, ___, ___, ___ = ___(x, y, ___ = 0.3, random_state = 42)

In [33]:
#checkcode
ensure_vals(globals(), 'x_valid', 'y_valid')
@check_safety
def check(
        user_answer_x : str,
        user_answer_y : str,
):
    c_point0 = hasattr(user_answer_x, 'head')
    c_point1 = hasattr(user_answer_y, 'head')

    if c_point0 and c_point1:
        return True
    else:
        return False

check(x_valid,y_valid)

True

### Inst.

### Hint.
`drop()` 함수를 사용하면 특정 칼럼을 제거할 수 있습니다.  
`test_size` 인자로 비율을 설정할 수 있습니다.

### Solution.
```python
x = train.drop(['target','education'], axis = 1)
y = train['target']

from sklearn.model_selection import train_test_split
x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size = 0.3, random_state = 42)
```

# 6.결측치 처리와 불필요한 열 제거를 위한 데이터 전처리

[문제 5]

- 결측치 처리를 위한 `SimpleImputer` 클래스를 가져오세요.    
- `SimpleImputer` 객체를 생성하고, 결측치를 처리할 때 해당 특성에서 가장 자주 발생하는 값으로 결측치를 대체해주세요.
- 학습 데이터셋인 `x_train`의 'occupation'과 'workclass' 열에 대해 결측치를 `최빈값`으로 채워주세요.
- 검증 데이터셋인 `x_valid`의 'occupation'과 'workclass' 열에 대해 결측치를 `최빈값`으로 채워주세요.
- x_train과 x_valid 데이터셋에서 불필요한 피처인 `'native.country','ID'` 을 제거해 주세요.

In [316]:
from sklearn.impute import ___

# SimpleImputer를 사용하여 결측치를 최빈값으로 보간
imputer = ___(strategy='___')
x_train[['occupation','workclass']] = ___.___(...)
x_valid[['occupation','workclass']] = ___.___(...)

# 불필요한 열 제거
x_train = x_train.___(...)
x_valid = x_valid.___(...)

In [43]:
#checkcode
ensure_vals(globals(), 'x_train', 'imputer')
@check_safety
def check(
    df: pd.DataFrame,
    encoder: SimpleImputer,
    not_col: str,
    use_col1: str,
    use_col2: str
):
    c_point0 = not_col not in df.columns
    c_point1 = use_col1 in encoder.feature_names_in_
    c_point1 = use_col2 in encoder.feature_names_in_

    if c_point0 and c_point1:
        return True
    else:
        return False

check(x_train, imputer, 'native.country', 'workclass', 'occupation')

True

### Inst.

### Hint.
- 전략(strategy) 인자를 'most_frequent'로 설정하면 최빈값으로 결측치를 대체할 수 있습니다.
- 학습 데이터셋인 `x_train`의 'occupation'과 'workclass' 열에 대해 결측치를 `최빈값`으로 채우기 위해 `imputer` 객체의 `fit_transform` 메서드를 사용합니다.   
- 검증 데이터셋인 `x_valid`의 'occupation'과 'workclass' 열에 대해 결측치를 `최빈값`으로 채우기 위해 `imputer` 객체의 `transform` 메서드를 사용합니다.   
- `drop()` 함수를 사용하면 특정 칼럼을 제거할 수 있습니다.

### Solution
```python
from sklearn.impute import SimpleImputer

# SimpleImputer를 사용하여 결측치를 최빈값으로 보간
imputer = SimpleImputer(strategy='most_frequent')
x_train[['occupation','workclass']] = imputer.fit_transform(x_train[['occupation','workclass']])
x_valid[['occupation','workclass']] = imputer.transform(x_valid[['occupation','workclass']])

# 불필요한 열 제거
x_train = x_train.drop(['ID','native.country'], axis = 1)
x_valid = x_valid.drop(['ID','native.country'], axis = 1)
```

# 7.범주형 변수 원-핫 인코딩

이전 스테이지에서는 모든 범주형 변수를 레이블 인코딩(label encoding)을 통해 수치형으로 변환하였습니다.   
이 방법은 각 범주에 고유한 정수 값을 할당하여 `순서가 있는 특성(ordinal features)`을 처리하는 데 유용합니다.

그러나 'race', 'sex', 'marital.status'와 같은 특성들은 `순서가 없는(nominal)` 범주형 변수입니다.   
이런 경우, 각 범주를 독립적인 이진 특성으로 변환하는 `원-핫 인코딩(one-hot encoding)`이 더 적합합니다.   
원-핫 인코딩은 모델에게 잘못된 정보(예: 하나의 범주가 다른 것보다 큰 것으로 해석될 수 있음)를 제공하는 것을 방지할 수 있습니다.

sklearn의 `OneHotEncoder`를 사용하여 'race', 'sex', 'marital.status' 세 가지 특성에 대해 원-핫 인코딩을 적용하겠습니다.

[문제 6]
- scikit-learn의 preprocessing 모듈에서 `OneHotEncoder` 클래스를 불러오세요.
- `OneHotEncoder` 객체를 생성합니다.   
`sparse=False` 옵션은 희소 행렬(sparse matrix)이 아닌 밀집 행렬(dense matrix) 형태로 데이터를 반환하도록 설정합니다.
- 학습 데이터셋(`x_train`)의 `'race', 'sex', 'marital.status'` 열을 선택하고,   
`fit_transform` 메서드를 사용하여 원-핫 인코딩을 수행합니다.   
이 작업은 학습 데이터에 대해 모델을 훈련하면서 해당 열의 범주를 기반으로 원-핫 인코딩을 학습합니다.
- 검증 데이터셋(`x_valid`)에 대해 원-핫 인코딩을 수행합니다. 학습 데이터와 같은 열 순서 및 범주를 사용하여 변환합니다.

In [None]:
from sklearn.preprocessing import ___

# OneHotEncoder 객체 생성
encoder = ___(sparse=False)

# 학습 데이터에 대해 fit_transform 실행
x_train_encoded = encoder.___(x_train[['race', 'sex', 'marital.status']])

# 검증 데이터에 대해 transform 실행
x_valid_encoded = encoder.transform(___[['race', 'sex', 'marital.status']])

In [65]:
#checkcode
import numpy as np
ensure_vals(globals(), 'x_train', 'encoder', 'x_train_encoded')
@check_safety
def check(
    encoder_name: str,
    enc: OneHotEncoder,
    col1: str,
    col2: str,
    onehoted: np.ndarray,
    indexing_col: int,
    len_col: int
):
    c_point0 = encoder_name in str(enc)
    c_point1 = col1 in enc.feature_names_in_
    c_point2 = col2 in enc.feature_names_in_
    c_point3 = onehoted.shape[indexing_col] == 13

    if (
        c_point0 and 
        c_point1 and
        c_point2 and 
        c_point3
    ):
        return True
    else:
        return False

check('OneHotEncoder', encoder, 'race', 'marital.status', x_train_encoded, 1, 13)

True

### Inst.
원핫인코딩(One-Hot Encoding)은 범주형 데이터를 수치형 데이터로 변환하는 방법 중 하나입니다.   
범주형 데이터는 일반적으로 문자열 레이블로 표현되는데, 머신러닝 모델은 수치 데이터를 입력으로 받아들이기 때문에 범주형 데이터를 수치형으로 변환해야 합니다.

원핫인코딩의 주요 아이디어는 각 범주(카테고리)를 새로운 이진 열로 변환하는 것입니다.   
각 열은 해당 범주에 속하면 1을, 속하지 않으면 0을 가집니다.   
이렇게 하면 각 범주가 모델에게 독립적으로 존재하는 것처럼 다루어집니다.

간단한 예를 통해 설명하겠습니다.   
예를 들어, "색상"이라는 범주형 특성이 있고, 이 특성에는 "빨강", "녹색", "파랑"과 같은 카테고리가 있다고 가정합니다.   
이를 원핫인코딩으로 변환하면 다음과 같이 됩니다:

"빨강" 카테고리는 [1, 0, 0]
"녹색" 카테고리는 [0, 1, 0]
"파랑" 카테고리는 [0, 0, 1]
따라서 원핫인코딩된 결과는 세 개의 새로운 열(빨강, 녹색, 파랑)로 나타나며, 각 행은 하나의 카테고리에 대응합니다.

원핫인코딩은 머신러닝 모델에 범주형 데이터를 제공하기 위한 일반적인 방법 중 하나이며, 모델이 범주 정보를 잘 이해할 수 있도록 도와줍니다.   
그러나 원핫인코딩을 적용하면 범주의 개수가 많아질수록 데이터 차원이 증가하므로, 차원의 저주(curse of dimensionality) 문제에 유의해야 합니다.

### Hint.
empty

### Solution.
```python
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoder 객체 생성
encoder = OneHotEncoder(sparse=False)

# 학습 데이터에 대해 fit_transform 실행
x_train_encoded = encoder.fit_transform(x_train[['race', 'sex', 'marital.status']])

# 검증 데이터에 대해 transform 실행
x_valid_encoded = encoder.transform(x_valid[['race', 'sex', 'marital.status']])
```

# 8.원-핫 인코딩된 데이터를 DataFrame으로 변환

scikit-learn의 OneHotEncoder가 반환하는 것은 numpy 배열 형태입니다.     
이는 기계 학습 모델에 바로 입력할 수 있는 형태이지만, 우리가 데이터를 직접 다루거나 분석할 때는 pandas DataFrame 형태가 더 편리합니다.     
DataFrame은 레이블링된 열(column)을 가지므로 어떤 열이 어떤 원래의 범주에 해당하는지 쉽게 파악할 수 있습니다.

따라서 원-핫 인코딩된 numpy 배열을 pandas DataFrame으로 변환해보도록 하겠습니다. 

[문제 7]  
`pd.DataFrame()` 메소드를 사용하여 원-핫 인코딩된 훈련 데이터를 새로운 데이터프레임으로 변환합니다.   
columns 인자에는 `get_feature_names_out()` 메소드를 사용하여 각각의 컬럼 이름을 생성합니다.

In [None]:
x_train_ohe = pd.___(x_train_encoded, columns=encoder.___(['race', 'sex', 'marital.status']))
x_valid_ohe = pd.DataFrame(x_valid_encoded, columns=encoder.get_feature_names_out(['race', 'sex', 'marital.status']))

x_train_ohe.head(4)

In [72]:
#checkcode
ensure_vals(globals(), 'x_train_ohe')
@check_safety
def check(
    df: pd.DataFrame,
    shape_df: tuple
):
    c_point0 = df.shape == shape_df

    if c_point0:
        return True
    else:
        return False

check(x_train_ohe, (3108, 13))

True

### Inst.

원-핫 인코딩된 훈련 데이터(`x_train_encoded`)를 새로운 데이터프레임으로 변환합니다.  
원-핫 인코딩된 특성의 컬럼 이름을 생성합니다.   

이 데이터프레임은 원-핫 인코딩된 특성들을 가집니다.  
원-핫 인코딩된 검증 데이터도 마찬가지로 새로운 데이터프레임으로 변환합니다.

이러한 과정을 통해 'race', 'sex', 'marital.status' 특성을 원-핫 인코딩하여 새로운 데이터프레임으로 생성하게 됩니다.   
이렇게 하면 기존의 범주형 특성이 머신러닝 모델에 적용할 수 있도록 숫자로 변환됩니다.

### Hiny.
empty

### Solution.
```python
x_train_ohe = pd.DataFrame(x_train_encoded, columns=encoder.get_feature_names_out(['race', 'sex', 'marital.status']))
x_valid_ohe = pd.DataFrame(x_valid_encoded, columns=encoder.get_feature_names_out(['race', 'sex', 'marital.status']))

x_train_ohe.head(4)
```

# 9.데이터프레임에 원-핫 인코딩된 특성 추가

데이터 처리 과정에서는 종종 여러 데이터프레임을 합치는 작업이 필요합니다.   
이번에는 원-핫 인코딩된 데이터프레임(x_train_ohe, x_valid_ohe)과 원래의 데이터프레임(x_train, x_valid)을 합칠 것입니다.

pandas의 concat 함수를 사용하면 간단하게 두 데이터프레임을 합칠 수 있습니다.   
하지만 주의할 점은, concat 함수는 기본적으로 각 데이터프레임의 인덱스를 따라 동작한다는 것입니다.   
즉, 서로 다른 인덱스를 가진 두 데이터프레임을 합치게 되면 예상하지 못한 결과가 나올 수 있습니다.

따라서 우리는 먼저 reset_index 메소드를 사용하여 x_train과 x_valid의 인덱스를 초기화하겠습니다.    
인덱스가 초기화된 후에야 비로소 원-핫 인코딩된 피처들과 원래 피처들이 올바르게 연결시켜주겠습니다.



[문제 8]
- `reset_index(drop=True)`를 사용하여 기존의 인덱스를 삭제하고 새로운 연속적인 정수 인덱스로 설정해주세요.
- x_train_ohe와 x_valid_ohe를 `concat()` 함수를 사용하여   
각각의 기존 데이터프레임 x_train과 x_train_ohe을 열 방향(axis=1)으로 합쳐주세요.

In [319]:
x_train = x_train.___(drop=___)
x_valid = x_valid.reset_index(drop=True)

x_train = pd.___([x_train,x_train_ohe], axis=1)
x_valid = pd.concat([x_valid,x_valid_ohe], axis=1)

In [88]:
#checkcode
ensure_vals(globals(), 'x_train', 'x_valid')
@check_safety
def check(
    train_df: pd.DataFrame,
    val_df: pd.DataFrame,
    train_shape: tuple,
    val_shape: tuple
):
    c_point0 = train_df.shape == train_shape
    c_point1 = val_df.shape == val_shape

    if c_point0 and c_point1:
        return True
    else:
        return False

check(x_train, x_valid, (3108,26), (1332,26))

True

### Inst.
x_train과 x_valid 데이터프레임의 인덱스를 재설정합니다.   
reset_index(drop=True)를 사용하여 기존의 인덱스를 삭제하고 새로운 연속적인 정수 인덱스로 설정합니다.   
이렇게 하면 인덱스가 재정렬되고 데이터프레임이 정리됩니다.

원-핫 인코딩된 데이터프레임 x_train_ohe와 x_valid_ohe를 pd.concat 함수를 사용하여   
각각의 기존 데이터프레임 x_train과 x_valid에 열 방향(axis=1)으로 합칩니다.   
이렇게 하면 기존의 특성들과 원-핫 인코딩된 새로운 특성들이 함께 있는 새로운 데이터프레임이 생성됩니다.

이제 새로운 데이터프레임을 사용하여 머신러닝 모델을 학습하고 예측할 수 있습니다.

### Hint.
empty

### Solution
```python
x_train = x_train.reset_index(drop=True)
x_valid = x_valid.reset_index(drop=True)

x_train = pd.concat([x_train,x_train_ohe], axis=1)
x_valid = pd.concat([x_valid,x_valid_ohe], axis=1)
```

# 10.LabelEncoder를 사용한 범주형 데이터 인코딩

이전에 우리는 순서가 없는 범주형 피처들에 대해 원-핫 인코딩을 적용하였습니다.   
그러나 아직 처리하지 않은 다른 범주형 피처들도 있습니다.   
이들은 순서가 있는 데이터일 가능성이 있으므로, 레이블 인코딩(label encoding)을 적용하려 합니다.   
레이블 인코딩은 각 고유한 범주값에 대해 고유한 정수값을 할당하는 방식으로, 순서 정보를 유지할 수 있게 합니다.

[문제 9]   
- `LabelEncoder` 객체를 생성하여 le 변수에 할당해 주세요.
- `x_train` 데이터프레임의 현재 열에 LabelEncoder을 적용해 주세요.
- 만약 검증 데이터에서 새롭게 나타나는 범주값(label)이라면, 이를 인코더의 클래스 목록(le.classes_)에 추가해 주세요.
- `x_valid` 데이터프레임의 현재 열에 LabelEncoder을 적용해 주세요.

In [321]:
from sklearn.preprocessing import LabelEncoder
import numpy as np

for col in x_train.columns:
    if x_train[col].dtype == 'object':
        
        le = ___()
        x_train[col] = ___.___(___[___])

        for label in np.unique(x_valid[col]):
            if label not in le.classes_:
                le.classes_ = np.___(le.classes_, ___)
        x_valid[col] = ___.___(___[___])

In [105]:
#checkcode
ensure_vals(globals(), 'x_train', 'x_valid')
@check_safety
def check(
    train_df: pd.DataFrame,
    val_df: pd.DataFrame,
    obj: str,
    zero: 0
):
    
    len_obj_train = len(train_df.select_dtypes(include=obj).columns)
    len_obj_test = len(val_df.select_dtypes(include=obj).columns)
    
    c_point0 = len_obj_train == zero
    c_point1 = len_obj_test == zero

    if c_point0:
        return True
    else:
        return False

check(x_train, x_valid, 'object', 0)

True

### Inst.


### Hint.
- `sklearn.preprocessing` 모듈에서 `LabelEncoder`라는 클래스를 불러올 수 있습니다.
- `fit_transform` 메서드를 사용하면 LabelEncoder를 적용할 수 있습니다.
- `append()` 메서드를 사용하면 클래스 목록에 추가할 수 있습니다.
- `transform` 메서드를 사용하여 x_valid 데이터에 Label Encoding을 적용할 수 있습니다.

### Solution.
```python
from sklearn.preprocessing import LabelEncoder
import numpy as np

for col in x_train.columns:
    if x_train[col].dtype == 'object':
        
        le = LabelEncoder()
        x_train[col] = le.fit_transform(x_train[col])

        for label in np.unique(x_valid[col]):
            if label not in le.classes_:
                le.classes_ = np.append(le.classes_, label)
        x_valid[col] = le.transform(x_valid[col])
```

# 11.StandardScaler를 이용한 데이터 표준화

데이터 전처리는 머신러닝 모델의 성능에 중요한 역할을 합니다.   
이 과정에서 데이터의 특성들을 적절하게 변환하여 모델이 데이터를 더 잘 이해할 수 있도록 돕습니다.   
그 중 하나가 바로 특성 스케일링입니다.

특성들 간에 값의 범위가 다르면, 그 값이 큰 특성이 결과에 더 큰 영향을 주게 됩니다.   
예를 들어, '나이'는 보통 0-100 사이의 값을 가지지만, '수입'은 수 천에서 수 만까지 다양하게 분포할 수 있습니다.   
이런 경우 '수입' 특성이 결과에 과도하게 영향을 미치게 되므로, 모든 특성이 동등하게 반영되도록 스케일링 작업을 거치는 것입니다.

[문제 10]
- scikit-learn 라이브러리에서 제공하는 `StandardScaler` 클래스를 사용하여 scaler 객체를 생성해주세요.

- 학습 데이터셋(`x_train`)에 대해서는 `fit_transform` 메서드를 사용하여 평균과 분산을 계산(fit)한 후   
표준화(transform)를 진행합니다.

- 검증 데이터셋(`x_valid`)에 대해서는 `transform` 메서드를 사용하여   
학습 데이터셋에서 이미 계산된 평균과 분산 값을 사용하여 표준화(transform)를 진행합니다.   
이렇게 해야 학습과 검증 단계에서 일관된 전처리가 적용됩니다.

In [None]:
from sklearn.preprocessing import StandardScaler

features = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss','hours.per.week', 'age-hours']

scaler = ___()
x_train[features] = scaler.___(x_train[___])
x_valid[features] = ___.___(x_valid[features])

In [111]:
#checkcode
ensure_vals(globals(), 'x_train', 'x_valid', 'scaler')
@check_safety
def check(
    train_df: pd.DataFrame,
    val_df: pd.DataFrame,
    scaler_class: StandardScaler,
    num_features: int
):
    
    c_point0 = len(scaler_class.feature_names_in_) == num_features

    if c_point0:
        return True
    else:
        return False

check(x_train, x_valid, scaler, 7)

True

### Inst.
해당 코드는 데이터의 특성(features)을 표준화하는 과정을 나타냅니다.   
특성들의 스케일이 서로 다르면, 일부 특성들이 모델 학습에 과도하게 영향을 미칠 수 있기 때문에 이런 스케일링 작업은 매우 중요합니다.

위 코드에서는 scikit-learn의 `StandardScaler`를 사용하여 표준화를 진행합니다.   

### Hint.
empty

### Solution.
```python
from sklearn.preprocessing import StandardScaler

features = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss','hours.per.week', 'age-hours']

scaler = StandardScaler()
x_train[features] = scaler.fit_transform(x_train[features])
x_valid[features] = scaler.transform(x_valid[features])
```

# 12.데이터 차원 축소를 위한 PCA 모델 학습

이번에는 주성분 분석(Principal Component Analysis, PCA)을 사용하여 데이터의 차원을 축소하는 작업을 수행해봅시다.   
PCA는 다차원 데이터를 저차원 공간으로 변환하여 데이터의 변동성을 최대한 보존하는 방식으로 동작합니다.

[문제 11]  
- `Scikit-learn`의 `decomposition` 모듈에서 `PCA` 클래스를 불러와 보세요.
- `PCA` 객체를 생성해보세요.
- 주어진 훈련 데이터인 `x_train에` 대해 `PCA` 모델을 적용(`fit`)시켜보세요. 

In [None]:
from sklearn.___ import PCA

pca = PCA()
pca.___(x_train)

In [140]:
#checkcode
ensure_vals(globals(), 'x_train', 'pca')
@check_safety
def check(
    train_df: pd.DataFrame,
    pca_class
):
    
    c_point0 = len(train_df.columns) == len(pca_class.get_feature_names_out())
    
    if c_point0:
        return True
    else:
        return False

check(x_train, pca)

True

### Inst.
PCA(Principal Component Analysis)는 다차원 데이터의 차원을 축소하고, 데이터의 주요한 패턴과 구조를 추출하는 방법입니다.

PCA는 고차원 데이터셋에서 중요한 정보를 유지하면서 차원을 줄이기 위해 사용됩니다.   
이를 위해 PCA는 기존 변수들의 선형 조합으로 이루어진 새로운 변수들인 주성분(Principal Component)을 생성합니다.   
주성분은 원본 변수들 간의 상관관계와 분산을 고려하여 계산됩니다.

주성분은 원본 데이터셋에서 가장 많은 분산을 설명하는 첫 번째 주성분부터 순서대로 나열됩니다.   
첫 번째 주성분은 가장 많은 분산을 설명하며, 두 번째, 세 번째 순서로 오는 주성분들이 남은 분산을 설명합니다.   
이렇게 생성된 주성분들은 서로 직교하며, 상관관계가 없습니다.

PCA를 사용하여 차원 축소를 수행하면, 원래 변수보다 적은 수의 주성분만 선택하여 데이터를 표현할 수 있습니다. 

또한 PCA는 데이터셋 내의 패턴과 구조를 파악하는 데도 사용됩니다.   
각 주성분에 대응하는 계수 벡터(coefficient vector)를 통해 어떤 변수가 해당 주성분에 큰 영향력을 미치는지 확인할 수 있습니다.

요약하자면, PCA는 다차원 데이터셋에서 중요한 정보를 추출하고 차원 축소하기 위한 방법으로 활용되며,   
원본 변수들 간의 상관관계와 분산을 고려하여 새로운 변수인 주성분을 생성합니다.

### Hint.
empty

### Solution
```python
from sklearn.decomposition import PCA

pca = PCA()
pca.fit(x_train)
```

# 13.PCA 주성분 추출

In [141]:
pca.components_[0]

array([-4.79055732e-04,  2.88123473e-03,  7.14129075e-03,  2.93943613e-02,
       -1.19098206e-02,  9.96784763e-01, -5.38655166e-02,  5.70556703e-05,
        1.49095433e-02,  1.10344715e-02,  2.16331617e-03,  3.14708243e-02,
        2.42733518e-02,  6.85156857e-04,  7.17858710e-05, -1.44281378e-03,
       -1.27413157e-04,  8.13284206e-04, -1.49095433e-02,  1.49095433e-02,
       -1.29029930e-03, -1.05222737e-04,  7.49006552e-03, -9.83909787e-06,
       -3.66831033e-03, -2.41639405e-03])

In [None]:
#checkcode
#empty

### Inst.

`pca.components_`는 PCA를 통해 추출된 주성분(Principal Component)들을 나타내는 속성입니다.   
이 속성은 주성분들의 계수 벡터(coefficient vector)로 구성된 배열을 반환합니다.

주성분의 계수 벡터는 원본 변수들과의 선형 조합으로 이루어져 있습니다.   
각 주성분에 대한 계수 벡터의 크기와 부호는 해당 변수가 해당 주성분에 어떤 영향을 미치는지를 나타냅니다.

해당 코드를 살펴봅시다.  
`pca.components_[0]`은 첫 번째 주성분에 대한 계수 벡터입니다.   
이 벡터의 요소들은 원본 변수들과 첫 번째 주성분 간의 상관관계 및 영향력을 나타냅니다.   
요소 값이 양수인 경우 해당 변수가 첫 번째 주성분과 양의 상관관계를 가지며, 음수인 경우 음의 상관관계를 가진다고 해석할 수 있습니다.   
또한, 값이 절대값으로 클수록 해당 변수가 해당 주성분에 큰 영향력을 미친다고 볼 수 있습니다.

따라서 `pca.components_` 배열은 각각의 주성분이 원본 변수들과 어떤 관련이 있는지,   
그리고 데이터셋에서 어떤 패턴이나 구조를 설명하는지에 대한 정보를 제공합니다.   

### Hint.
empty

### Solution.
empty

# 14.PCA 주성분의 분산 설명량 확인

In [142]:
# 분산의 설명량 확인
explained_variance_ratio = pca.explained_variance_ratio_

print('explained_variance_ratio: \n',explained_variance_ratio)
print('\nexplained_variance_ratio[0]: ',explained_variance_ratio[0])
print('\nexplained_variance_ratio[1]: ',explained_variance_ratio[1])

explained_variance_ratio: 
 [4.94515588e-01 1.30375995e-01 7.19915105e-02 4.47434711e-02
 3.84268750e-02 3.59899981e-02 3.44973959e-02 3.34197805e-02
 3.08658290e-02 3.02436508e-02 2.74980741e-02 1.31476642e-02
 7.37395656e-03 2.32056637e-03 1.89438084e-03 1.12435680e-03
 5.87351407e-04 5.22480355e-04 4.16154596e-04 4.49208450e-05
 3.48816875e-32 1.90644454e-32 3.10229048e-33 3.10229048e-33
 3.10229048e-33 3.01745573e-33]

explained_variance_ratio[0]:  0.4945155881447502

explained_variance_ratio[1]:  0.13037599498893046


In [None]:
#checkcode
#empty

### Inst.

`explained_variance_ratio_`는 PCA를 통해 추출된 주성분들이 설명하는 분산의 비율을 나타내는 속성입니다.   
이 값은 각 주성분이 전체 분산 중 얼마나 많은 비율을 설명하는지를 나타냅니다.

예를 들어, `explained_variance_ratio_[0]`은 첫 번째 주성분이 전체 분산 중 어느 정도 설명하는지를 나타냅니다.   
이 값이 0.3이라면 첫 번째 주성분만 사용하여도 전체 분산의 약 30% 정도를 설명할 수 있다는 의미입니다.   
마찬가지로, `explained_variance_ratio_[1]`은 두 번째 주성분의 설명력을 나타내며,   
이 값이 0.2라면 두 번째 주성분만 사용하여 전체 분산의 약 20% 정도를 설명할 수 있다는 것을 의미합니다.

주성분들의 explained variance ratio 값을 합하면 1이 됩니다.   
따라서 모든 주성분들의 explained variance ratio 값을 합하면 데이터셋에서 차원 축소된 후에도 원래 데이터셋에서 보존되는 정보(변동)의 총량인 100%가 됩니다.

`explained_variance_ratio_` 속성은 PCA 결과에서 각각의 주성분들이 데이터셋 내에서 얼마나 중요한 정보를 포함하고 있는지에 대한 상대적인 지표로 활용됩니다.

### Hint.
empty

### Solution.
empty

# 15.누적 설명량과 주성분 개수 선택

주성분 분석(PCA)은 데이터의 차원을 축소하기 위한 기술 중 하나입니다.   
보통, 축소할 차원을 임의로 정하기 보다는 충분한 분산이 될 때까지 더해야할 차원 수를 선택하는 쪽이 더 일반적입니다.   
이 방법을 사용하면 데이터의 정보를 최대한 보존하면서도 차원을 줄일 수 있습니다.   

`cumulative_explained_variance`를 계산하여 누적 설명량이 95% 이상이 되는 주성분 개수를 선택해보겠습니다.

[문제 12]  
- `cumsum` 함수를 사용하여 `explained_variance_ratio_` 값을 누적해서 더해주세요.
- `argmax` 함수를 사용하여 해당 임계값을 넘는 최초의 인덱스를 찾아보세요.

In [None]:
# 누적 설명량 계산
cumulative_explained_variance = np.___(explained_variance_ratio)

# 적절한 주성분 개수 선택 (예: 95% 이상의 누적 설명량을 가지는 개수)
n_components = np.___(cumulative_explained_variance >= 0.95) + 1

In [152]:
#checkcode
import numpy as np
ensure_vals(globals(), 'x_train', 'cumulative_explained_variance')
@check_safety
def check(
    train_df: pd.DataFrame,
    variance: np.ndarray
):
    
    c_point0 = len(variance) == len(train_df.columns)
    
    if c_point0:
        return True
    else:
        return False

check(x_train, cumulative_explained_variance)

True

### Inst.
PCA 모델이 데이터에 적용된 후, 주성분의 설명된 분산의 비율을 확인합니다.   
`explained_variance_ratio_` 속성을 통해 각 주성분이 설명하는 분산의 비율을 얻을 수 있습니다.  

그런 다음 각 주성분이 설명하는 분산의 비율인 `explained_variance_ratio_` 값을 누적해서 더합니다.  
이것은 주성분을 추가할 때마다 설명되는 분산의 누적 비율을 나타냅니다.       
누적 설명량이 얼마나 되는지 확인하면 데이터의 정보를 어느 정도 보존할 수 있는지 알 수 있습니다.

마지막으로, 사용자가 설정한 임계값(예: 95% 이상)을 충족하는 주성분 개수를 선택합니다.     
이를 위해 `cumulative_explained_variance`에서 해당 임계값을 넘는 최초의 인덱스를 찾습니다.    
(누적 설명 분산이 처음으로 0.95(즉, 전체 분산의 95%) 이상인 위치(index)를 반환합니다.)   
여기에 1을 더해주어야 실제 필요한 최소 주성분 개수(`n_components`)가 됩니다 (Python 인덱스는 0부터 시작하기 때문).  

즉, 해당 코드는 **충분한 정보(여기서는 전체 변동량의 95%)가 유지될 때까지 필요한 최소한의 차원 수를 선택하는 방법** 입니다.

### Hint.

### Solution
```python
# 누적 설명량 계산
cumulative_explained_variance = np.cumsum(explained_variance_ratio)

# 적절한 주성분 개수 선택 (예: 95% 이상의 누적 설명량을 가지는 개수)
n_components = np.argmax(cumulative_explained_variance >= 0.95) + 1
```

# 16.PCA 모델 재설정 및 데이터 변환

위에서 선택된 주성분 개수로 PCA 모델을 다시 초기화하고, 이전과 같은 데이터에 적용하여 차원을 축소합니다.   
이렇게 함으로써 데이터의 차원을 축소하면서 원본 데이터의 정보를 가능한 한 보존하게 됩니다.

[문제 14]  
- 주성분 분석(PCA) 모델을 초기화해주세요.   
이때, `n_components` 매개변수에는 이전 단계에서 선택한 주성분 개수인 `n_components`를 전달합니다.   

- 초기화된 PCA 모델을 기존의 훈련 데이터인 `x_train`에 다시 적용(`fit_transform`)해주세요.   
검증 데이터인 `x_valid`에 동일한 PCA 모델을 적용(`transform`)합니다.

In [None]:
# 선택된 주성분 개수로 PCA 모델 다시 초기화
pca = ___(n_components=___)

# 데이터에 선택된 주성분 개수로 PCA 모델 적용
x_train = pca.___(___)
x_valid = pca.___(___)

In [166]:
#checkcode
import numpy as np
ensure_vals(globals(), 'pca')
@check_safety
def check(
    train_df: pd.DataFrame,
    pca_class: PCA
):
    
    c_point0 = len(pca_class.get_feature_names_out()) == pca_class.n_components
    
    if c_point0:
        return True
    else:
        return False

check(x_train, pca)

True

### Inst.

`PCA(n_components=n_components)`는 주성분 분석(PCA) 모델을 초기화하는 부분입니다.   
이때, `n_components` 매개변수에는 이전 단계에서 선택한 주성분 개수인 `n_components`를 전달합니다.    
 이것은 주성분 분석 모델을 새로운 주성분 개수로 초기화하는 것을 의미합니다.

그 다음, 초기화된 PCA 모델을 기존의 훈련 데이터인 `x_train`에 다시 적용합니다.   
이를 통해 데이터의 차원을 실제로 축소합니다.   
차원 축소는 새로운 주성분 개수로 데이터를 투영하는 것을 의미하며,   
훈련 데이터인 `x_train`과 검증 데이터인 `x_valid`에 동일한 PCA 모델을 적용합니다.

이제 데이터는 이전보다 적은 주성분을 가진 형태로 변환되며, 주성분 분석을 통해 데이터의 차원이 축소됩니다.   
이렇게 차원을 축소하면 데이터의 크기를 줄이고, 불필요한 정보를 제거하면서 모델을 더 간결하게 만들 수 있습니다.

### Hint.
empty

### Solution.
```python
# 선택된 주성분 개수로 PCA 모델 다시 초기화
pca = PCA(n_components=n_components)

# 데이터에 선택된 주성분 개수로 PCA 모델 적용
x_train = pca.fit_transform(x_train)
x_valid = pca.transform(x_valid)
```

# 17.RandomForestClassifier 모델을 활용한 데이터 분석 및 성능 평가

`x_train`과 `x_valid` 데이터셋은 이미 PCA를 적용하여 주성분으로 변환된 데이터셋입니다. 

PCA 후에 남아 있는 각각의 주성분들은 원래 특성 공간에서 어떠한 방향(즉, 벡터)를 나타내며,   
이러한 방향들은 원래 데이터가 가장 많이 분산되어 있는 방향입니다.   
따라서 PCA로 변환된 `x_train`과 `x_valid`는 원래의 다차원 공간에서 가장 정보가 많이 담긴 방향으로 투영된 상태라고 볼 수 있습니다.

그런 다음 RandomForestClassifier를 사용하여 모델을 학습시킨 후  
마지막으로 F1 score를 계산하여 모델 성능을 평가하겠습니다.


[문제 15]

- RandomForestClassifier 모델을 생성해 주세요. random_state 는 42로 설정하여 재현성을 보장해주세요.
- 학습 데이터를 사용하여 학습시켜주세요.
- 학습된 모델을 사용하여 검증 데이터에 대한 예측을 수행합니다.
- f1_score 함수를 사용하여 실제 레이블인 검증 데이터의 목표값과 모델의 예측 결과를 비교하여 Macro F1 스코어를 계산해보세요. 

In [325]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score

rf_classifier = ___(random_state=___)
___.fit(___, ___)

y_pred = ___.___(x_valid)

macro_f1 = f1_score(y_valid, y_pred, average='___')
print("Macro F1 스코어:", macro_f1)

Macro F1 스코어: 0.7929340560259506


In [181]:
#checkcode
import numpy as np
ensure_vals(globals(), 'x_train', 'y_train', 'rf_classifier', 'y_pred', 'macro_f1')
@check_safety
def check(
    x_train_df: pd.DataFrame,
    y_train_df: pd.DataFrame,
    x_valid_df: pd.DataFrame,
    val_pred: np.ndarray,
    model: RandomForestClassifier,
    model_name: str
):
    
    c_point0 = model_name in str(model)
    c_point1 = len(model.classes_) == y_train_df.nunique()
    c_point2 = len(val_pred) == len(x_valid_df)
    
    if c_point0:
        return True
    else:
        return False

check(x_train, y_train, x_valid, y_pred, rf_classifier, 'RandomForestClassifier')

True

### Inst.

---

#### 결과 해석

결과 스코어를 확인해보면 이전 스테이지보다 하락한 것을 확인할 수 있습니다.
PCA와 표준화를 적용한 결과가 적용하지 않은 결과보다 성능이 떨어진 것은, PCA가 데이터의 차원을 축소하면서 일부 정보를 손실시키고, 이로 인해 모델이 학습할 수 있는 유용한 정보가 줄어들었을 가능성이 있습니다. 또한, 모든 데이터셋에 대해 PCA와 표준화가 성능 향상을 가져오는 것은 아닙니다. 주어진 문제나 데이터셋의 특성에 따라 이러한 전처리 방법의 효과는 달라질 수 있습니다.

또한, 검증 성능이 떨어졌다고 해서 반드시 test 데이터의 성능도 떨어지는 것은 아닙니다. 검증 점수와 실제 예측 성능 간에 차이가 발생하는 경우도 있습니다. 검증 데이터셋과 테스트 데이터셋 사이의 분포나 특성 차이 때문일 수 있으며, 모델 학습 시 사용된 알고리즘이 overfitting 혹은 underfitting 등으로 인해 일반화 성능에 영향을 줄 수도 있습니다.

### Hint.
- `RandomForestClassifier` 모델을 생성하여 rf_classifier 변수에 할당해 주세요.
- 학습 데이터는 x_train, y_train 입니다.
- 검증 데이터는 x_valid 입니다.
- 검증 데이터의 목표값은 y_valid, 모델의 예측 결과는 y_pred 입니다.

### Solution.
```python
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score

rf_classifier = RandomForestClassifier(random_state=42)
rf_classifier.fit(x_train, y_train)

y_pred = rf_classifier.predict(x_valid)

macro_f1 = f1_score(y_valid, y_pred, average='macro')
print("Macro F1 스코어:", macro_f1)
```