# Import

In [36]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [37]:
!pip3 install torch



In [38]:
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, BertForSequenceClassification, AdamW
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from tqdm import tqdm
import pandas as pd
from types import SimpleNamespace

# Hyperparameter

In [39]:
config = {
    "learning_rate": 1e-5,
    "epoch": 20,
    "batch_size": 64,
    "weight_decay": 0.01,
    "dropout_rate": 0.2,
    "warmup_steps": 100,
    "max_grad_norm": 1.0,
    "adam_epsilon": 1e-8
}

CFG = SimpleNamespace(**config)

# Load Data

In [40]:
train_df = pd.read_csv("/content/drive/MyDrive/gbt해커톤/data/train.csv")
test_df = pd.read_csv("/content/drive/MyDrive/gbt해커톤//data/test.csv")

# Load Model

In [41]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tokenizer = BertTokenizer.from_pretrained('monologg/kobert')
model = BertForSequenceClassification.from_pretrained('monologg/kobert', num_labels=len(train_df['분류'].unique())).to(device)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'KoBertTokenizer'. 
The class this function is called from is 'BertTokenizer'.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at monologg/kobert and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# Custom Dataset

In [42]:
class TextDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, item):
        text = str(self.texts[item])
        label = self.labels[item] if self.labels is not None else -1
        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            return_token_type_ids=False,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt',
        )
        return {
            'text': text,
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }


# Data Preprocessing

In [43]:
# # 데이터 준비
# train_df['제목_키워드'] = train_df['제목'] + ' ' + train_df['키워드']
# test_df['제목_키워드'] = test_df['제목'] + ' ' + test_df['키워드']

In [44]:
# '분류' 열에서 앞부분만 추출하여 '분류_대분류'라는 새로운 열에 저장
train_df['분류_대분류'] = train_df['분류'].apply(lambda x: x.split(':')[0])

# 결과 확인
train_df['분류_대분류'].value_counts()

Unnamed: 0_level_0,count
분류_대분류,Unnamed: 1_level_1
지역,26950
경제,10534
사회,8245
정치,2521
문화,2500
스포츠,2035
IT_과학,1487
국제,337


In [45]:
from collections import Counter

def find_common_words_and_remove(num_categories=8, top_n=10, com_counts=10, train_df=train_df, test_df=test_df):
    # '분류_대분류'의 각 범주에 속하는 단어들을 추출
    category_words = {category: [] for category in train_df["분류_대분류"].unique()}

    for category in category_words.keys():
        words = train_df.loc[train_df["분류_대분류"] == category, "키워드"].apply(lambda x: x.split(',')).tolist()
        category_words[category] = [word for sublist in words for word in sublist]

    # 각 범주에 속하는 단어들을 카운팅
    word_counts = {category: Counter(words) for category, words in category_words.items()}

    # 지정된 범주 갯수에 속하는 단어들을 찾기
    '''  이때 범주별 10회 이상 등장한 단어만을 고려 '''
    common_words = set()
    for word in word_counts[list(word_counts.keys())[0]].keys():
        count = sum(1 for category in word_counts.keys() if word in word_counts[category] and word_counts[category][word] >= com_counts)
        if count == num_categories:
            common_words.add(word)

    # 지정된 범주 갯수에 속하는 단어와 그 갯수를 계산
    common_word_counts = {word: sum(word_counts[category][word] for category in word_counts.keys()) for word in common_words}

    # 단어들을 갯수 기준으로 정렬하고 상위 N개를 선택
    top_common_words = sorted(common_word_counts.items(), key=lambda x: x[1], reverse=True)[:top_n]
    print(f"상위 {top_n}개의 단어 확인")

    # 상위 N개의 단어와 그 갯수, 그리고 각 범주에서의 갯수를 출력
    for word, total_count in top_common_words:
        category_counts = {category: word_counts[category][word] for category in word_counts.keys()}
        print(f"단어: {word}, 총 갯수: {total_count}, 각 범주에서의 갯수: {category_counts}")

    # 총 몇 개의 단어가 겹치는지 출력
    print(f"총 {len(common_words)}개의 단어가 겹칩니다.")

    # top_n 기준으로 겹치는 단어들을 '키워드' 열에서 제거하고 새로운 열에 저장
    top_common_words_set = set(word for word, _ in top_common_words)

    def remove_top_common_words(keywords):
        return ', '.join([word for word in keywords.split(',') if word not in top_common_words_set])

    train_df['키워드'] = train_df['키워드'].apply(remove_top_common_words)
    test_df['키워드'] = test_df['키워드'].apply(remove_top_common_words)

# 함수 호출 예시
# find_common_words_and_remove(num_categories=7, top_n=10, com_counts=10)

In [46]:
find_common_words_and_remove(num_categories=8, top_n=59, com_counts=50)
find_common_words_and_remove(num_categories=7, top_n=51, com_counts=100)
find_common_words_and_remove(num_categories=6, top_n=2, com_counts=500)

상위 59개의 단어 확인
단어: 용인시, 총 갯수: 102752, 각 범주에서의 갯수: {'문화': 4000, '지역': 57286, '국제': 472, '정치': 3871, '경제': 18940, '사회': 12329, '스포츠': 2659, 'IT_과학': 3195}
단어: 용인, 총 갯수: 68534, 각 범주에서의 갯수: {'문화': 3417, '지역': 35179, '국제': 272, '정치': 3777, '경제': 19462, '사회': 4054, '스포츠': 1182, 'IT_과학': 1191}
단어: 지역, 총 갯수: 52184, 각 범주에서의 갯수: {'문화': 1356, '지역': 28497, '국제': 123, '정치': 3158, '경제': 12855, '사회': 5125, '스포츠': 172, 'IT_과학': 898}
단어: 지원, 총 갯수: 51558, 각 범주에서의 갯수: {'문화': 523, '지역': 31031, '국제': 99, '정치': 1729, '경제': 12820, '사회': 4003, '스포츠': 264, 'IT_과학': 1089}
단어: 시장, 총 갯수: 48773, 각 범주에서의 갯수: {'문화': 1625, '지역': 25503, '국제': 323, '정치': 4024, '경제': 13296, '사회': 2243, '스포츠': 803, 'IT_과학': 956}
단어: 경기도, 총 갯수: 44481, 각 범주에서의 갯수: {'문화': 1265, '지역': 25248, '국제': 124, '정치': 2266, '경제': 9328, '사회': 3918, '스포츠': 1760, 'IT_과학': 572}
단어: 경기, 총 갯수: 39922, 각 범주에서의 갯수: {'문화': 1059, '지역': 15621, '국제': 226, '정치': 2266, '경제': 9415, '사회': 7204, '스포츠': 3523, 'IT_과학': 608}
단어: 계획, 총 갯수: 34875, 각 범주에서의 갯수: {'문화': 426, '지역

In [47]:
from collections import Counter

def count_and_remove_low_occurrence_keywords(train_df, test_df, threshold=3):
    # '키워드' 열의 각 값을 쉼표로 분리하여 리스트로 변환
    train_df['키워드_리스트'] = train_df['키워드'].apply(lambda x: x.split(','))
    test_df['키워드_리스트'] = test_df['키워드'].apply(lambda x: x.split(','))

    # '분류_대분류' 별로 단어들을 추출하고 카운팅
    category_keywords = {category: [] for category in train_df["분류_대분류"].unique()}

    for category in category_keywords.keys():
        words = train_df.loc[train_df["분류_대분류"] == category, "키워드_리스트"].tolist()
        category_keywords[category] = [word.strip() for sublist in words for word in sublist]

    # 각 '분류_대분류' 별로 단어들을 카운팅하고 단어가 threshold 이하로 존재하는 경우를 찾기
    low_occurrence_words = set()
    for category, words in category_keywords.items():
        word_counts = Counter(words)
        low_occurrence_words.update({word for word, count in word_counts.items() if count <= threshold})

    # 단어가 threshold 이하로 존재하는 경우를 '키워드' 열에서 제거
    def remove_low_occurrence_words(keywords):
        return ', '.join([word.strip() for word in keywords.split(',') if word.strip() not in low_occurrence_words])

    train_df['키워드'] = train_df['키워드'].apply(remove_low_occurrence_words)

    # test_df에서도 동일한 단어를 제거
    def remove_low_occurrence_words_from_test(keywords):
        return ', '.join([word.strip() for word in keywords.split(',') if word.strip() not in low_occurrence_words])

    test_df['키워드'] = test_df['키워드'].apply(remove_low_occurrence_words_from_test)

    # 제거 후 각 '분류_대분류' 별로 하위 10개의 단어와 그 갯수를 출력
    for category in category_keywords.keys():
        words = train_df.loc[train_df["분류_대분류"] == category, "키워드"].apply(lambda x: x.split(',')).tolist()
        words = [word.strip() for sublist in words for word in sublist]
        word_counts = Counter(words)
        bottom_keywords = word_counts.most_common()[:-11:-1]
        print(f"분류_대분류: {category}")
        for word, count in bottom_keywords:
            print(f"  단어: {word}, 갯수: {count}")
        print()

# 함수 호출 예시
# count_and_remove_low_occurrence_keywords(train_df, test_df, threshold=2)

In [48]:
count_and_remove_low_occurrence_keywords(train_df, test_df, threshold=2)

분류_대분류: 문화
  단어: , 갯수: 1
  단어: 대상어, 갯수: 3
  단어: 우서일절, 갯수: 3
  단어: 오수경, 갯수: 3
  단어: 칠순잔치, 갯수: 3
  단어: 서병덕, 갯수: 3
  단어: 김옹, 갯수: 3
  단어: Docs, 갯수: 3
  단어: 위작, 갯수: 3
  단어: 용자봉, 갯수: 3

분류_대분류: 지역
  단어: 000건, 갯수: 3
  단어: So-ro, 갯수: 3
  단어: 온세미, 갯수: 3
  단어: 모멘트, 갯수: 3
  단어: 통합데이터센터, 갯수: 3
  단어: 통합데이터, 갯수: 3
  단어: 임의장, 갯수: 3
  단어: 강서대, 갯수: 3
  단어: 닭칼국수, 갯수: 3
  단어: 요금군, 갯수: 3

분류_대분류: 국제
  단어: 낭비, 갯수: 3
  단어: 조선인, 갯수: 3
  단어: 트럼프행정부, 갯수: 3
  단어: 아시아인들, 갯수: 3
  단어: 주씨, 갯수: 3
  단어: 호감도, 갯수: 3
  단어: 따오기, 갯수: 3
  단어: 윌리엄슨카운티, 갯수: 3
  단어: 패어펙스카운티, 갯수: 3
  단어: 오세올라카운티, 갯수: 3

분류_대분류: 정치
  단어: 법률비서관, 갯수: 3
  단어: 2교시, 갯수: 3
  단어: 총괄부위원장, 갯수: 3
  단어: 열병식, 갯수: 3
  단어: 전봉학, 갯수: 3
  단어: 지방지, 갯수: 3
  단어: 수원갈비, 갯수: 3
  단어: 일탈행동, 갯수: 3
  단어: bureaus, 갯수: 3
  단어: notice, 갯수: 3

분류_대분류: 경제
  단어: , 갯수: 1
  단어: 강만희, 갯수: 3
  단어: 갓슬라, 갯수: 3
  단어: 배민라이더스, 갯수: 3
  단어: 파워콜, 갯수: 3
  단어: 겨울옷, 갯수: 3
  단어: 점박이물범, 갯수: 3
  단어: 개선율, 갯수: 3
  단어: 철산자이더헤리티지, 갯수: 3
  단어: 고립은둔청년, 갯수: 3

분류_대분류: 사회
  단어: , 갯수: 2
  단어: 말벌, 갯수: 3
 

In [49]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54609 entries, 0 to 54608
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   ID       54609 non-null  object
 1   분류       54609 non-null  object
 2   제목       54609 non-null  object
 3   키워드      54609 non-null  object
 4   분류_대분류   54609 non-null  object
 5   키워드_리스트  54609 non-null  object
dtypes: object(6)
memory usage: 2.5+ MB


In [50]:
train_df.drop(columns=['제목', '분류_대분류', '키워드_리스트'], inplace=True)
test_df.drop(columns=['제목', '키워드_리스트'], inplace=True)

In [51]:
# 레이블 인코딩
label_encoder = {label: i for i, label in enumerate(train_df['분류'].unique())}
train_df['label'] = train_df['분류'].map(label_encoder)

# 데이터 분할 (train -> train + validation)
train_df, val_df = train_test_split(train_df, test_size=0.2, stratify=train_df['분류'], random_state=42)

# 데이터셋 생성
train_dataset = TextDataset(train_df.키워드.tolist(), train_df.label.tolist(), tokenizer)
val_dataset = TextDataset(val_df.키워드.tolist(), val_df.label.tolist(), tokenizer)
test_dataset = TextDataset(test_df.키워드.tolist(), None, tokenizer)  # 라벨 없음

# 데이터 로더 생성
train_loader = DataLoader(train_dataset, batch_size=CFG.batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=CFG.batch_size, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=CFG.batch_size, shuffle=False)

In [52]:
# 옵티마이저 및 학습 파라미터 설정
optimizer = AdamW(model.parameters(), lr=CFG.learning_rate)



In [53]:
# 학습
model.train()
best_f1 = 0.0
patience = 2  # 성능 향상이 없을 때 기다리는 에포크 수
patience_counter = 0

for epoch in range(CFG.epoch):
    for batch in tqdm(train_loader, desc=f'Epoch {epoch + 1}/{CFG.epoch}'):
        optimizer.zero_grad()
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

    # Validation
    model.eval()
    val_predictions = []
    val_true_labels = []
    with torch.no_grad():
        for batch in tqdm(val_loader, desc='Validating'):
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            outputs = model(input_ids, attention_mask=attention_mask)
            _, preds = torch.max(outputs.logits, dim=1)
            val_predictions.extend(preds.cpu().tolist())
            val_true_labels.extend(labels.cpu().tolist())

    # 검증 결과 출력
    val_f1 = f1_score(val_true_labels, val_predictions, average='macro')
    print(f"Validation F1 Score: {val_f1:.2f}")

    # 조기 종료 체크
    if val_f1 > best_f1:
        best_f1 = val_f1
        patience_counter = 0  # 성능 향상이 있었으므로 카운터 초기화
        # 모델 저장 등 추가 작업을 여기서 수행할 수 있습니다.
    else:
        patience_counter += 1

    # patience 초과 시 학습 종료
    if patience_counter >= patience:
        print("Early stopping triggered.")
        break


Epoch 1/20: 100%|██████████| 683/683 [15:01<00:00,  1.32s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.97it/s]


Validation F1 Score: 0.12


Epoch 2/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.22


Epoch 3/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.27


Epoch 4/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.99it/s]


Validation F1 Score: 0.33


Epoch 5/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.36


Epoch 6/20: 100%|██████████| 683/683 [14:44<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.40


Epoch 7/20: 100%|██████████| 683/683 [14:44<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.43


Epoch 8/20: 100%|██████████| 683/683 [14:44<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.46


Epoch 9/20: 100%|██████████| 683/683 [14:44<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.99it/s]


Validation F1 Score: 0.47


Epoch 10/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.47


Epoch 11/20: 100%|██████████| 683/683 [14:45<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.48


Epoch 12/20: 100%|██████████| 683/683 [14:46<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.98it/s]


Validation F1 Score: 0.47


Epoch 13/20: 100%|██████████| 683/683 [14:46<00:00,  1.30s/it]
Validating: 100%|██████████| 171/171 [01:26<00:00,  1.97it/s]

Validation F1 Score: 0.47
Early stopping triggered.





# Inference

In [54]:
# 테스트 세트 추론
model.eval()
test_predictions = []
with torch.no_grad():
    for batch in tqdm(test_loader, desc='Testing'):
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        outputs = model(input_ids, attention_mask=attention_mask)
        _, preds = torch.max(outputs.logits, dim=1)
        test_predictions.extend(preds.cpu().tolist())

# 라벨 디코딩
label_decoder = {i: label for label, i in label_encoder.items()}
decoded_predictions = [label_decoder[pred] for pred in test_predictions]

Testing: 100%|██████████| 366/366 [03:06<00:00,  1.96it/s]


# Submission

In [55]:
sample_submission = pd.read_csv("/content/drive/MyDrive/gbt해커톤/data/sample_submission.csv")
sample_submission["분류"] = decoded_predictions

sample_submission.to_csv("./baseline_kobert.csv", encoding='UTF-8-sig', index=False)