In [1]:
import pandas as pd
import numpy as np
import os

import re
import emoji
from konlpy.tag import Okt

from sklearn.metrics import accuracy_score
from scipy.stats import entropy

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import Dataset, DatasetDict
import torch

import requests
import json
import ollama

from langchain_openai import ChatOpenAI
from langchain_ollama import ChatOllama
from langchain_core.prompts import PromptTemplate

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
os.chdir("C:/Users/ehddl/Desktop/업무/code/sns-categorizer")

In [None]:
# from dotenv import load_dotenv
# load_dotenv('config/.env')

# token = os.getenv("HUGGINGFACE_TOKEN")

# model_name = "mistralai/Mistral-7B-v0.1"

# tokenizer = AutoTokenizer.from_pretrained(model_name, token=token)
# model = AutoModelForCausalLM.from_pretrained(
#     model_name,
#     token=token,
#     device_map="auto",  # 자동 GPU/CPU 분배
#     load_in_4bit=True,  # 8GB 환경 필수
#     torch_dtype=torch.float16
# )

In [11]:
new = pd.read_csv("./tests/data/final_fine-tuning_multi-columns_data.csv", index_col=0)
new = new.drop(['label_list'], axis=1)
new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 39823 entries, 0 to 39822
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   acnt_sub_nm_cleaned  35282 non-null  object
 1   intro_txt_cleaned    36009 non-null  object
 2   text                 39823 non-null  object
 3   single_label         39823 non-null  object
 4   label_id             39823 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 1.8+ MB


In [None]:
# --- 하이퍼파라미터 및 BERT 모델 설정 ---
# 학습된 BERT 모델 설정
MODEL_NAME = "kykim/bert-kor-base" # 또는 finetune-bert-kykim 등 님이 학습시킨 모델 경로
FINETUNED_BERT_MODEL_PATH = "muli-columns-kykim-bert-kor" # finetune-bert-kykim 혹은 앙상블 모델 등

# 카테고리 라벨 목록 (BERT 학습 시 사용했던 라벨과 동일해야 함)
category_labels = ['IT', '게임', '결혼/연애', '교육', '다이어트/건강보조식품', '만화/애니/툰', '문구/완구', '미술/디자인', '반려동물', '베이비/키즈', '뷰티', '브랜드공식계정',
                   '사진/영상', '셀럽', '스포츠', '시사', '엔터테인먼트', '여행/관광', '유명장소/핫플', '일상', '자동차/모빌리티', '짤/밈', '취미', '패션', '푸드', '홈/리빙']

# --- 1. BERT 모델 및 토크나이저 로드 ---
bert_tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
bert_model = AutoModelForSequenceClassification.from_pretrained(
    FINETUNED_BERT_MODEL_PATH,
    num_labels=len(category_labels)
)
bert_model.eval() # 추론 모드로 전환

def tokenize_three_columns(examples):
    combined_texts = [
        f"{acnt} {bert_tokenizer.sep_token} {intro} {bert_tokenizer.sep_token} {txt}"
        for acnt, intro, txt in zip(
            examples["acnt_sub_nm_cleaned"],
            examples["intro_txt_cleaned"],
            examples["text"]
        )
    ]
    
    return bert_tokenizer(
        combined_texts,
        padding="max_length",
        truncation=True,
        max_length=512 
    )

predict_dataset = Dataset.from_pandas(new)
predict_dataset = predict_dataset.map(tokenize_three_columns, batched=True)
columns_to_remove = ['acnt_sub_nm_cleaned', 'intro_txt_cleaned', 'text']
predict_dataset = predict_dataset.remove_columns(columns_to_remove)
predict_dataset.set_format(type="torch", columns=['input_ids', 'attention_mask'])

Map: 100%|██████████| 39823/39823 [00:08<00:00, 4514.16 examples/s]


In [19]:
predict_df = new.copy()

In [None]:
# 예측용 TrainingArguments 및 Trainer 설정
prediction_args = TrainingArguments(
    output_dir="./prediction_output",
    per_device_eval_batch_size=16,
    do_train=False,
    do_predict=True,
    report_to="none",
    disable_tqdm=False,
)
trainer = Trainer(model=bert_model, args=prediction_args)

# 예측 수행
predictions_output = trainer.predict(predict_dataset)
logits = predictions_output.predictions
probabilities = torch.softmax(torch.tensor(logits), dim=-1).numpy()
predicted_class_indices = np.argmax(logits, axis=-1)

# 4. 결과 DataFrame에 추가
predict_df['bert_probabilities'] = [probs.tolist() for probs in probabilities]
predict_df['bert_top_label_idx'] = np.argmax(probabilities, axis=-1)
predict_df['bert_top_label'] = [category_labels[idx] for idx in predict_df['bert_top_label_idx']]
predict_df['bert_top_prob'] = np.max(probabilities, axis=-1)

In [29]:
bert_accuracy = accuracy_score(predict_df['label_id'], predict_df['bert_top_label_idx'])
print(bert_accuracy)

0.9157522035004897


In [95]:
# --- LLM 설정 (2차 정제기/추론기) ---
# LLM 설정
# LLM_MODEL_NAME = "komt-mistral" # Ollama에 다운로드된 모델 이름 (mistral:7b)
# LLM_CONFIDENCE_THRESHOLD = 0.8 # BERT 예측 확률이 0.8 미만일 경우에만 LLM 호출
# TOP_K_PREDICTIONS = 5 # LLM에게 전달할 BERT의 상위 예측 후보 수

# llm = ChatOllama(
#     model=LLM_MODEL_NAME,
#     format='json', # JSON 형식으로 응답받도록 지시 (프롬프트에서도 명시해야 함)
#     temperature=0 # 창의성 없이 일관된 답변을 받도록 온도 0으로 설정
# )

from dotenv import load_dotenv
load_dotenv('config/.env')

LLM_MODEL_NAME = "gpt-4o" # Ollama에 다운로드된 모델 이름 (mistral:7b)
LLM_CONFIDENCE_THRESHOLD = 0.8 # BERT 예측 확률이 0.8 미만일 경우에만 LLM 호출
TOP_K_PREDICTIONS = 5 # LLM에게 전달할 BERT의 상위 예측 후보 수

llm = ChatOpenAI(
    model=LLM_MODEL_NAME,
    model_kwargs={"response_format": {"type": "json_object"}},
    temperature=0 # 창의성 없이 일관된 답변을 받도록 온도 0으로 설정
)

prompt_template = PromptTemplate.from_template(
    """
    당신은 텍스트 분류 전문가입니다. 
    한국어로 사전학습된 BERT 모델로 SNS의 세 가지 정보를 보고(SNS 프로필 별명, SNS 프로필 설명, 미디어 게시물 텍스트), 가장 적절한 하나의 카테고리로 1차 분류를 진행했습니다. 
    하지만, 세 가지 정보를 보고 한 번 더 가장 적절한 하나의 카테고리로 분류하세요.
    - 카테고리 목록: {category_labels}
    - SNS 프로필 별명 : {profile_sub_name}
    - SNS 프로필 설명 : {profile_description}
    - 미디어 게시물 텍스트: "{media_text}"
    - BERT 1차 예측 결과: {bert_predictions_info}
    
    최종 카테고리는 카테고리 목록에 있는 이름 중 하나여야 하며, 다른 말 없이 카테고리 이름만 JSON 형식으로 출력하세요.
    예시: {{"category": "음식"}}
    """
)

In [96]:
def process_batch_with_hybrid(predict_df, category_labels):
    """
    BERT 예측 결과를 담은 DataFrame을 받아 LLM으로 정제하는 함수.
    """
    predict_df['final_category'] = predict_df['bert_top_label'] # 초기값은 BERT의 예측으로 설정
    
    for index, row in predict_df.iterrows():
        profile_sub_name = row['acnt_sub_nm_cleaned']
        profile_description = row['intro_txt_cleaned']
        media_text = row['text'] 
        max_prob = row['bert_top_prob']
        bert_top_label = row['bert_top_label']
        probs = np.array(row['bert_probabilities'])

        # LLM 호출 조건: BERT 예측이 불확실한 경우
        if max_prob < LLM_CONFIDENCE_THRESHOLD:
            print(f"\n--- 텍스트 {index+1} 처리 중 ---")
            print(f"[BERT 불확실] 최고 확률 {max_prob:.4f} < {LLM_CONFIDENCE_THRESHOLD}. LLM 호출...")

            # 상위 K개 예측 후보 추출
            top_indices = np.argsort(probs)[-TOP_K_PREDICTIONS:][::-1]
            top_probs = probs[top_indices]
            bert_predictions_info = []
            for idx, prob in zip(top_indices, top_probs):
                label = category_labels[idx]
                bert_predictions_info.append(f"{label} ({prob:.4f})")
            
            # LangChain으로 LLM에 요청
            prompt_variables = {
                "profile_sub_name" : profile_sub_name,
                "profile_description" : profile_description,
                "media_text": media_text,
                "category_labels": ', '.join(category_labels),
                # "bert_top_label" : bert_top_label
                "bert_predictions_info": ', '.join(bert_predictions_info)
            }
            chain = prompt_template | llm
            
            try:
                llm_response = chain.invoke(prompt_variables)
                llm_output_dict = eval(llm_response.content)
                final_category = llm_output_dict.get('category')
                predict_df.loc[index, 'final_category'] = final_category
                print(f"-> LLM 최종 결정: {final_category}")
            except Exception as e:
                print(f"LLM 호출 실패 또는 응답 파싱 오류: {e}")
                print(f"-> BERT의 예측값({bert_top_label})으로 대체합니다.")
                predict_df.loc[index, 'final_category'] = bert_top_label
        else:
            print(f"\n--- 텍스트 {index+1} 처리 중 ---")
            print(f"[BERT 확실] 최고 확률 {max_prob:.4f} >= {LLM_CONFIDENCE_THRESHOLD}. LLM 스킵.")
            print(f"-> BERT 최종 결정: {bert_top_label}")

    return predict_df

In [97]:
predict_df = process_batch_with_hybrid(predict_df, category_labels)


--- 텍스트 1 처리 중 ---
[BERT 확실] 최고 확률 0.9883 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 일상

--- 텍스트 2 처리 중 ---
[BERT 불확실] 최고 확률 0.7510 < 0.8. LLM 호출...
-> LLM 최종 결정: 짤/밈

--- 텍스트 3 처리 중 ---
[BERT 확실] 최고 확률 0.9921 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 일상

--- 텍스트 4 처리 중 ---
[BERT 확실] 최고 확률 0.9914 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 일상

--- 텍스트 5 처리 중 ---
[BERT 확실] 최고 확률 0.9951 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 반려동물

--- 텍스트 6 처리 중 ---
[BERT 확실] 최고 확률 0.9951 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 반려동물

--- 텍스트 7 처리 중 ---
[BERT 확실] 최고 확률 0.9952 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 반려동물

--- 텍스트 8 처리 중 ---
[BERT 확실] 최고 확률 0.9869 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 일상

--- 텍스트 9 처리 중 ---
[BERT 확실] 최고 확률 0.9440 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 뷰티

--- 텍스트 10 처리 중 ---
[BERT 불확실] 최고 확률 0.4417 < 0.8. LLM 호출...
-> LLM 최종 결정: 게임

--- 텍스트 11 처리 중 ---
[BERT 확실] 최고 확률 0.9230 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 여행/관광

--- 텍스트 12 처리 중 ---
[BERT 확실] 최고 확률 0.9957 >= 0.8. LLM 스킵.
-> BERT 최종 결정: 뷰티

--- 텍스트 13 처리 중 ---
[BERT 불확실] 최고 확률 0.6031 < 0.8. LLM 호출...

In [98]:
predict_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 39823 entries, 0 to 39822
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   acnt_sub_nm_cleaned  35282 non-null  object 
 1   intro_txt_cleaned    36009 non-null  object 
 2   text                 39823 non-null  object 
 3   single_label         39823 non-null  object 
 4   label_id             39823 non-null  int64  
 5   bert_probabilities   39823 non-null  object 
 6   bert_top_label_idx   39823 non-null  int64  
 7   bert_top_label       39823 non-null  object 
 8   bert_top_prob        39823 non-null  float32
 9   final_category       39823 non-null  object 
 10  final_category_idx   39823 non-null  int64  
 11  final_cateogry       1 non-null      object 
dtypes: float32(1), int64(3), object(8)
memory usage: 4.8+ MB


In [104]:
label_map = {
    'IT': 0,
    '게임': 1,
    '결혼/연애': 2,
    '교육': 3,
    '다이어트/건강보조식품': 4,
    '만화/애니/툰': 5,
    '문구/완구': 6,
    '미술/디자인': 7,
    '반려동물': 8,
    '베이비/키즈': 9,
    '뷰티': 10,
    '브랜드공식계정': 11,
    '사진/여행': 12, # 원래는 사진/영상
    '셀럽': 13,
    '스포츠': 14,
    '시사': 15,
    '엔터테인먼트': 16,
    '여행/관광': 17,
    '유명장소/핫플': 18,
    '일상': 19,
    '자동차/모빌리티': 20,
    '짤/밈': 21,
    '취미': 22,
    '패션': 23,
    '푸드': 24,
    '홈/리빙': 25
}

predict_df['final_category_idx'] = predict_df['final_category'].map(label_map)

In [105]:
predict_df[predict_df['final_category_idx'].isna()]

Unnamed: 0,acnt_sub_nm_cleaned,intro_txt_cleaned,text,single_label,label_id,bert_probabilities,bert_top_label_idx,bert_top_label,bert_top_prob,final_category,final_category_idx,final_cateogry
5183,지니손,네이버인플루언서 네이버블로그,협찬 이방의 풍경과 타인의 얼굴 경계를 허무는 이라는 큰 주제로 해냄출판사에서 네편...,시사,15,"[0.011383120901882648, 0.027066363021731377, 0...",7,미술/디자인,0.253746,문학,,시사


In [106]:
predict_df.loc[5183, 'final_cateogry'] = '시사'
predict_df.loc[5183, 'final_category_idx'] = 15


In [107]:
predict_df[predict_df['bert_top_label'] != predict_df['final_category']]

Unnamed: 0,acnt_sub_nm_cleaned,intro_txt_cleaned,text,single_label,label_id,bert_probabilities,bert_top_label_idx,bert_top_label,bert_top_prob,final_category,final_category_idx,final_cateogry
1,3 10 1,,관종들 릴스 리스타 그램 릴스 초보,짤/밈,21,"[0.001703890971839428, 0.0029637848492711782, ...",19,일상,0.751001,짤/밈,21.0,
9,박태영,gdinxdxmini parksong2,포켓 몬트 레이너의 삶이란 feat 파란 목도리,만화/애니/툰,5,"[0.002564588561654091, 0.010767936706542969, 0...",19,일상,0.441681,게임,1.0,
12,밍아트 김민지,egf 100000ppm 헤어 잔디세럼,다 오니 옷 보러 왔는데 너무 귀여워,패션,23,"[0.0013073098380118608, 0.0027848028112202883,...",8,반려동물,0.603091,패션,23.0,
18,샨이,angegram,츠키 요화 tsukiyowadining,일상,19,"[0.0014731490518897772, 0.0012051889207214117,...",19,일상,0.476808,여행/관광,17.0,
20,,무선 청소기로봇청소기공기청정기등 전제품 판매 청송산지사과청송산지순수착즙주스판매 페이...,공부는 지금부터,교육,3,"[0.43186986446380615, 0.0038019318599253893, 0...",25,홈/리빙,0.433337,IT,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...
39651,휘원,아르듀 5기 앰버서더 ardume arduwe,쿠팡에서 산 캠코더 대만족 나름 결과물이 괜찮더래요 이것저것 모아서 유튜브이나 올려...,사진/영상,12,"[0.1643519103527069, 0.005301619414240122, 0.0...",12,사진/여행,0.721460,IT,0.0,
39655,휘원,아르듀 5기 앰버서더 ardume arduwe,외국 언니 따라 하고 싶었달까 old school in hdex hdex 에이치 덱...,패션,23,"[0.001617552014067769, 0.0045589180663228035, ...",4,다이어트/건강보조식품,0.309536,패션,23.0,
39688,휘원,아르듀 5기 앰버서더 ardume arduwe,오늘 저녁에 운동 가기 싫어서 점심에 다녀오기 저녁엔 장보고 돼지고기 김치찜 해먹을...,일상,19,"[0.0008508170722052455, 0.0009113108972087502,...",4,다이어트/건강보조식품,0.732451,일상,19.0,
39703,휘원,아르듀 5기 앰버서더 ardume arduwe,밴드 없이 풀어하는 그날이 올까 오겠지,스포츠,14,"[0.004484755918383598, 0.0053220223635435104, ...",14,스포츠,0.535024,일상,19.0,


In [108]:
llm_accuracy = accuracy_score(predict_df['label_id'], predict_df['final_category_idx'])
print(llm_accuracy)

0.9149737588830575


##### Module

In [109]:
new_data = pd.read_parquet("media_data_sample.parquet")
new_data_profile = pd.read_parquet("C:/Users/ehddl/Downloads/merged_data.parquet")

new_data = new_data[['acnt_id', 'media_cn']]
new_data_profile = new_data_profile[['acnt_id', 'acnt_sub_nm', 'intro_txt']]

new_data_profile.dropna(inplace=True)
new_data.dropna(inplace=True)

new = pd.merge(new_data_profile, new_data, on='acnt_id')

In [110]:
# 카테고리 라벨 목록 
category_labels = ['IT', '게임', '결혼/연애', '교육', '다이어트/건강보조식품', '만화/애니/툰', '문구/완구', '미술/디자인', '반려동물', '베이비/키즈', '뷰티', '브랜드공식계정',
                    '사진/영상', '셀럽', '스포츠', '시사', '엔터테인먼트', '여행/관광', '유명장소/핫플', '일상', '자동차/모빌리티', '짤/밈', '취미', '패션', '푸드', '홈/리빙']

In [111]:
# --- LLM 설정 (2차 정제기/추론기) ---

LLM_MODEL_NAME = "komt-mistral" # Ollama에 다운로드된 모델 이름 (ollama create komt-mistral -f ./Modelfile) -> 이렇게 생성했음
LLM_CONFIDENCE_THRESHOLD = 0.8 # BERT 예측 확률이 0.8 미만일 경우에만 LLM 호출
TOP_K_PREDICTIONS = 5 # LLM에게 전달할 BERT의 상위 예측 후보 수

llm = ChatOllama(
    model=LLM_MODEL_NAME,
    format='json', # JSON 형식으로 응답받도록 지시 (프롬프트에서도 명시해야 함)
    temperature=0 
)

prompt_template = PromptTemplate.from_template(
    """
    당신은 텍스트 분류 전문가입니다. 
    한국어로 사전학습된 BERT 모델로 SNS의 세 가지 정보를 보고(SNS 프로필 별명, SNS 프로필 설명, 미디어 게시물 텍스트), 가장 적절한 하나의 카테고리로 1차 분류를 진행했습니다. 
    하지만, 세 가지 정보를 보고 한 번 더 가장 적절한 하나의 카테고리로 분류하세요.
    - 카테고리 목록: {category_labels}
    - SNS 프로필 별명 : {profile_sub_name}
    - SNS 프로필 설명 : {profile_description}
    - 미디어 게시물 텍스트: "{media_text}"
    - BERT 1차 예측 결과: {bert_predictions_info}
    
    최종 카테고리는 카테고리 목록에 있는 이름 중 하나여야 하며, 다른 말 없이 카테고리 이름만 JSON 형식으로 출력하세요.
    예시: {{"category": "음식"}}
    """
)

In [None]:
# --- 데이터 전처리 및 BERT model 학습 ---
def tokenize_and_predict_batch(new_profile_data, new_media_data, category_labels):
    new_profile_data = new_profile_data[['acnt_id', 'acnt_sub_nm', 'intro_txt']]
    new_media_data = new_media_data[['acnt_id', 'media_cn']]

    new_profile_data.dropna(inplace=True)
    new_media_data.dropna(inplace=True)

    new = pd.merge(new_profile_data, new_media_data, on='acnt_id')

    def clean_text(text):
        if not isinstance(text, str):
            return ''
        
        text = emoji.replace_emoji(text, replace='')
        text = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', text)
        text = text.lower()
        text = re.sub(r'\s+', ' ', text)

        return text.strip()

    new['acnt_sub_nm_cleaned'] = new['acnt_sub_nm'].apply(clean_text)
    new['intro_txt_cleaned'] = new['intro_txt'].apply(clean_text)
    new['media_cn_cleaned'] = new['media_cn'].apply(clean_text)
    new = new[~new.apply(lambda row: row.astype(str).str.strip().eq('').any(), axis=1)]
    new = new[['acnt_sub_nm_cleaned', 'intro_txt_cleaned', 'media_cn_cleaned']]
    predict_df = new.copy()

    # 학습된 BERT 모델 설정
    MODEL_NAME = "kykim/bert-kor-base" 
    FINETUNED_BERT_MODEL_PATH = "muli-columns-kykim-bert-kor" 

    # BERT 모델 및 토크나이저 로드 
    bert_tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    bert_model = AutoModelForSequenceClassification.from_pretrained(
        FINETUNED_BERT_MODEL_PATH,
        num_labels=len(category_labels)
    )
    bert_model.eval() # 추론 모드로 전환

    def tokenize_three_columns(examples):
        combined_texts = [
            f"{acnt} {bert_tokenizer.sep_token} {intro} {bert_tokenizer.sep_token} {txt}"
            for acnt, intro, txt in zip(
                examples["acnt_sub_nm_cleaned"],
                examples["intro_txt_cleaned"],
                examples["media_cn_cleaned"]
            )
        ]
        
        return bert_tokenizer(
            combined_texts,
            padding="max_length",
            truncation=True,
            max_length=512 
        )

    predict_dataset = Dataset.from_pandas(new)
    predict_dataset = predict_dataset.map(tokenize_three_columns, batched=True)
    columns_to_remove = ['acnt_sub_nm_cleaned', 'intro_txt_cleaned', 'media_cn_cleaned']
    predict_dataset = predict_dataset.remove_columns(columns_to_remove)
    predict_dataset.set_format(type="torch", columns=['input_ids', 'attention_mask']) # 모델에 따라서 해당 부분 변경
    
    # 예측용 TrainingArguments 및 Trainer 설정
    prediction_args = TrainingArguments(
        output_dir="./prediction_output",
        per_device_eval_batch_size=16,
        do_train=False,
        do_predict=True,
        report_to="none",
        disable_tqdm=False,
    )
    trainer = Trainer(model=bert_model, args=prediction_args)

    # 예측 수행
    predictions_output = trainer.predict(predict_dataset)
    logits = predictions_output.predictions
    probabilities = torch.softmax(torch.tensor(logits), dim=-1).numpy()
    predicted_class_indices = np.argmax(logits, axis=-1)
    
    # 4. 결과 DataFrame에 추가
    predict_df['bert_probabilities'] = [probs.tolist() for probs in probabilities]
    predict_df['bert_top_label_idx'] = np.argmax(probabilities, axis=-1)
    predict_df['bert_top_label'] = [category_labels[idx] for idx in predict_df['bert_top_label_idx']]
    predict_df['bert_top_prob'] = np.max(probabilities, axis=-1)
    
    return predict_df


In [None]:
# --- 하이브리드 라벨링 파이프라인 ---

def process_batch_with_hybrid(predict_df, category_labels):
    """
    BERT 예측 결과를 담은 DataFrame을 받아 LLM으로 정제하는 함수.
    """
    predict_df['final_category'] = predict_df['bert_top_label'] # 초기값은 BERT의 예측으로 설정
    
    for index, row in predict_df.iterrows():
        profile_sub_name = row['acnt_sub_nm_cleaned']
        profile_description = row['intro_txt_cleaned']
        media_text = row['media_cn_cleaned']
        max_prob = row['bert_top_prob']
        bert_top_label = row['bert_top_label']
        probs = np.array(row['bert_probabilities'])

        # LLM 호출 조건: BERT 예측이 불확실한 경우
        if max_prob < LLM_CONFIDENCE_THRESHOLD:
            print(f"\n--- 텍스트 {index+1} 처리 중 ---")
            print(f"[BERT 불확실] 최고 확률 {max_prob:.4f} < {LLM_CONFIDENCE_THRESHOLD}. LLM 호출...")

            # 상위 K개 예측 후보 추출
            top_indices = np.argsort(probs)[-TOP_K_PREDICTIONS:][::-1]
            top_probs = probs[top_indices]
            bert_predictions_info = []
            for idx, prob in zip(top_indices, top_probs):
                label = category_labels[idx]
                bert_predictions_info.append(f"{label} ({prob:.4f})")
            
            # LangChain으로 LLM에 요청
            prompt_variables = {
                "profile_sub_name" : profile_sub_name,
                "profile_description" : profile_description,
                "media_text": media_text,
                "category_labels": ', '.join(category_labels),
                # "bert_top_label" : bert_top_label
                "bert_predictions_info": ', '.join(bert_predictions_info)
            }
            chain = prompt_template | llm
            
            try:
                llm_response = chain.invoke(prompt_variables)
                llm_output_dict = eval(llm_response.content)
                final_category = llm_output_dict.get('category')
                predict_df.loc[index, 'final_category'] = final_category
                print(f"-> LLM 최종 결정: {final_category}")
            except Exception as e:
                print(f"LLM 호출 실패 또는 응답 파싱 오류: {e}")
                print(f"-> BERT의 예측값({bert_top_label})으로 대체합니다.")
                predict_df.loc[index, 'final_category'] = bert_top_label
        else:
            print(f"\n--- 텍스트 {index+1} 처리 중 ---")
            print(f"[BERT 확실] 최고 확률 {max_prob:.4f} >= {LLM_CONFIDENCE_THRESHOLD}. LLM 스킵.")
            print(f"-> BERT 최종 결정: {bert_top_label}")

    return predict_df

In [23]:
bert_predictions_df = tokenize_and_predict_batch(new_data_profile, new_data, category_labels)

Map: 100%|██████████| 14370/14370 [00:02<00:00, 5218.70 examples/s]


In [None]:
final_results_df = process_batch_with_hybrid(bert_predictions_df)

##### simple prompt test

In [None]:
'''
구조화된, 여러 단계의 파이프라인이 필요할 때 랭체인 사용. 주요 목적은 프롬프트 템프릿, llm, 출력 파서 등 여러 구성 요소를 연결하는 것. 단순한 단발성 프롬프트 보다 더 복잡한 작업에 활용
프로젝트가 커질수록 일반적으로 순수 requests 코드보다 가독성이 좋고 관리가 쉬움
'''

from langchain_ollama import ChatOllama

llm = ChatOllama(
    model='mistral:7b',
    format='json',
    temperature=0
)

In [26]:
data = pd.read_excel("new_multi-columns.xlsx", index_col=0)

In [28]:
data.head()

Unnamed: 0,acnt_sub_nm_cleaned,intro_txt_cleaned,media_cn_cleaned,predicted_label,prob_0,prob_1,prob_2,prob_3,prob_4,prob_5,...,prob_17,prob_18,prob_19,prob_20,prob_21,prob_22,prob_23,prob_24,prob_25,single_label
0,yjmgoslow,yjm,yjm will drop a new album in the hottest summer,16,0.002786,0.007358,0.003483,0.01055,0.00186,0.012073,...,0.015325,0.008815,0.170553,0.002231,0.01193,0.00362,0.006244,0.005798,0.001646,엔터테인먼트
1,yjmgoslow,yjm,yg,19,0.000232,0.000165,0.000288,0.000441,0.000506,0.00046,...,0.000781,0.000318,0.983935,0.000239,0.006725,0.000145,0.00047,0.000469,0.00019,일상
2,yjmgoslow,yjm,저의 근황은더보기,19,0.000172,0.000131,0.000203,0.00035,0.000259,0.000548,...,0.000723,0.000207,0.989646,0.000156,0.00376,9.9e-05,0.000315,0.000317,0.000164,일상
3,yjmgoslow,yjm,99년식 김윤호 생일 축하해 주셔서 다들 감사해요,19,0.000497,0.000658,0.010724,0.000958,0.002319,0.001174,...,0.001867,0.003472,0.722453,0.001677,0.003726,0.000671,0.002762,0.016437,0.003005,일상
4,yjmgoslow,yjm,yoooooooo,19,0.000247,0.00017,0.000279,0.000497,0.000495,0.000475,...,0.000853,0.000315,0.983531,0.000241,0.006814,0.000154,0.000521,0.000463,0.000194,일상


In [37]:
ollama_url = "http://localhost:11434/api/generate"

def ollama_predict(prompt):
    data = {
        "model": "mistral",
        "prompt": prompt,
        "stream": False # 스트리밍 없이 한 번에 응답 받기
    }
    response = requests.post(ollama_url, data=json.dumps(data))
    response.raise_for_status()
    return response.json()['response']

# BERT가 '낮은 확신도'를 보인 데이터
acnt_sub_nm_cleaned = data['acnt_sub_nm_cleaned']
intro_txt_cleaned = data['intro_txt_cleaned']
media_cn_cleaned = data['media_cn_cleaned']
single_label_list = data['single_label'].unique()
bert_label = data['single_label']

prompt = f"""
당신은 텍스트 분류 전문가입니다. 다음 정보들의 텍스트를 보고 26개 카테고리 중 하나로 분류하세요.
- 카테고리 목록: {single_label_list}
- 프로필 별명 : {acnt_sub_nm_cleaned}
- 프로필 설명 : {intro_txt_cleaned}
- 게시물 텍스트: {media_cn_cleaned}

BERT 모델은 이 게시물을 '{bert_label}'로 분류했습니다. 당신의 최종 의견은 무엇인가요?
"""

llm_label = ollama_predict(prompt)
print(f"LLM의 최종 의견: {llm_label}")

LLM의 최종 의견:  Based on the provided data, it seems like all the posts are about '일상' (Daily Life). However, since there could be some variation in topics within daily life such as work, personal matters, hobbies, etc., a more specific model trained for each subcategory might yield better results. In this case, manual review or additional context may be needed to accurately classify the posts into more specific categories like 'work' or 'hobbies'.
