In [19]:
!pip install langchain
!pip install langchain-community
!pip install dataset

[0m

In [20]:
!pip install koeda

[0m

In [21]:
from konlpy.tag import Okt

In [None]:
import os
import random
import re
from collections import Counter
from tqdm import tqdm

import numpy as np
import pandas as pd
import torch
from torch.utils.data import DataLoader

from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from sklearn.metrics import f1_score

from transformers import (
    DataCollatorWithPadding,
    TrainingArguments,
    Trainer,
    AutoTokenizer,
    AutoModelForSequenceClassification,
    AutoModelForCausalLM,
    pipeline
)

from datasets import load_dataset, Dataset
import evaluate


from langchain.llms import OpenAI, HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.embeddings import HuggingFaceEmbeddings




In [6]:
# ================================================
print("데이터셋 로드 및 설정")
# ================================================

# 랜덤 시드 설정
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    torch.cuda.manual_seed_all(SEED)


# 모델과 토크나이저 로드
model_name = 'klue/bert-base'
tokenizer = AutoTokenizer.from_pretrained(model_name)

df_train = pd.read_csv("/data/ephemeral/home/data/train.csv")
#df_valid = pd.read_csv("/data/ephemeral/home/data/valid_output.csv")


# 데이터셋에 인덱스 컬럼 추가
df_train = df_train.reset_index().rename(columns={'index': 'idx'})
#df_valid = df_valid.reset_index().rename(columns={'index': 'idx'})


데이터셋 로드 및 설정


In [7]:
df_train_pc = df_train.copy()

In [8]:
df_train_pc

Unnamed: 0,idx,ID,text,target
0,0,ynat-v1_train_00000,정i :파1 미사z KT( 이용기간 2e 단] Q분종U2보,4
1,1,ynat-v1_train_00001,K찰.국DLwo 로L3한N% 회장 2 T0&}송=,3
2,2,ynat-v1_train_00002,"m 김정) 자주통일 새,?r열1나가야1보",2
3,3,ynat-v1_train_00003,갤노트8 주말 27만대 개통…시장은 불법 보조금 얼룩,5
4,4,ynat-v1_train_00004,pI美대선I앞두고 R2fr단 발] $비해 감시 강화,6
...,...,...,...,...
2795,2795,ynat-v1_train_02795,트럼프 폭스뉴스 앵커들 충성도 점수매겨…10점만점에 12점도,6
2796,2796,ynat-v1_train_02796,삼성 갤럭시S9 정식 출시 첫 주말 이통시장 잠잠,2
2797,2797,ynat-v1_train_02797,텔레그램+한D 등h亞서 2시간H다운…C버T정gf39종!2보,4
2798,2798,ynat-v1_train_02798,인터뷰 류현진 친구에게 안타 맞는 것 싫어해…승부는 냉정,1


In [9]:
#특수 기호 제거 함수:
def remove_special_characters(text):
    return re.sub(r'[^ ㄱ-ㅣ가-힣]', '', text)

In [10]:
#형태소 분석 및 불용어 제거 함수
okt = Okt()
korean_stopwords = set(['은', '는', '이', '가', '을', '를', '의', '에', '에서', '로', '으로', '과', '와', '도', '만', '에게', '께', '한테', '보다', '라고', '이라고', '으로서', '같이', '처럼', '만큼'])


NameError: name 'Okt' is not defined

In [None]:
def tokenize_and_remove_stopwords(text):
    tokens = okt.pos(text, stem=True)
    return ' '.join([word for word, pos in tokens if pos in ['Noun', 'Verb', 'Adjective'] and word not in korean_stopwords])


In [None]:
#특수 기호 제거 함수:
def remove_special_characters(text):
    return re.sub(r'[^ ㄱ-ㅣ가-힣]', '', text)


#형태소 분석 및 불용어 제거 함수
okt = Okt()
korean_stopwords = set(['은', '는', '이', '가', '을', '를', '의', '에', '에서', '로', '으로', '과', '와', '도', '만', '에게', '께', '한테', '보다', '라고', '이라고', '으로서', '같이', '처럼', '만큼'])

def tokenize_and_remove_stopwords(text):
    tokens = okt.pos(text, stem=True)
    return ' '.join([word for word, pos in tokens if pos in ['Noun', 'Verb', 'Adjective'] and word not in korean_stopwords])

#2글자 이상 단어 필터링 함수
def filter_tokens_by_length(text, min_length=2):
    return ' '.join([word for word in text.split() if len(word) >= min_length])


#전체 전처리 함수
def preprocess_text(text):
    text = remove_special_characters(text)
    text = tokenize_and_remove_stopwords(text)
    text = filter_tokens_by_length(text)  # 2글자 이상 단어 필터링 추가
    return text


#DataFrame에 전처리 적용
def preprocess_dataframe(df):
    df['cleaned_text'] = df['text'].apply(preprocess_text)
    return df


# 데이터프레임 전처리
df_cleaned = preprocess_dataframe(df_train_pc)

# 정제된 문서 리스트 반환
cleaned_texts = df_cleaned['cleaned_text'].tolist()

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

In [None]:
# 정제된 문서 리스트 반환
texts = df_cleaned['cleaned_text'].tolist()

In [None]:
#gpt

In [None]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# 사용할 LLM 모델 설정
llm = ChatOpenAI(
    model_name='gpt-3.5-turbo',  # 'gpt-4-mini' 대신 사용 가능한 모델명으로 변경
    temperature=0.5
)

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    input_variables=["text"],
    template="""다음은 뉴스 기사의 일부 단어들입니다:

{text}

위 단어들과 가장 관련 있는 뉴스 도메인을 한 단어로 정의해 주고 가장 관련 있는 카테고리 찾아주세요.
그 후 평균적으로 가장 많이 나온 카테고리 7가지 결과 값을 찾아주세요.  

도메인:"""
)

# LLMChain 생성
chain = LLMChain(llm=llm, prompt=prompt)

# 텍스트 리스트에서 카테고리 추출
texts = df_cleaned['cleaned_text'].tolist()
categories = []

for text in texts:
    response = chain.run(text)
    categories.append(response.strip())

# 결과 출력
for text, category in zip(texts, categories):
    print(f"Text: {text}\nCategory: {category}\n")

# 카테고리 분포 확인
from collections import Counter
category_counts = Counter(categories)
print("Category distribution:")
for category, count in category_counts.most_common():
    print(f"{category}: {count}")

In [None]:
#허깅페이스

In [None]:
import os
os.environ["HUGGINGFACE_TOKEN"] = "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"

In [None]:
from langchain_huggingface import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch
from collections import Counter

# Llama 모델 로드 (예: meta-llama/Llama-2-7b-chat-hf)잘 나오지 않아 라마 모데 교체 beomi/Llama-3-Open-Ko-8B
model_name = "beomi/Llama-3-Open-Ko-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

# HuggingFace 파이프라인 설정
hf_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=50,
    do_sample=True,
    temperature=0.5,
    top_p=0.95,
    repetition_penalty=1.15
)

# LangChain의 HuggingFacePipeline 생성
llm = HuggingFacePipeline(pipeline=hf_pipeline)

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    input_variables=["text"],
    template="""다음은 뉴스 기사의 일부 단어들입니다:

{text}

위 단어들과 가장 관련 있는 뉴스 도메인을 한 단어로 정의해 주세요. 예시: 정치, 경제, 사회, 문화, 국제, 과학, 스포츠, 기술.
다른 설명이나 추가 정보 없이 오직 도메인 단어 하나만 답하세요.

도메인:"""
)

# LLMChain 생성
chain = LLMChain(llm=llm, prompt=prompt)

# 텍스트 리스트에서 카테고리 추출
texts = df_cleaned['cleaned_text'].tolist()
categories = []

for text in texts:
    response = chain.run(text)
    categories.append(response.strip())

# 결과 출력
for text, category in zip(texts[:10], categories[:10]):  # 처음 10개만 출력
    print(f"Text: {text}\nCategory: {category}\n")

# 카테고리 분포 확인
category_counts = Counter(categories)
print("Category distribution:")
for category, count in category_counts.most_common(7):  # 상위 7개 카테고리만 출력
    print(f"{category}: {count}")

# 상위 7개 카테고리 추출
top_7_categories = [category for category, _ in category_counts.most_common(7)]
print("\nTop 7 categories:", top_7_categories)