In [1]:
!pip install -q -U google-genai konlpy keybert "transformers>=4.31.0" "tokenizers>=0.13.3" "sentencepiece>=0.1.91"

import re
from collections import Counter
import google.genai as genai
from konlpy.tag import Okt
from keybert import KeyBERT
from transformers import pipeline
import torch

print("--- 라이브러리 임포트 완료 ---")

  from .autonotebook import tqdm as notebook_tqdm


--- 라이브러리 임포트 완료 ---


In [2]:
print("--- 모델 초기화 중... (시간이 걸릴 수 있습니다) ---")
try:
    client = genai.Client(api_key="AIzaSyBhLmkl8pch1-aUmi3VsCsDRDYYjCgI2Dk")
    okt = Okt()
    kw_model = KeyBERT('distiluse-base-multilingual-cased')
    ner_pipeline = pipeline("ner", model="soddokayo/klue-roberta-large-klue-ner", aggregation_strategy="simple")
    print("--- 모든 모델 초기화 완료 ---")
except Exception as e:
    print(f"모델 초기화 중 오류 발생: {e}")
    client = None
    okt = None
    kw_model = None
    ner_pipeline = None

--- 모델 초기화 중... (시간이 걸릴 수 있습니다) ---


  return torch._C._cuda_getDeviceCount() > 0
Device set to use cpu


--- 모든 모델 초기화 완료 ---


In [None]:
def get_tags_by_frequency(text, n_tags=20):
    if not okt: return []
    nouns = okt.nouns(re.sub(r'[^가-힣A-Za-z0-9\s]', '', text))
    return [n for n, c in Counter(n for n in nouns if len(n) > 1).most_common(n_tags)]

def get_tags_by_keybert_ngrams(text, n_tags=20):
    if not kw_model: return []
    return [tag for tag, score in kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=n_tags)]

def get_tags_by_okt_phrases(text, n_tags=20):
    if not kw_model or not okt: return []
    phrases = okt.phrases(text)
    if not phrases: return []
    return [tag for tag, score in kw_model.extract_keywords(text, candidates=phrases, top_n=n_tags)]

def get_tags_by_ner(text):
    if not ner_pipeline: return []
    return [entity['word'].replace(" ", "") for entity in ner_pipeline(text)]

card_text = """
인공지능(AI) 기술이 빠르게 발전하면서, 자연어 처리(NLP) 분야도 큰 변화를 맞이하고 있습니다.
최근 구글, 오픈AI 등 빅테크 기업들은 초거대 AI 모델을 연이어 발표했습니다.
이러한 모델들은 작문, 번역, 코딩 등 다양한 영역에서 인간 수준의 능력을 보여주며
산업 전반에 걸쳐 혁신을 주도하고 있습니다. 하지만 모델의 편향성 문제와
환경 비용에 대한 우려도 함께 제기되고 있어, 책임감 있는 AI 개발이 중요한 화두로 떠올랐습니다.
이재용 삼성전자 회장은 AI 인재 확보의 중요성을 강조했습니다.
"""

print("\n--- 태그 후보 생성 중... ---")
if client: # 모델 로딩이 성공했을 때만 실행
    freq_tags = get_tags_by_frequency(card_text)
    ngram_tags = get_tags_by_keybert_ngrams(card_text)
    phrase_tags = get_tags_by_okt_phrases(card_text)
    ner_tags = get_tags_by_ner(card_text)
    candidate_tags = list(set(freq_tags + ngram_tags + phrase_tags + ner_tags))

    print(f"\n--- 생성된 태그 후보 (총 {len(candidate_tags)}개) ---")
    # 이 아래 리스트를 복사해서 다음 셀의 `candidate_tags` 변수에 붙여넣으세요.
    print(candidate_tags)
else:
    print("모델이 제대로 로드되지 않아 후보를 생성할 수 없습니다.")
    candidate_tags = []


--- 태그 후보 생성 중... ---





--- 생성된 태그 후보 (총 51개) ---
['발표', '분야도 변화를', '편향성', '인간', '최근', '최근 구글', '작문', '기술이 빠르게', '빠르게 발전하면서', '맞이', '코딩', '인재', '책임감', '모델들은 작문', '인공', '번역 코딩', '인공지능', '하지만 모델의', '구글 오픈ai', '오픈AI', '기업', '발전', '초거대', '번역', '자연어', '영역에서 인간', '테크', '산업', '모델을 연이어', '모델들은', '환경', '모델', '거대', '모델의 편향성', '삼성전자', '걸쳐 혁신을', '변화', '연이어', '코딩 다양한', '분야', '지능', '발전하면서 자연어', '대한', '처리', '구글', '혁신을 주도하고', '이재용', '변화를 맞이하고', '기술', '이러한 모델들은', '오픈']


In [4]:
candidate_tags = ['AI 모델', 'AI 인재', '최근 구글', '환경 비용', '빅테크 기업들', '인공지능', '삼성전자', '오픈AI', '자연어', '처리', '분야', '변화', '최근', '구글', '빅테크', '기업', '초거대', '모델', '발표', '작문', '번역', '코딩', '다양', '영역', '인간', '수준', '능력', '산업', '전반', '혁신', '주도', '문제', '우려', '제기', '책임감', '개발', '중요', '화두', '이재용', '회장', '인재', '확보', '강조', '기술', '발전', '자연어 처리', '인공지능 AI', 'AI 기술', '편향성 문제']


In [5]:
max_tags = 5
prompt_template = f"""
당신은 주어진 태그 후보 목록을 보고, 문서의 핵심 내용을 가장 잘 요약하는 최종 태그를 선택하고 다듬는 태그 전문가입니다.

--- 태그 후보 목록 ---
{', '.join(candidate_tags)}
--------------------

주어진 후보 목록 내에서, 가장 중요하고 대표성이 강한 키워드를 {max_tags}개만 선택해주세요.
- 서로 의미가 겹치는 태그는 하나로 합쳐주세요 (예: '인공지능', 'AI' -> 'AI').
- 너무 일반적이거나 중요도가 낮은 태그는 제외해주세요.
- 최종 결과는 반드시 쉼표(,)로만 구분된 목록 형태로만 반환해주세요.

예시 결과: AI, 자연어 처리, 빅테크, 편향성 문제, 삼성전자
"""

In [7]:
final_tags = []
if client and candidate_tags:
    print(f"\n--- Gemini-Pro에게 프롬프트 전송 ({max_tags}개 요청) ---\
")
    print("--- 사용된 프롬프트 ---")
    print(prompt_template)
    print("---------------------\
")
    try:
        response = client.models.generate_content(model="gemini-2.5-flash", contents=prompt_template)
        final_tags = [tag.strip() for tag in response.text.split(',')]
    except Exception as e:
        print(f"LLM 호출 중 오류 발생: {e}")

print("="*20)
print(" 최종 생성 태그")
print("="*20)
print(final_tags)


--- Gemini-Pro에게 프롬프트 전송 (5개 요청) ---
--- 사용된 프롬프트 ---

당신은 주어진 태그 후보 목록을 보고, 문서의 핵심 내용을 가장 잘 요약하는 최종 태그를 선택하고 다듬는 태그 전문가입니다.

--- 태그 후보 목록 ---
AI 모델, AI 인재, 최근 구글, 환경 비용, 빅테크 기업들, 인공지능, 삼성전자, 오픈AI, 자연어, 처리, 분야, 변화, 최근, 구글, 빅테크, 기업, 초거대, 모델, 발표, 작문, 번역, 코딩, 다양, 영역, 인간, 수준, 능력, 산업, 전반, 혁신, 주도, 문제, 우려, 제기, 책임감, 개발, 중요, 화두, 이재용, 회장, 인재, 확보, 강조, 기술, 발전, 자연어 처리, 인공지능 AI, AI 기술, 편향성 문제
--------------------

주어진 후보 목록 내에서, 가장 중요하고 대표성이 강한 키워드를 5개만 선택해주세요.
- 서로 의미가 겹치는 태그는 하나로 합쳐주세요 (예: '인공지능', 'AI' -> 'AI').
- 너무 일반적이거나 중요도가 낮은 태그는 제외해주세요.
- 최종 결과는 반드시 쉼표(,)로만 구분된 목록 형태로만 반환해주세요.

예시 결과: AI, 자연어 처리, 빅테크, 편향성 문제, 삼성전자

---------------------
 최종 생성 태그
['AI', '자연어 처리', '빅테크', '편향성 문제', '삼성전자']
