## 카드 생성 시 테그 생성 알고리즘

NER or 토픽 모델링 사용 예정!

In [1]:
pip install -q -U google-genai

Note: you may need to restart the kernel to use updated packages.


In [2]:
from google import genai

client = genai.Client(api_key="AIzaSyBhLmkl8pch1-aUmi3VsCsDRDYYjCgI2Dk")

In [3]:
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents = "엔비디아가 AI 시대에 강세를 보이는 이유에 대해 설명해주세요."
)
print(response.text)

엔비디아(NVIDIA)가 AI 시대에 강세를 보이는 이유는 단순히 뛰어난 하드웨어를 만들어서만이 아니라, 여러 복합적이고 전략적인 요인들 때문입니다. 핵심적인 이유들은 다음과 같습니다.

1.  **압도적인 GPU(그래픽 처리 장치) 성능과 병렬 처리 능력:**
    *   **AI의 본질과 GPU의 적합성:** AI, 특히 딥러닝 모델은 수많은 계산(행렬 연산 등)을 동시에 병렬적으로 처리해야 합니다. CPU(중앙 처리 장치)는 순차적 처리에 능하지만, GPU는 수천 개의 작은 코어를 가지고 있어 이러한 병렬 연산에 최적화되어 있습니다.
    *   **엔비디아의 기술력:** 엔비디아는 수십 년간 게이밍 그래픽 시장을 통해 GPU 기술을 발전시켜 왔으며, AI 시대에 필요한 대규모 병렬 컴퓨팅에 특화된 GPU 아키텍처(예: Ampere, Hopper)와 Tensor Cores 같은 전용 AI 가속 기능을 개발하여 성능을 극대화했습니다. 현재 AI 칩 시장에서 엔비디아의 A100, H100 같은 GPU는 사실상의 표준으로 자리 잡고 있습니다.

2.  **독보적인 소프트웨어 생태계 'CUDA':**
    *   **진정한 경쟁 우위:** 엔비디아의 가장 강력한 무기 중 하나는 하드웨어가 아닌 소프트웨어, 바로 'CUDA(Compute Unified Device Architecture)'입니다. CUDA는 엔비디아 GPU를 사용하여 병렬 컴퓨팅 애플리케이션을 개발할 수 있는 플랫폼이자 프로그래밍 모델입니다.
    *   **개발자 락인(Lock-in) 효과:** 수십 년간 축적된 CUDA 생태계는 AI 연구자와 개발자들에게 익숙하고 강력한 도구, 라이브러리(cuDNN, cuBLAS 등), 프레임워크(TensorFlow, PyTorch 등)와의 높은 호환성을 제공합니다. 대다수의 AI 모델과 알고리즘이 CUDA를 기반으로 개발되고 최적화되어 있습니다. 경쟁사들이 엔비디아와 유사한 성능의 하드웨어를 만든다고 해도, 이 방대한 소프트웨어 생태계를 단기간에 따라

## 카드에서 테그 추출 알고리즘

NER + 토픽 모델링 테스트 해볼거에용~
자료 원문 텍스트만 받아서, 테그 3개~5개 만들기

In [4]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


In [5]:
pip install keybert

Note: you may need to restart the kernel to use updated packages.


In [6]:
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.


In [7]:
pip install torch

Note: you may need to restart the kernel to use updated packages.


In [8]:
pip install transformers

Note: you may need to restart the kernel to use updated packages.


In [9]:
import re
from collections import Counter
from konlpy.tag import Okt
from keybert import KeyBERT

  from .autonotebook import tqdm as notebook_tqdm


In [10]:
# --- 모델 초기화 ---
# Okt(Open Korean Text) 형태소 분석기 초기화
try:
    okt = Okt()
except Exception as e:
    print(f"Error initializing Okt: {e}")
    print("Please ensure KoNLPy and an appropriate Java Development Kit (JDK) are installed.")
    okt = None

# KeyBERT 모델 초기화 (다국어 지원 모델 사용)
try:
    # 'distiluse-base-multilingual-cased'는 다양한 언어에서 준수한 성능을 보이는 경량화된 모델입니다.
    kw_model = KeyBERT('distiluse-base-multilingual-cased')
except Exception as e:
    print(f"Error initializing KeyBERT: {e}")
    print("Please ensure 'keybert', 'torch', and 'transformers' are installed.")
    kw_model = None

  return torch._C._cuda_getDeviceCount() > 0


In [11]:
SAMPLE_TEXT = """
인공지능(AI) 기술이 빠르게 발전하면서, 자연어 처리(NLP) 분야도 큰 변화를 맞이하고 있습니다.
최근 구글, 오픈AI 등 빅테크 기업들은 초거대 AI 모델을 연이어 발표했습니다.
이러한 모델들은 작문, 번역, 코딩 등 다양한 영역에서 인간 수준의 능력을 보여주며
산업 전반에 걸쳐 혁신을 주도하고 있습니다. 하지만 모델의 편향성 문제와
환경 비용에 대한 우려도 함께 제기되고 있어, 책임감 있는 AI 개발이 중요한 화두로 떠올랐습니다.
"""

In [12]:
def clean_text(text):
    """
    간단한 텍스트 전처리 함수 (특수문자, 불필요한 공백 제거)
    """
    # 한글, 영어, 숫자, 공백을 제외한 모든 문자 제거
    text = re.sub(r'[^가-힣A-Za-z0-9\s]', '', text)
    # 연속된 공백을 하나의 공백으로 변경
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def get_tags_by_frequency(text, n_tags=5):
    """
    방법 1: 명사 추출 및 빈도수 기반 태그 생성 (NER과 유사한 접근)
    """
    if not okt:
        print("Okt not initialized. Skipping frequency-based tagging.")
        return []
        
    cleaned_text = clean_text(text)
    
    # 텍스트에서 명사만 추출
    nouns = okt.nouns(cleaned_text)
    
    # 한 글자 명사 제외
    filtered_nouns = [n for n in nouns if len(n) > 1]
    
    # 빈도수 계산
    count = Counter(filtered_nouns)
    
    # 가장 빈번하게 등장한 명사 n_tags개 반환
    common_tags = count.most_common(n_tags)
    
    return [tag for tag, freq in common_tags]

def get_tags_by_keybert_with_nouns(text, n_tags=5):
    """
    방법 2: KeyBERT와 명사 후보군을 이용한 문맥 기반 태그 생성 (토픽 모델링과 유사한 접근)
    """
    if not okt or not kw_model:
        print("Okt or KeyBERT not initialized. Skipping KeyBERT-based tagging.")
        return []

    cleaned_text = clean_text(text)
    
    # 1. 명사 추출 (키워드 후보군으로 사용)
    nouns = okt.nouns(cleaned_text)
    candidates = list(set([n for n in nouns if len(n) > 1])) # 중복 제거

    if not candidates:
        print("No valid noun candidates found for KeyBERT.")
        return []
        
    # 2. KeyBERT를 사용하여 원본 텍스트와 가장 관련도 높은 후보(명사) 추출
    # keyphrase_ngram_range=(1, 1) : 1개 단어로 이루어진 키워드만 추출
    try:
        keywords = kw_model.extract_keywords(cleaned_text,
                                           candidates=candidates,
                                           keyphrase_ngram_range=(1, 1),
                                           stop_words=None,
                                           top_n=n_tags)
        
        return [tag for tag, score in keywords]
    except Exception as e:
        print(f"Error during KeyBERT extraction: {e}")
        return []

In [13]:
# --- 스크립트 실행 ---
if __name__ == "__main__":
    print("--- 태그 생성 스크립트 ---")
    print(f"입력 텍스트:\n{SAMPLE_TEXT}\n")
    
    # 방법 1: 빈도수 기반 태그
    print(f"[방법 1: 빈도수 기반 태그 (상위 10개)]")
    tags_freq = get_tags_by_frequency(SAMPLE_TEXT, n_tags=10)
    print(tags_freq)
    print("-" * 20)
    
    # 방법 2: KeyBERT (문맥) 기반 태그
    print(f"[방법 2: KeyBERT 문맥 기반 태그 (상위 10개)]")
    tags_bert = get_tags_by_keybert_with_nouns(SAMPLE_TEXT, n_tags=10)
    print(tags_bert)
    print("-" * 20)

--- 태그 생성 스크립트 ---
입력 텍스트:

인공지능(AI) 기술이 빠르게 발전하면서, 자연어 처리(NLP) 분야도 큰 변화를 맞이하고 있습니다.
최근 구글, 오픈AI 등 빅테크 기업들은 초거대 AI 모델을 연이어 발표했습니다.
이러한 모델들은 작문, 번역, 코딩 등 다양한 영역에서 인간 수준의 능력을 보여주며
산업 전반에 걸쳐 혁신을 주도하고 있습니다. 하지만 모델의 편향성 문제와
환경 비용에 대한 우려도 함께 제기되고 있어, 책임감 있는 AI 개발이 중요한 화두로 떠올랐습니다.


[방법 1: 빈도수 기반 태그 (상위 10개)]
['모델', '인공', '지능', '기술', '발전', '자연어', '처리', '분야', '변화', '맞이']
--------------------
[방법 2: KeyBERT 문맥 기반 태그 (상위 10개)]
['코딩', '번역', '인간', '구글', '최근', '자연어', '산업', '환경', '대한', '작문']
--------------------


In [14]:
pip install nltk



huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Note: you may need to restart the kernel to use updated packages.


In [15]:
import nltk
# nltk colab 환경에서 실행시 필요한 코드입니다. 
# 토큰화, 품사 태깅, 개체명 인식에 필요한 리소스 다운로드
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('maxent_ne_chunker')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

[nltk_data] Downloading package punkt to /home/oli/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /home/oli/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/oli/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /home/oli/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/oli/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /home/oli/nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to /home/oli/n

True

In [16]:
from nltk import word_tokenize, pos_tag, ne_chunk 
sentence = 'James is working at Disney in London' 
tokenized_sentence = pos_tag(word_tokenize(sentence)) 
print(tokenized_sentence)

[('James', 'NNP'), ('is', 'VBZ'), ('working', 'VBG'), ('at', 'IN'), ('Disney', 'NNP'), ('in', 'IN'), ('London', 'NNP')]


In [17]:
ner_sentence = ne_chunk(tokenized_sentence) 
print(ner_sentence)

(S
  (PERSON James/NNP)
  is/VBZ
  working/VBG
  at/IN
  (ORGANIZATION Disney/NNP)
  in/IN
  (GPE London/NNP))


In [18]:
pip install spacy



huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Note: you may need to restart the kernel to use updated packages.


In [19]:
import spacy



In [20]:
!python -m spacy download en_core_web_sm

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  r = torch._C._cuda_getDeviceCount() if nvml_count < 0 else nvml_count
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m59.3 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [21]:
nlp = spacy.load('en_core_web_sm') # 원하는 언어의 모델을 가져옴 
doc = nlp('Apple is looking at buyin at U.K startup for $1 billion.') # 문장을 nlp 에 넘겨주면 됨 
print(doc) # 원래 문장이 출력됨 
print(list(doc)) #리스트로 변형하면 토큰화한 결과가 출력

Apple is looking at buyin at U.K startup for $1 billion.
[Apple, is, looking, at, buyin, at, U.K, startup, for, $, 1, billion, .]


In [22]:
doc = nlp('Apple is looking at buying U.K. startup for $1 billion') 

for ent in doc.ents : 
  print(ent.text, ent.label_)

Apple ORG
U.K. GPE
$1 billion MONEY


In [23]:
doc = nlp("""But Google is starting from behind. The company made a late push
into hardware, and Apple’s Siri, available on iPhones, and Amazon’s Alexa
software, which runs on its Echo and Dot devices, have clear leads in
consumer adoption.""".replace("\n", " ").strip())

## 아래처럼 무엇이 organization이고, 무엇이 product인지, 꽤 잘 구별해주지만, 
## echo, dot 등에 대해서는 정확하지 못하다. 
for ent in doc.ents:
    print(ent.text, ent.label_)

Google ORG
Apple’s Siri ORG
iPhones ORG
Amazon ORG
Alexa ORG
Echo LOC


In [24]:
# KoBERT-NER 예제
# 필요한 라이브러리 설치 (이미 설치되어 있다면 빠르게 넘어갑니다)
!pip install -q torch transformers seqeval

from transformers import pipeline

# "ner" 파이프라인을 사용하여 미리 학습된 모델 로드
# 모델: monologg/kocharelectra-base-modu-ner-all
print("Loading Ko-NER model...")
ner_pipeline = pipeline("ner", model="monologg/kocharelectra-base-modu-ner-all", aggregation_strategy="simple")
print("Model loaded.")

# 테스트할 한국어 문장
text = "철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다."

# NER 실행
print(f"\nInput text: {text}")
ner_results = ner_pipeline(text)

# 결과 출력
print("\nNER Results:")
for entity in ner_results:
    print(f"  - Entity: {entity['word']}, Label: {entity['entity']}, Score: {entity['score']:.4f}")

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Loading Ko-NER model...


Device set to use cpu


Model loaded.

Input text: 철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다.

NER Results:


In [25]:
# KoBERT-NER 수동 디버깅
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

# 1. 토크나이저와 모델 각각 로드
print("--- 1. Loading Tokenizer & Model ---")
tokenizer = AutoTokenizer.from_pretrained("monologg/kocharelectra-base-modu-ner-all")
model = AutoModelForTokenClassification.from_pretrained("monologg/kocharelectra-base-modu-ner-all")
print("Tokenizer & Model Loaded.")
print("-" * 35)

text = "철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다."

# 2. 문장을 토큰으로 나누고 ID로 변환
inputs = tokenizer(text, return_tensors="pt")
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

print("--- 2. Tokenization Details ---")
print(f"Input Text: {text}")
print(f"Tokens: {tokens}")
print("-" * 35)


# 3. 모델 추론 실행
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.argmax(outputs.logits, dim=2)

print("--- 3. Raw Model Predictions ---")
print("Shape of predictions:", predictions.shape)
print("Prediction IDs:", predictions[0].numpy())
print("-" * 35)

print("--- 4. Per-Token Label Results ---")
# 4. 각 토큰별 예측 결과 확인
for token, prediction in zip(tokens, predictions[0].numpy()):
    label = model.config.id2label[prediction]
    print(f"{token:<15} -> {label}")

--- 1. Loading Tokenizer & Model ---
Tokenizer & Model Loaded.
-----------------------------------
--- 2. Tokenization Details ---
Input Text: 철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다.
Tokens: ['[CLS]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', ',', '[UNK]', '[UNK]', '.', '[SEP]']
-----------------------------------
--- 3. Raw Model Predictions ---
Shape of predictions: torch.Size([1, 10])
Prediction IDs: [0 0 0 0 0 0 0 0 0 0]
-----------------------------------
--- 4. Per-Token Label Results ---
[CLS]           -> O
[UNK]           -> O
[UNK]           -> O
[UNK]           -> O
[UNK]           -> O
,               -> O
[UNK]           -> O
[UNK]           -> O
.               -> O
[SEP]           -> O


In [29]:
# KoBERT-NER 최종 해결책 v2: ElectraTokenizer 직접 사용
from transformers import ElectraTokenizer, AutoModelForTokenClassification
import torch

# 1. ElectraTokenizer를 명시적으로 사용하여 토크나이저 로드
print("--- Loading ElectraTokenizer & Model ---")
tokenizer = ElectraTokenizer.from_pretrained("monologg/kocharelectra-base-modu-ner-all")
model = AutoModelForTokenClassification.from_pretrained("monologg/kocharelectra-base-modu-ner-all")
print("...Done")

def kobert_ner_final_solution(text):
    """
    KoBERT-NER 모델을 ElectraTokenizer로 실행하고, 결과를 단어 단위로 묶어주는 함수.
    """
    print(f"\n--- Running NER for: '{text}' ---")
    
    # 2. 토큰화 및 추론
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    print(f"Tokenization Check: {tokens}") # 토큰화 결과 확인
    
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
        
    # 3. 결과 후처리 및 단어 단위로 묶기
    entities = []
    current_entity = None
    
    for i, token_prediction in enumerate(predictions[0]):
        label = model.config.id2label[token_prediction.item()]
        token = tokens[i]
        
        if label.startswith("B-"):
            if current_entity:
                entities.append(current_entity)
            current_entity = {"word": token.replace("##", ""), "label": label[2:]}
        elif label.startswith("I-") and current_entity:
            if current_entity["label"] == label[2:]:
                current_entity["word"] += token.replace("##", "")
            else:
                entities.append(current_entity)
                current_entity = {"word": token.replace("##", ""), "label": label[2:]}
        else:
            if current_entity:
                entities.append(current_entity)
                current_entity = None
                
    if current_entity:
        entities.append(current_entity)
        
    return entities

# --- 실행 ---
text1 = "철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다."
text2 = "이재용 삼성전자 회장이 다음 주 미국으로 출장을 떠난다."

results1 = kobert_ner_final_solution(text1)
print("\n--- Final Results (Text 1) ---")
for entity in results1:
    print(f"  - Entity: {entity['word']}, Label: {entity['label']}")

results2 = kobert_ner_final_solution(text2)
print("\n--- Final Results (Text 2) ---")
for entity in results2:
    print(f"  - Entity: {entity['word']}, Label: {entity['label']}")


--- Loading ElectraTokenizer & Model ---
...Done

--- Running NER for: '철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다.' ---
Tokenization Check: ['[CLS]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', ',', '[UNK]', '[UNK]', '.', '[SEP]']

--- Final Results (Text 1) ---

--- Running NER for: '이재용 삼성전자 회장이 다음 주 미국으로 출장을 떠난다.' ---
Tokenization Check: ['[CLS]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '[UNK]', '.', '[SEP]']

--- Final Results (Text 2) ---


In [27]:
!rm -rf ~/.cache/huggingface/transformers

In [28]:
!rm -rf ~/.cache/huggingface/hub/models--monologg--kocharelectra-base-modu-ner-all

In [31]:
!pip install -q torch transformers "tokenizers>=0.13.3" "sentencepiece>=0.1.91"

from transformers import pipeline

# 2. KLUE NER 파이프라인 로드 (정확한 모델 이름 사용)
try:
    print("--- Loading KLUE NER Model (soddokayo/klue-roberta-large-klue-ner) ---")
    ner_pipeline = pipeline("ner", model="soddokayo/klue-roberta-large-klue-ner", aggregation_strategy="simple")
    print("...Model Loaded Successfully!")
except Exception as e:
    print(f"An error occurred during model loading: {e}")
    ner_pipeline = None

# 3. 실행 및 결과 확인
if ner_pipeline:
    text = "철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다."
    print(f"\nInput: {text}")
    
    ner_results = ner_pipeline(text)
    
    print("\n--- NER Results ---")
    if ner_results:
        for entity in ner_results:
            print(f"  - Entity: {entity['word']}, Label: {entity['entity_group']}, Score: {entity['score']:.4f}")
    else:
        print("No entities found.")

--- Loading KLUE NER Model (soddokayo/klue-roberta-large-klue-ner) ---


Device set to use cpu


...Model Loaded Successfully!

Input: 철수는 서울역에서 비빔밥을 먹고, 삼성전자에 출근했다.

--- NER Results ---
  - Entity: 철수, Label: PS, Score: 0.9903
  - Entity: 서울역, Label: LC, Score: 0.7596


In [32]:
card_contents = "Node.js는 JavaScript 코드를 브라우저 밖에서 실행할 수 있게 해주는 런타임 환경이다.  빈번한 I/O 처리에 있어서의 우수한 성능[2], 서버 확장의 용이성, 무엇보다도 JavaScript라는 프론트엔드 필수 언어로 백엔드까지 작성할 수 있다는 엄청난 장점 때문에 출시 이후로 빠르게 점유율을 높여가고 있다.  2009년 5월 27일 처음 출시되었으며, 오픈 소스 JavaScript 엔진인 크롬 V8에 비동기 이벤트 처리 라이브러리인 libuv를 결합하여 구현되었다. Ryan Dahl이 처음 개발했으며,[3] 처음엔 리눅스와 macOS만 지원되었으나 2011년 7월에 Windows 버전도 발표되었다.  2014년 12월 한때 Node.js의 포크인 io.js가 나타나면서 Node.js 0.12 버전, io.js 3.3 버전까지 서로 분열된 모습으로 이어지는 듯했지만, 2015년 9월에 Node.js 4.0 버전으로 병합되어 현재에 이르렀다.  최신 버전은 기능이 불안정하거나 일부 모듈[4](패키지)이 작동하지 않을 수 있으므로 안정성을 원한다면 LTS 버전을 사용하는 게 좋다."

In [43]:
!pip install -q -U google-genai konlpy keybert "transformers>=4.31.0" "tokenizers>=0.13.3" "sentencepiece>=0.1.91"

import re
from collections import Counter
import google.genai as genai
from konlpy.tag import Okt
from keybert import KeyBERT
from transformers import pipeline
import torch

print("--- 라이브러리 임포트 완료 ---")

# --- 2. 모델 초기화 ---

# Gemini LLM 클라이언트
try:
    client = genai.Client(api_key="AIzaSyBhLmkl8pch1-aUmi3VsCsDRDYYjCgI2Dk")
    print("Gemini LLM 클라이언트 초기화 완료.")
except Exception as e:
    print(f"Gemini LLM 클라이언트 초기화 실패: {e}")
    client = None

# 명사 빈도수 분석 및 구문 분석용 Okt
try:
    okt = Okt()
    print("Okt 형태소 분석기 초기화 완료.")
except Exception as e:
    print(f"Okt 초기화 실패: {e}")
    okt = None

# KeyBERT 모델
try:
    kw_model = KeyBERT('distiluse-base-multilingual-cased')
    print("KeyBERT 모델 초기화 완료.")
except Exception as e:
    print(f"KeyBERT 초기화 실패: {e}")
    kw_model = None

# KLUE NER 모델
try:
    ner_pipeline = pipeline("ner", model="soddokayo/klue-roberta-large-klue-ner", aggregation_strategy="simple")
    print("KLUE NER 모델 초기화 완료.")
except Exception as e:
    print(f"KLUE NER 초기화 실패: {e}")
    ner_pipeline = None
    
print("--- 모든 모델 초기화 완료 ---")


# --- 3. 태그 후보 추출 함수들 (품질 개선) ---

def get_tags_by_frequency(text, n_tags=20): # 후보 수 증가
    if not okt: return []
    cleaned_text = re.sub(r'[^가-힣A-Za-z0-9\s]', '', text)
    nouns = okt.nouns(cleaned_text)
    filtered_nouns = [n for n in nouns if len(n) > 1]
    count = Counter(filtered_nouns)
    return [tag for tag, freq in count.most_common(n_tags)]

def get_tags_by_keybert_and_phrases(text, n_tags=20): # 후보 수 증가 및 로직 개선
    if not kw_model or not okt: return []
    
    # 1. Okt를 사용해 의미있는 명사구(연속된 명사)와 단일 명사 모두 추출
    phrases = okt.phrases(text)
    nouns = [n for n in okt.nouns(text) if len(n) > 1]
    
    # 2. 후보군 통합 (중복 제거)
    candidates = list(set(phrases + nouns))
    
    if not candidates:
        return []
        
    # 3. KeyBERT로 후보군 중에서 본문과 가장 관련도 높은 키워드 랭킹 선정
    keywords = kw_model.extract_keywords(text, candidates=candidates, top_n=n_tags)
    return [tag for tag, score in keywords]

def get_tags_by_ner(text):
    if not ner_pipeline: return []
    ner_results = ner_pipeline(text)
    # NER 결과에서 'word'만 추출
    return [entity['word'].replace(" ", "") for entity in ner_results]


# --- 4. LLM을 이용한 최종 태그 선택 함수 (gemini-pro 사용) ---

def generate_final_tags_with_llm(card_content, max_tags=5):
    if not client:
        print("LLM 클라이언트가 초기화되지 않아 태그 생성을 건너뜁니다.")
        return []

    # 1단계: 개선된 방법론으로 태그 후보 추출
    freq_tags = get_tags_by_frequency(card_content)
    keyphrase_tags = get_tags_by_keybert_and_phrases(card_content)
    ner_tags = get_tags_by_ner(card_content)
    
    # 2단계: 모든 후보를 합치고 중복 제거
    candidate_tags = list(set(freq_tags + keyphrase_tags + ner_tags))
    
    print(f"\n--- 태그 후보 (총 {len(candidate_tags)}개) ---")
    print(candidate_tags)
    
    if not candidate_tags:
        print("추출된 태그 후보가 없습니다.")
        return []
        
    # 3단계: LLM에게 보낼 프롬프트
    prompt = f"""
    다음은 특정 문서에서 추출한 태그 후보 목록입니다. 이 목록은 문서의 핵심 내용을 담고 있습니다.

    --- 태그 후보 목록 ---
    {', '.join(candidate_tags)}
    --------------------
    
    이 목록을 보고, 문서의 핵심 주제를 가장 잘 나타내는 최종 태그를 {max_tags}개만 골라 다듬어주세요.
    예를 들어, '인공지능'과 'AI'가 둘 다 있다면 'AI'로 합치거나, 너무 광범위한 단어는 제거할 수 있습니다.
    결과는 반드시쉼표(,)로만 구분된 리스트 형태로 답해주세요. (예: 태그1,태그2,태그3)
    만약 적절한 태그가 없다면 "없음"이라고 답해주세요.
    """
    
    # 4단계: LLM 호출 (gemini-pro 사용)
    print(f"\n--- Gemini-2.5-flash에게 최적 태그 선택/정리 요청 ({max_tags}개) ---")
    try:
        response = client.models.generate_content(model="gemini-2.5-flash", contents=prompt)
        
        if "없음" in response.text:
            return []
            
        final_tags = [tag.strip() for tag in response.text.split(',')]
        return final_tags
    except Exception as e:
        print(f"LLM 호출 중 오류 발생: {e}")
        return []

# --- 5. 실행 ---
card_text = """
Node.js는 JavaScript 코드를 브라우저 밖에서 실행할 수 있게 해주는 런타임 환경이다.  빈번한 I/O 처리에 있어서의 우수한 성능[2], 서버 확장의 용이성, 무엇보다도 JavaScript라는 프론트엔드 필수 언어로 백엔드까지 작성할 수 있다는 엄청난 장점 때문에 출시 이후로 빠르게 점유율을 높여가고 있다.  2009년 5월 27일 처음 출시되었으며, 오픈 소스 JavaScript 엔진인 크롬 V8에 비동기 이벤트 처리 라이브러리인 libuv를 결합하여 구현되었다. Ryan Dahl이 처음 개발했으며,[3] 처음엔 리눅스와 macOS만 지원되었으나 2011년 7월에 Windows 버전도 발표되었다.  2014년 12월 한때 Node.js의 포크인 io.js가 나타나면서 Node.js 0.12 버전, io.js 3.3 버전까지 서로 분열된 모습으로 이어지는 듯했지만, 2015년 9월에 Node.js 4.0 버전으로 병합되어 현재에 이르렀다.  최신 버전은 기능이 불안정하거나 일부 모듈[4](패키지)이 작동하지 않을 수 있으므로 안정성을 원한다면 LTS 버전을 사용하는 게 좋다.
"""

final_tags = generate_final_tags_with_llm(card_text, max_tags=5)

print("\n" + "="*20)
print(" 최종 생성 태그")
print("="*20)
print(final_tags)

--- 라이브러리 임포트 완료 ---
Gemini LLM 클라이언트 초기화 완료.
Okt 형태소 분석기 초기화 완료.
KeyBERT 모델 초기화 완료.


Device set to use cpu


KLUE NER 모델 초기화 완료.
--- 모든 모델 초기화 완료 ---

--- 태그 후보 (총 43개) ---
['js', '5월', '런타임', '성능', '빈번', '2009년5월27일', '2011년', '2011년7월', 'RyanDahl', '장점', '2', '3.3', '서버', '어서', 'js의', '최신', '처음', '이르렀다', '언어', '용이', '0.12', '브라우저', '실행', '2009년', '오픈', '2014년12월', '27일', '필수', '백엔드', '환경', '4', '버전', '2015년9월', '처리', '출시', '프론트엔드', '4.0', '무엇', '코드', '3', '확장', '크롬', '12월']

--- Gemini-2.5-flash에게 최적 태그 선택/정리 요청 (5개) ---

 최종 생성 태그
['Node.js', 'JavaScript', '버전', '성능', '서버']


In [45]:
!pip install -q -U google-genai konlpy keybert "transformers>=4.31.0" "tokenizers>=0.13.3" "sentencepiece>=0.1.91"

import re
from collections import Counter
import google.genai as genai
from konlpy.tag import Okt
from keybert import KeyBERT
from transformers import pipeline
import torch

print("--- 라이브러리 임포트 완료 ---")

# --- 2. 모델 초기화 ---

# Gemini LLM 클라이언트
try:
    client = genai.Client(api_key="AIzaSyBhLmkl8pch1-aUmi3VsCsDRDYYjCgI2Dk")
    print("Gemini LLM 클라이언트 초기화 완료.")
except Exception as e:
    print(f"Gemini LLM 클라이언트 초기화 실패: {e}")
    client = None

# Okt
try:
    okt = Okt()
    print("Okt 형태소 분석기 초기화 완료.")
except Exception as e:
    print(f"Okt 초기화 실패: {e}")
    okt = None

# KeyBERT
try:
    kw_model = KeyBERT('distiluse-base-multilingual-cased')
    print("KeyBERT 모델 초기화 완료.")
except Exception as e:
    print(f"KeyBERT 초기화 실패: {e}")
    kw_model = None

# KLUE NER
try:
    ner_pipeline = pipeline("ner", model="soddokayo/klue-roberta-large-klue-ner", aggregation_strategy="simple")
    print("KLUE NER 모델 초기화 완료.")
except Exception as e:
    print(f"KLUE NER 초기화 실패: {e}")
    ner_pipeline = None
    
print("--- 모든 모델 초기화 완료 ---")


# --- 3. 태그 후보 추출 함수들 (모든 방법 총동원) ---

def get_tags_by_frequency(text, n_tags=20):
    if not okt: return []
    nouns = okt.nouns(re.sub(r'[^가-힣A-Za-z0-9\s]', '', text))
    return [n for n, c in Counter(n for n in nouns if len(n) > 1).most_common(n_tags)]

def get_tags_by_keybert_ngrams(text, n_tags=20):
    if not kw_model: return []
    return [tag for tag, score in kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=n_tags)]

def get_tags_by_okt_phrases(text, n_tags=20):
    if not kw_model or not okt: return []
    phrases = okt.phrases(text)
    if not phrases: return []
    return [tag for tag, score in kw_model.extract_keywords(text, candidates=phrases, top_n=n_tags)]

def get_tags_by_ner(text):
    if not ner_pipeline: return []
    return [entity['word'].replace(" ", "") for entity in ner_pipeline(text)]


# --- 4. LLM을 이용한 최종 태그 선택 함수 ---

def generate_final_tags_with_llm(card_content, max_tags=5):
    if not client:
        print("LLM 클라이언트가 초기화되지 않아 태그 생성을 건너뜁니다.")
        return []

    # 1단계: 모든 방법론으로 태그 후보 추출
    print("\n--- 1. 태그 후보 추출 중... ---")
    freq_tags = get_tags_by_frequency(card_content)
    ngram_tags = get_tags_by_keybert_ngrams(card_content)
    phrase_tags = get_tags_by_okt_phrases(card_content)
    ner_tags = get_tags_by_ner(card_content)
    
    # 2단계: 모든 후보를 합치고 중복 제거
    candidate_tags = list(set(freq_tags + ngram_tags + phrase_tags + ner_tags))
    
    print(f"\n--- 2. 태그 후보 종합 (총 {len(candidate_tags)}개) ---")
    print(candidate_tags)
    
    if not candidate_tags:
        print("추출된 태그 후보가 없습니다.")
        return []
        
    # 3단계: LLM에게 보낼 프롬프트
    prompt = f"""
    다음은 특정 문서에서 다양한 알고리즘으로 추출한 태그 후보 목록입니다.

    --- 태그 후보 목록 ---
    {', '.join(candidate_tags)}
    --------------------
    
    이 목록을 보고, 문서의 핵심 주제를 가장 잘 나타내는 최종 태그를 {max_tags}개만 골라 다듬어주세요.
    예를 들어, '인공지능'과 'AI'가 둘 다 있다면 'AI'로 합치고, 너무 광범위하거나 중요하지 않은 단어는 제거해주세요.
    결과는 반드시쉼표(,)로만 구분된 리스트 형태로 답해주세요. (예: 태그1,태그2,태그3)
    """
    
    # 4단계: LLM 호출
    print(f"\n--- 3. Gemini-Pro에게 최적 태그 선택/정리 요청 ({max_tags}개) ---")
    try:
        response = client.models.generate_content(model="gemini-2.5-flash", contents=prompt)
        final_tags = [tag.strip() for tag in response.text.split(',')]
        return final_tags
    except Exception as e:
        print(f"LLM 호출 중 오류 발생: {e}")
        return []

# --- 5. 실행 ---
card_text = """
인공지능(AI) 기술이 빠르게 발전하면서, 자연어 처리(NLP) 분야도 큰 변화를 맞이하고 있습니다.
최근 구글, 오픈AI 등 빅테크 기업들은 초거대 AI 모델을 연이어 발표했습니다.
이러한 모델들은 작문, 번역, 코딩 등 다양한 영역에서 인간 수준의 능력을 보여주며
산업 전반에 걸쳐 혁신을 주도하고 있습니다. 하지만 모델의 편향성 문제와
환경 비용에 대한 우려도 함께 제기되고 있어, 책임감 있는 AI 개발이 중요한 화두로 떠올랐습니다.
이재용 삼성전자 회장은 AI 인재 확보의 중요성을 강조했습니다.
"""

final_tags = generate_final_tags_with_llm(card_text, max_tags=5)

print("\n" + "="*20)
print(" 최종 생성 태그")
print("="*20)
print(final_tags)


--- 라이브러리 임포트 완료 ---
Gemini LLM 클라이언트 초기화 완료.
Okt 형태소 분석기 초기화 완료.
KeyBERT 모델 초기화 완료.


Device set to use cpu


KLUE NER 모델 초기화 완료.
--- 모든 모델 초기화 완료 ---

--- 1. 태그 후보 추출 중... ---

--- 2. 태그 후보 종합 (총 51개) ---
['모델들은', '편향성', '하지만 모델의', '기술이 빠르게', '이재용', '번역', '기술', '작문', '모델을 연이어', '인공지능', '구글', '변화', '맞이', '인공', '기업', '변화를 맞이하고', '오픈AI', '발전', '삼성전자', '코딩 다양한', '인재', '구글 오픈ai', '산업', '발표', '빠르게 발전하면서', '대한', '모델', '오픈', '연이어', '최근', '초거대', '혁신을 주도하고', '환경', '테크', '코딩', '거대', '처리', '분야', '모델들은 작문', '번역 코딩', '이러한 모델들은', '책임감', '걸쳐 혁신을', '최근 구글', '지능', '분야도 변화를', '영역에서 인간', '자연어', '발전하면서 자연어', '인간', '모델의 편향성']

--- 3. Gemini-Pro에게 최적 태그 선택/정리 요청 (5개) ---

 최종 생성 태그
['초거대 AI 모델', '기술 혁신', '산업 변화', '빅테크 기업', 'AI 윤리']
