# Transformer 구조 이해

- transformer 구조  : 자연어 처리에서 주로 사용되는 딥러닝 모델
  - Selft-Attention
    - 입력 데이터의 각 요소가 서로 어떤 관계를 가지는지 파악
    - 이를 통해 단어간의 문맥정보를 효육적으로 이해하고 긴 문장에서 중요한 요소를 찾아낼수 있다
  - Multi-Head Attention
    - 여러개의 어텐션 병렬로 사용해서 다양한 문맥적 정보를 학습
  - Feed-Forward Network(FFN)
    - 각 위치에서 데이터를 처리하고 비선형 변환을 통해 모델의 표현력을 높임
  - Positional Encoding
    - Transformer 는 순서 정보를 가지고 있지 않기때문에 입력 데이터에 위치정보를 추가
  - Encoder-Decode 구조
    - Encoder : 입력문장의 의미를 추출  -> 수치화
    - Decoder : 추출된 의미를 바탕으로 요약문이나 번역 결과를생성
    


# 문서내용 요약 및 데이터 정리를 위한 chatGPT 사용법



1.   명확한 목표 설정
  - 원하는 결과를 구체적으로 정의
  - 예를들어, 문서 요약인지, 데이터 표 정리인지, 분석 결과 도출인지 명시
2.   프롬프트 설계
  - 입력된 프롬프트에 따라서 결과물이 달라지므로 고급 프롬프트 설계가 중요

3. 예시
 - 문서요약

"다음 텍스트를 간결하게 요약하고 주요 키워드를 나열하세요:[문서 내용 ]

  - 데이터 정리

"다음 텍스트에서 핵심 정보를 표로 정리해주세요. 열 이름은[A,B,C]로 구성하세요:[문서]"

  - 분석

" 다음데이터를 기반으로 [트랜드 분석/의견 도출]을 작성해 주세요:[데이터 내용]"  

# 문서 자동화의 정확도를 높이는 방법

1. 문맥파악
  - 셀프어텐션 매커니즘을 활용해서 문서내의 중요한 문맥을 파악
2. 프롬프트 최적화
  - 프롬프트에 구체적인 형식을 포함하여 의도를 명확히 전달
3. 모델 피드백 활용
  - ChatGPT의 결과를 분석하여 필요한경우 추가 지침을 포함
4. 데이터 사전 처리
  - 문서를 Transformer에 입력하기 전에 불필요한 텍스트를 제거하너가 중요한 부분을 하이라트하여 모델의 집중도를 높여준다
5. 전문 용어 학습
  - 도메인 특화 문서를 처리할때, 전문 용어를 학습시켜 정확도를 향상

# Hugging face 모델을 사용한 문서 요약 및 데이터 정리

In [6]:
!pip install --upgrade transformers tokenizers -qq

In [9]:
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# Load Model and Tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v3")
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v3")

# Encoding
input_text = "10년 논란 끝에 밑글씨까지 새기고 제작 완료를 눈앞에 둔 ‘광화문 현판’을 원점에서 재검토해 한글 현판으로 교체하자는 주장이 문화계 명사들이 포함된 자칭 ‘시민모임’에서 나왔다.\n  이들은 문화재청이 지난해 8월 최종 확정한 복원안이 시민 의견과 시대정신을 반영한 것이 아니라면서 오는 한글날까지 대대적인 현판 교체 시민운동을 벌이겠다고 예고했다.\n  ‘광화문 현판 훈민정음체로 시민모임’(공동대표 강병인‧한재준, 이하 ‘시민모임’)에 이름을 올린 문화예술인은 현재까지 총 24명.\n  이 중엔 2014~2016년 서울시 총괄건축가를 지낸 승효상 이로재 대표와 ‘안상수체’로 유명한 안상수 파주타이포그라피학교 교장, 유영숙 전 환경부장관(세종사랑방 회장), 임옥상 미술가 등이 있다.\n  공동대표인 강병인 작가는 ‘참이슬’ ‘화요’ 등의 상표 글씨로 유명한 캘리그라피(서체) 작가다.\n  ‘시민모임’은 14일 오후 서울 종로구의 한 서점에서 기자간담회를 열고 이 같은 입장과 함께 훈민정음 해례 글자꼴로 시범 제작한 모형 현판(1/2 크기 축소판)도 공개할 예정이다.\n  강 공동대표는 13일 기자와 통화에서 “새 현판 제작 과정에서 한글로 만들자는 의견은 묵살됐다”면서 “지난해 8월 이후 문화재청에 거듭 입장을 전했지만 반영되지 않아 시민운동에 나서기로 했다”고 말했다.\n  일단 문화예술인 주축으로 꾸렸지만 조만간 한글협회 등 한글 관련단체들과 연대한다는 방침이다.\n  이들이 배포한 사전자료엔 ^한자현판 설치는 중국의 속국임을 표시하는 것으로 대한민국 정체성에 도움이 되지 않고 ^광화문은 21세기의 중건이지 복원이 아니므로 당대의 시대정신인 한글로 현판을 써야하며 ^한글현판은 미래에 남겨줄 우리 유산을 재창조한다는 의미라는 주장이 담겼다.\n  현재 광화문 현판에 대해선 “고종이 경복궁을 중건할 때 당시 훈련대장이던 임태영이 쓴 광화문 현판의 글씨를 조그만 사진에서 스캐닝하고 이를 다듬어 이명박정부 때 설치된 것”이라면서 복원 기준으로서의 정당성을 깎아내렸다.\n    ‘시민모임’에 참여한 승효상 대표도 개인의견을 전제로 “현판을 꼭 한가지만 고집할 필요도 없다.\n  매년 교체할 수도 있고, 광장에서 보이는 정면엔 한글현판, 반대편엔 한자현판을 다는 아이디어도 가능한 것 아니냐”고 말했다.\n  그러면서 “문화재 전문가들은 보수적일 수밖에 없지만 현판이란 게 요즘 말로는 ‘간판’인데 새 시대에 맞게 바꿔 다는 게 바람직하다”고 주장했다.\n"
inputs = tokenizer(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)

# Generate Summary Text Ids
summary_text_ids = model.generate(
input_ids=inputs['input_ids'],
attention_mask=inputs['attention_mask'],
bos_token_id=model.config.bos_token_id,
eos_token_id=model.config.eos_token_id,
length_penalty=1.0,
max_length=300,
min_length=12,
num_beams=6,
repetition_penalty=1.5,
no_repeat_ngram_size=15,
)

# Decoding Text Ids
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))


tokenizer_config.json:   0%|          | 0.00/39.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.05M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/692 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.68k [00:00<?, ?B/s]

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

광화문 현판 훈민정음체로 시민모임에 이름을 올린 문화예술인 24명은 문화재청이 확정한 복원안이 시민 의견과 시대정신을 반영한 것이 아니라면서 대대적인 현판 교체 시민운동을 벌이겠다고 예고했다.


# 한국어 개체명 인식 모델

In [13]:
# 필요한 라이브러리 설치
# !pip install transformers datasets torch

from transformers import pipeline

# 1. Hugging Face 모델 로드
# 한국어 요약 모델 로드 (Hugging Face에서 'Kobart Summarization' 모델을 예로 사용)
summarizer = pipeline("summarization", model="EbanLee/kobart-summary-v3")

# 2. 요약할 문서 입력
document = """
최근 AI 기술은 다양한 산업에서 활용되고 있습니다. 특히 자연어 처리 분야에서는 Transformer 기반 모델이 주목받고 있습니다.
이 기술은 문서의 핵심 내용을 파악하고 요약하는 데 효과적입니다. 여러 연구와 사례를 통해 Transformer 구조의 성능이 입증되었으며,
이를 활용한 자동화 도구가 기업 생산성을 향상시키고 있습니다.
"""

# 3. 요약 수행
summary = summarizer(document, max_length=50, min_length=25, do_sample=False)

print("### 문서 요약 결과 ###")
print(summary[0]['summary_text'])

# 4. 데이터 정리 예시 (키워드 추출)
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

# 한국어 개체명 인식(NER) 모델 로드
tokenizer = AutoTokenizer.from_pretrained("monologg/koelectra-base-v3-discriminator")
model = AutoModelForTokenClassification.from_pretrained("monologg/koelectra-base-v3-discriminator")

ner = pipeline("ner", model=model, tokenizer=tokenizer)

# 데이터 정리 대상 텍스트
data_text = """
2023년 12월 28일, 서울에서 열린 AI 컨퍼런스에서 ㈜뷰케이코리아의 대표가 K-Beauty와 AI 기술 융합의 가능성을 발표했습니다.
이 회사는 전년도 대비 매출이 15% 증가한 17.28억 원을 기록하며 글로벌 시장 진출에 성공했습니다.
"""

entities = ner(data_text)

print("\n### 데이터 정리 결과 (개체명 추출) ###")
for entity in entities:
    print(f"텍스트: {entity['word']}, 레이블: {entity['entity']}")

# 5. 자동화 기능 (반복 작업 처리)
documents = [
    "첫 번째 문서는 AI 기술의 발전 가능성을 다룹니다.",
    "두 번째 문서는 ㈜뷰케이코리아의 글로벌 시장 성과를 설명합니다.",
    "세 번째 문서는 K-Beauty 산업의 트렌드를 분석합니다."
]

summaries = [summarizer(doc, max_length=50, min_length=25, do_sample=False)[0]['summary_text'] for doc in documents]

print("\n### 반복 문서 요약 결과 ###")
for i, summary in enumerate(summaries, 1):
    print(f"문서 {i}: {summary}")


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
Device set to use cuda:0


### 문서 요약 결과 ###
자연어 처리 분야에서는 Transformer 기반 모델이 주목받고 있다. 이 기술은 문서의 핵심 내용을 파악하고 요약하는 데 효과적이다. 이를 활용한 자동화 도구가 기업 생산성을 향상시킨다.


Some weights of ElectraForTokenClassification were not initialized from the model checkpoint at monologg/koelectra-base-v3-discriminator and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cuda:0
Your max_length is set to 50, but your input_length is only 13. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=6)



### 데이터 정리 결과 (개체명 추출) ###
텍스트: 2023, 레이블: LABEL_0
텍스트: ##년, 레이블: LABEL_0
텍스트: 12, 레이블: LABEL_0
텍스트: ##월, 레이블: LABEL_0
텍스트: 28, 레이블: LABEL_0
텍스트: ##일, 레이블: LABEL_0
텍스트: ,, 레이블: LABEL_0
텍스트: 서울, 레이블: LABEL_0
텍스트: ##에, 레이블: LABEL_0
텍스트: ##서, 레이블: LABEL_0
텍스트: 열린, 레이블: LABEL_0
텍스트: AI, 레이블: LABEL_0
텍스트: 컨퍼런스, 레이블: LABEL_0
텍스트: ##에, 레이블: LABEL_0
텍스트: ##서, 레이블: LABEL_0
텍스트: ㈜, 레이블: LABEL_0
텍스트: ##뷰, 레이블: LABEL_0
텍스트: ##케이, 레이블: LABEL_0
텍스트: ##코, 레이블: LABEL_0
텍스트: ##리아, 레이블: LABEL_0
텍스트: ##의, 레이블: LABEL_0
텍스트: 대표, 레이블: LABEL_0
텍스트: ##가, 레이블: LABEL_0
텍스트: K, 레이블: LABEL_0
텍스트: -, 레이블: LABEL_0
텍스트: Be, 레이블: LABEL_0
텍스트: ##au, 레이블: LABEL_0
텍스트: ##t, 레이블: LABEL_0
텍스트: ##y, 레이블: LABEL_0
텍스트: ##와, 레이블: LABEL_0
텍스트: AI, 레이블: LABEL_0
텍스트: 기술, 레이블: LABEL_0
텍스트: 융합, 레이블: LABEL_0
텍스트: ##의, 레이블: LABEL_0
텍스트: 가능, 레이블: LABEL_0
텍스트: ##성, 레이블: LABEL_0
텍스트: ##을, 레이블: LABEL_0
텍스트: 발표, 레이블: LABEL_0
텍스트: ##했, 레이블: LABEL_0
텍스트: ##습, 레이블: LABEL_0
텍스트: ##니다, 레이블: LABEL_0
텍스트: ., 레이블: LABEL_0
텍스트: 이, 레이블: LABEL_0
텍

Your max_length is set to 50, but your input_length is only 16. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=8)
Your max_length is set to 50, but your input_length is only 17. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=8)



### 반복 문서 요약 결과 ###
문서 1: 첫 번째 문서는 AI 기술의 발전 가능성을 다룹니다. 첫 번째 문서는 AI 기술의 발전 가능성을 다룹니다. 
문서 2: 두 번째 문서는 (주)뷰케이코리아의 글로벌 시장 성과를 설명합니다. (주)뷰케이코리아의 글로벌 시장 성과를 설명합니다.
문서 3: 세 번째 문서는 K-Beauty 산업의 트렌드를 분석합니다. K-Beauty 산업의 트렌드를 분석합니다.
