# 새 섹션

## csebuetnlp/mT5_multilingual_XLSum 모델
- 한국어 포함 45개국언어 요약 가능
- 해당 모델의 토크나이저(SentencePiece)는 UTF-8 byte fallback 기능을 - - 사용하는데, 이는 Hugging Face의 Fast Tokenizer에서는 구현되어 있지 않음
- 따라서 일부 특수 문자나 희귀 문자가 있을 경우, FastTokenizer는 이를 적절히 처리하지 못하고 로 인식할 수 있음

In [4]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 모델 로딩
model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 요약할 문장 (한국어 사업보고서 일부)
text = """
회사는 AI 기반의 비상장 기업 분석 플랫폼을 개발하고 있으며, 2023년 기준 월간 활성 사용자 수는 15만 명으로 증가하였습니다.
특히 기업 재무제표 요약 기능이 호응을 얻어 SaaS 매출의 40%를 차지하고 있습니다.
또한, 신규 기능으로는 산업별 비교 리포트 자동화 도구가 베타 테스트 중입니다.
"""

# 토큰화 및 입력
inputs = tokenizer.encode(text, return_tensors="pt", truncation=True, max_length=512)

# 모델 추론
summary_ids = model.generate(inputs, max_length=64, min_length=10, length_penalty=2.0, num_beams=4, early_stopping=True)

# 출력
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("요약 결과:", summary)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


요약 결과: 미국 소프트웨어 회사 Adobe가 세계 최대 규모의 기업 분석 플랫폼( SaaS) 개발에 들어간다.


In [5]:
pip install transformers torch



In [6]:
pip install --upgrade transformers



In [7]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

text = "이것은 한국어로 작성된 사업보고서의 일부입니다. 내용을 요약해야 합니다"

inputs = tokenizer(text,
                   return_tensors="pt", # PyTorch 텐서 형식으로 반환하라는 미미
                   max_length=512, # 최대 토큰 길이 제한을 둠.
                   truncation=True) # 길이 제한 시 초과 부분을 자를것인가?
summary_ids = model.generate(**inputs, max_length=128, min_length=30, length_penalty=2.0, num_beams=4, early_stopping=True)

summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)

이 보고서는 세계 최대 규모의 산하 업데이트를 위해 활용할 수 있는 앱이 등장했다.


In [10]:
# 1. 요약할 사업보고서 텍스트 (예시)
text = """
회사 개요
당사는 2010년에 설립되어 AI 기반 비상장기업 분석 플랫폼을 개발하는 전문 기업입니다.
주요 사업은 데이터 수집, 전처리, 기업 재무분석 및 리포트 자동화 솔루션 개발에 집중되어 있습니다.
2023년 기준 월간 활성 사용자 수(MAU)는 약 15만 명에 달하며, 매년 두 자릿수 성장률을 기록하고 있습니다.

시장 현황
국내 비상장기업 시장은 데이터의 부족과 불투명성으로 인해 투자 및 경영 분석에 어려움이 많습니다.
최근 디지털 전환과 데이터 활용에 대한 관심이 높아지면서, 당사 솔루션에 대한 수요가 급증하고 있습니다.
특히 AI 기반 자동화 리포트 생성 기능은 업계 최초로 도입되어 경쟁사 대비 큰 강점을 보유하고 있습니다.

주요 제품 및 서비스
1) 비상장기업 재무제표 자동 수집 및 정제
2) 산업별 맞춤형 성장성 분석 리포트 제공
3) 기업 간 비교분석 및 벤치마킹 도구
4) SaaS 기반 실시간 대시보드 및 알림 시스템

2023년 실적
2023년 매출액은 150억원으로 전년 대비 35% 증가하였습니다.
특히 SaaS 매출 비중이 전체 매출의 40%를 차지하며 안정적인 수익 구조를 구축하였습니다.
연간 신규 고객 수는 5천여 개 기업에 달하며, 이 중 70%가 재계약을 진행하는 등 높은 고객 충성도를 유지하고 있습니다.

기술 개발 현황
2023년 하반기부터 신규 기능으로 산업별 비교 리포트 자동화 도구를 베타 테스트 중에 있습니다.
해당 기능은 머신러닝 기반 분석 알고리즘을 활용하여, 기업의 재무·비즈니스 지표를 다각도로 평가합니다.
또한, 자연어처리(NLP) 기술을 적용해 사업보고서 주요 내용을 자동 요약하는 기능을 내년 상반기 내 상용화할 계획입니다.

향후 계획
2024년에는 글로벌 시장 진출을 목표로 아시아 주요 국가에 현지화된 솔루션을 제공할 예정입니다.
또한, R&D 투자를 확대해 인공지능 성능 고도화 및 빅데이터 처리 역량을 강화할 계획입니다.
파트너십 확대를 위해 주요 금융기관 및 벤처캐피탈과 협력 관계를 구축 중이며,
사용자 경험(UX) 개선에도 지속적으로 투자해 플랫폼 접근성과 사용 편의성을 높일 예정입니다.

경영진 코멘트
당사의 성장과 혁신은 고객과 시장에 대한 깊은 이해에서 비롯되었습니다.
앞으로도 AI와 데이터 기술을 선도하며 신뢰받는 비상장기업 분석 플랫폼으로 자리매김하겠습니다.
사회적 책임을 다하는 기업으로서 지속 가능한 경영을 실천하겠습니다.
감사합니다.
"""

# 2. 긴 텍스트를 모델이 이해할 수 있을 만큼 적당한 크기로 나누는 함수 정의
def chunk_text(text, max_length=512, tokenizer=None):
    # 마침표 기준으로 문장 단위로 자름
    sentences = text.split(". ")
    chunks = []              # 결과 저장할 리스트
    current_chunk = ""       # 현재 덩어리

    for sent in sentences:
        # tokenizer로 인코딩한 길이가 max_length보다 작으면 덩어리에 문장 추가
        if len(tokenizer.encode(current_chunk + sent)) < max_length:
            current_chunk += sent + ". "
        else:
            # 길이 초과 시 현재 덩어리를 리스트에 저장하고 새로운 덩어리 시작
            chunks.append(current_chunk.strip())
            current_chunk = sent + ". "
    if current_chunk:
        chunks.append(current_chunk.strip())

    return chunks  # 최종적으로 나뉜 텍스트 덩어리 리스트 반환


# 3. transformers 라이브러리에서 MT5 모델과 토크나이저 불러오기
from transformers import MT5Tokenizer, MT5ForConditionalGeneration

# 사용할 사전학습 모델 이름 지정
model_name = "csebuetnlp/mT5_multilingual_XLSum"

# 모델에 맞는 토크나이저 불러오기 (문장을 숫자로 바꿔주는 도구)
tokenizer = MT5Tokenizer.from_pretrained(model_name, use_fast=False)

# 사전학습된 mT5 요약 모델 불러오기
model = MT5ForConditionalGeneration.from_pretrained(model_name)


# 4. 앞서 정의한 chunk_text 함수를 사용해 긴 텍스트를 잘라서 chunks에 저장
chunks = chunk_text(text, max_length=1024, tokenizer=tokenizer)

# 각 덩어리에 대해 요약을 생성해서 저장할 리스트
summaries = []

# 5. 각 chunk(덩어리)에 대해 반복하여 요약 수행
for chunk in chunks:
    # 토크나이저로 텍스트 인코딩 (모델 입력 형태로 변환)
    inputs = tokenizer(chunk, return_tensors="pt", max_length=512, truncation=True)

    # 모델로부터 요약 문장 생성
    summary_ids = model.generate(
        **inputs,               # 인코딩된 입력
        max_length=256,        # 생성 요약의 최대 길이
        min_length=60,         # 생성 요약의 최소 길이
        num_beams=8,           # Beam Search 탐색 폭 (값이 클수록 정밀도 ↑ 속도 ↓)
        length_penalty=2.0,    # 길이에 대한 패널티 (길게 만들지 않도록 조정)
        early_stopping=True,   # 조건 만족 시 일찍 종료
        no_repeat_ngram_size=3 # 중복 방지 (3-gram 기준)
    )

    # 토크나이저를 사용해 숫자를 다시 문장으로 디코딩
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

    # 요약 결과를 리스트에 추가
    summaries.append(summary)

# 6. 모든 요약 덩어리를 하나의 최종 요약 문장으로 합침
final_summary = " ".join(summaries)

# 7. 결과 출력
print("최종 요약:\n", final_summary)


The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'T5Tokenizer'. 
The class this function is called from is 'MT5Tokenizer'.
You are using the default legacy behaviour of the <class 'transformers.models.mt5.tokenization_mt5.MT5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


최종 요약:
 국내 비상장기업 분석 플랫폼을 개발하는 소프트웨어 회사 '우리 회사'가 발표했다. 이 회사는 AI 기반 데이터 분석 및 리포트 생성 기능을 내년 상반기부터 도입할 계획입니다.


# lcw99/t5-base-korean-text-summary 모델
- paust/pko-t5-base기반 모델
- AIHUB “요약 및 레포트 생성” 데이터
- 긴 글을 짧게 요약하는데 최적모델
- T5-base 계열 모델이라 512-1024 토큰까지만 한 번에 처리 가능 (약 1~2쪽 분량).

In [11]:
pip install transformers sentencepiece torch



In [12]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

# 모델과 토크나이저 불러오기
model_name = "lcw99/t5-base-korean-text-summary"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 요약할 입력 텍스트 (예: 사업보고서 일부 문단)
input_text = """
회사 개요
당사는 2010년에 설립되어 AI 기반 비상장기업 분석 플랫폼을 개발하는 전문 기업입니다.
주요 사업은 데이터 수집, 전처리, 기업 재무분석 및 리포트 자동화 솔루션 개발에 집중되어 있습니다.
2023년 기준 월간 활성 사용자 수(MAU)는 약 15만 명에 달하며, 매년 두 자릿수 성장률을 기록하고 있습니다.

시장 현황
국내 비상장기업 시장은 데이터의 부족과 불투명성으로 인해 투자 및 경영 분석에 어려움이 많습니다.
최근 디지털 전환과 데이터 활용에 대한 관심이 높아지면서, 당사 솔루션에 대한 수요가 급증하고 있습니다.
특히 AI 기반 자동화 리포트 생성 기능은 업계 최초로 도입되어 경쟁사 대비 큰 강점을 보유하고 있습니다.

주요 제품 및 서비스
1) 비상장기업 재무제표 자동 수집 및 정제
2) 산업별 맞춤형 성장성 분석 리포트 제공
3) 기업 간 비교분석 및 벤치마킹 도구
4) SaaS 기반 실시간 대시보드 및 알림 시스템

2023년 실적
2023년 매출액은 150억원으로 전년 대비 35% 증가하였습니다.
특히 SaaS 매출 비중이 전체 매출의 40%를 차지하며 안정적인 수익 구조를 구축하였습니다.
연간 신규 고객 수는 5천여 개 기업에 달하며, 이 중 70%가 재계약을 진행하는 등 높은 고객 충성도를 유지하고 있습니다.

기술 개발 현황
2023년 하반기부터 신규 기능으로 산업별 비교 리포트 자동화 도구를 베타 테스트 중에 있습니다.
해당 기능은 머신러닝 기반 분석 알고리즘을 활용하여, 기업의 재무·비즈니스 지표를 다각도로 평가합니다.
또한, 자연어처리(NLP) 기술을 적용해 사업보고서 주요 내용을 자동 요약하는 기능을 내년 상반기 내 상용화할 계획입니다.

향후 계획
2024년에는 글로벌 시장 진출을 목표로 아시아 주요 국가에 현지화된 솔루션을 제공할 예정입니다.
또한, R&D 투자를 확대해 인공지능 성능 고도화 및 빅데이터 처리 역량을 강화할 계획입니다.
파트너십 확대를 위해 주요 금융기관 및 벤처캐피탈과 협력 관계를 구축 중이며,
사용자 경험(UX) 개선에도 지속적으로 투자해 플랫폼 접근성과 사용 편의성을 높일 예정입니다.

경영진 코멘트
당사의 성장과 혁신은 고객과 시장에 대한 깊은 이해에서 비롯되었습니다.
앞으로도 AI와 데이터 기술을 선도하며 신뢰받는 비상장기업 분석 플랫폼으로 자리매김하겠습니다.
사회적 책임을 다하는 기업으로서 지속 가능한 경영을 실천하겠습니다.
감사합니다.
"""

# 입력 전처리: T5는 prefix 기반 학습이므로 반드시 "summarize: " 붙여야 함
input_text = "summarize: " + input_text

# 토큰화
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

# 요약 생성
summary_ids = model.generate(
    inputs["input_ids"],
    max_length=128,
    num_beams=4,
    length_penalty=1.5,
    no_repeat_ngram_size=2,
    early_stopping=True
)

# 디코딩
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("📄 원문:\n", input_text.replace("summarize: ", ""))
print("\n📝 요약:\n", summary)


tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.10G [00:00<?, ?B/s]

📄 원문:
 
회사 개요  
당사는 2010년에 설립되어 AI 기반 비상장기업 분석 플랫폼을 개발하는 전문 기업입니다.  
주요 사업은 데이터 수집, 전처리, 기업 재무분석 및 리포트 자동화 솔루션 개발에 집중되어 있습니다.  
2023년 기준 월간 활성 사용자 수(MAU)는 약 15만 명에 달하며, 매년 두 자릿수 성장률을 기록하고 있습니다.  

시장 현황  
국내 비상장기업 시장은 데이터의 부족과 불투명성으로 인해 투자 및 경영 분석에 어려움이 많습니다.  
최근 디지털 전환과 데이터 활용에 대한 관심이 높아지면서, 당사 솔루션에 대한 수요가 급증하고 있습니다.  
특히 AI 기반 자동화 리포트 생성 기능은 업계 최초로 도입되어 경쟁사 대비 큰 강점을 보유하고 있습니다.  

주요 제품 및 서비스  
1) 비상장기업 재무제표 자동 수집 및 정제  
2) 산업별 맞춤형 성장성 분석 리포트 제공  
3) 기업 간 비교분석 및 벤치마킹 도구  
4) SaaS 기반 실시간 대시보드 및 알림 시스템  

2023년 실적  
2023년 매출액은 150억원으로 전년 대비 35% 증가하였습니다.  
특히 SaaS 매출 비중이 전체 매출의 40%를 차지하며 안정적인 수익 구조를 구축하였습니다.  
연간 신규 고객 수는 5천여 개 기업에 달하며, 이 중 70%가 재계약을 진행하는 등 높은 고객 충성도를 유지하고 있습니다.  

기술 개발 현황  
2023년 하반기부터 신규 기능으로 산업별 비교 리포트 자동화 도구를 베타 테스트 중에 있습니다.  
해당 기능은 머신러닝 기반 분석 알고리즘을 활용하여, 기업의 재무·비즈니스 지표를 다각도로 평가합니다.  
또한, 자연어처리(NLP) 기술을 적용해 사업보고서 주요 내용을 자동 요약하는 기능을 내년 상반기 내 상용화할 계획입니다.  

향후 계획  
2024년에는 글로벌 시장 진출을 목표로 아시아 주요 국가에 현지화된 솔루션을 제공할 예정입니다.  
또한, R&D 투자를 확대해 인공지능 성능 고도화 및 빅데이터 처리 역량을 강화할



# eenzeenee/t5-base-korean-summarization 모델
- T5 (Text-To-Text Transfer Transformer) 기반 모델
- 한국어 뉴스 기사, 블로그, 네이버 요약 등 다수의 한국어 문서-요약 페어 데이터
- 지원언어 = 한국어(전용)
- 압축력이 낮고 정확도랑 안정성이 높음. (거의 그대로 쓰는 수준...;;)

In [14]:
pip install sentencepiece



In [16]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "eenzeenee/t5-base-korean-summarization"

# 자동으로 알맞은 tokenizer와 model을 불러옵니다.
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 예시 문장
text = "이 보고서는 당해 연도 회사의 주요 사업 실적과 향후 전망에 대한 내용을 포함하고 있습니다. 회사는 매출이 전년 대비 30% 증가했으며, 신사업 부문에서 괄목할 만한 성과를 보였습니다."

# T5는 보통 'summarize:' 프리픽스를 사용합니다.
input_text = "summarize: " + text
inputs = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)

# 요약 생성
summary_ids = model.generate(inputs, max_length=100, min_length=30, length_penalty=2.0, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("요약 결과:")
print(summary)


config.json:   0%|          | 0.00/782 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.10G [00:00<?, ?B/s]

요약 결과:
이 보고서는 당해 연도 회사의 주요 사업 실적과 향후 전망에 대한 내용을 포함하고 있습니다. 회사는 매출이 전년 대비 30 증가했으며 신사업 부문에서 괄목할 만한 성과를 보였습니다.


In [17]:
import pandas as pd
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 💾 1. 예시 input.csv 파일 생성 (테스트용)
sample_texts = [
    "당사는 2023년도에 다양한 R&D 투자를 통해 신제품 개발에 성공하였고, 해외 시장 진출을 본격화하였습니다. 특히 동남아시아 지역에서 수요가 증가하고 있어 매출 증대가 기대됩니다.",
    "최근 당사는 ESG 경영을 강화하기 위해 친환경 설비를 도입하고 탄소 배출 저감을 위한 다양한 활동을 시작했습니다. 이로 인해 관련 인증도 획득하였습니다.",
    "2024년 사업 전략은 디지털 전환을 핵심으로 하여 기존 제조 공정에 AI를 도입하고, 고객 맞춤형 제품을 출시하여 시장 점유율을 높이는 것을 목표로 하고 있습니다."
]

df = pd.DataFrame({"내용": sample_texts})
df.to_csv("input.csv", index=False)

# 🧠 2. 모델 준비
model_name = "eenzeenee/t5-base-korean-summarization"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 📄 3. CSV 파일 불러오기 및 요약 수행
df = pd.read_csv("input.csv")
texts = df["내용"].dropna().tolist()

summaries = []
for idx, text in enumerate(texts):
    input_text = "summarize: " + text
    inputs = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)

    summary_ids = model.generate(inputs, max_length=100, min_length=20, length_penalty=2.0, num_beams=4, early_stopping=True)
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    summaries.append(summary)
    print(f"\n📌 {idx+1}번째 요약:")
    print(summary)

# 💾 4. 결과 저장
df["요약"] = summaries
df.to_csv("summarized_output.csv", index=False)



📌 1번째 요약:
당사는 2023년도에 다양한 R D 투자를 통해 신제품 개발에 성공하였고 해외 시장 진출을 본격화하였으며 동남아시아 지역에서 수요가 증가하고 있어 매출 증대가 기대됩니다.

📌 2번째 요약:
당사는 ESG 경영을 강화하기 위해 친환경 설비를 도입하고 탄소 배출 저감을 위한 다양한 활동을 시작했고 관련 인증도 획득했다.

📌 3번째 요약:
2024년 사업 전략은 디지털 전환을 핵심으로 기존 제조 공정에 AI를 도입하고 고객 맞춤형 제품을 출시하여 시장 점유율을 높이는 것을 목표로 하고 있습니다.


# 문장 분리기 토큰화 모델 KSS

In [18]:
pip install kss

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.1/1.1 MB[0m [31m35.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m24.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from kss)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from kss)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata 