In [1]:
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 공백 및 줄바꿈 정리 함수
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

# 요약할 기사(문장)
article_text = """
[서울=뉴시스] 심지혜 기자 = 방송통신위원회가 SK텔레콤의 사이버 침해 사고와 관련해 국민 불안감을 악용한 불법스팸 대응 체계에 대해 점검했다.

방통위는 김태규 부위원장이 전남 나주시에 위치한 한국인터넷진흥원(KISA)을 방문해 SK텔레콤 사이버 침해사고 관련 스팸신고 동향과 대응 현황 등을 살피고 이용자보호 강화를 당부했다고 14일 밝혔다.

김 부위원장은 이날 KISA 내 불법스팸대응센터에서 침해사고 관련 스팸신고 현황을 듣고, 조사원들의 애로사항을 청취했다.

김 부위원장은 "이번 사고를 틈탄 미끼문자가 피싱·스미싱 등 국민피해로 확산되지 않도록 스팸신고 모니터링을 강화하고 필요시 과학기술정보통신부, 경찰청 등과도 긴밀히 협조해 달라"고 말했다.

이어 "현장 최일선에서 국민을 보호하고 있는 불법스팸대응센터 조사원들의 노고에 감사하고, 사고 이후 상황이 마무리될 때까지 다 같이 긴장을 늦추지 말자"고 격려했다.

앞서 방통위는 지난 2일 SK텔레콤 사이버 침해사고 관련 악성스팸 유포 가능성에 대비한 이용자 주의보를 발령하고 KISA와 함께 불법스팸 점검을 강화하고 있다.

"""

model_name = "csebuetnlp/mT5_multilingual_XLSum"

# 토크나이저와 모델 불러오기
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 입력 텍스트 토크나이즈
input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

# 요약 생성
output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,                # 요약 최대 토큰 수
    no_repeat_ngram_size=2,       # 반복 방지
    num_beams=4                   # 빔서치
)

# 디코딩하여 요약문 출력
summary = tokenizer.decode(
    output_ids[0],
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

한국 방송통신위원회가 SK텔레콤의 사이버 침해 사고와 관련해 국민 불안감을 악용한 불법스 spam 대응 체계에 대해 살피고 이용자 보호 강화를 당부했다.
