If you're opening this Notebook on colab, you will probably need to install 🤗 Transformers and 🤗 Datasets as well as other dependencies. Uncomment the following cell and run it.

In [1]:
!pip install datasets transformers rouge-score nltk sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting torch-xla==1.13
  Downloading https://storage.googleapis.com/tpu-pytorch/wheels/colab/torch_xla-1.13-cp38-cp38-linux_x86_64.whl (151.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m151.3/151.3 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting cloud-tpu-client==0.10
  Downloading cloud_tpu_client-0.10-py3-none-any.whl (7.4 kB)
Collecting torch==1.13.0
  Downloading torch-1.13.0-cp38-cp38-manylinux1_x86_64.whl (890.2 MB)
[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m890.2/890.2 MB[0m [31m29.4 MB/s[0m eta [36m0:00:01[0mtcmalloc: large alloc 1112711168 bytes == 0x41ee0000 @  0x7f34c2832680 0x7f34c2852da2 0x5f714c 0x64d800 0x527022 0x504866 0x56bbe1 0x569d8a 0x5f60c3 0x56bbe1 0x569d8a 0x5f60c3 0x56bbe1 0x569d8a 0x5f60c3 0x56bbe1 0x569d8a 0x5f60c3 0x56bbe1 0x569d8a 0x5f60c3 0x56bbe1 0x5f5ee6 0x56bbe1 0x569d8a 0x5f60c3 0x

If you're opening this notebook locally, make sure your environment has an install from the last version of those libraries.

To be able to share your model with the community and generate results like the one shown in the picture below via the inference API, there are a few more steps to follow.

First you have to store your authentication token from the Hugging Face website (sign up [here](https://huggingface.co/join) if you haven't already!) then execute the following cell and input your username and password:

In [4]:
from huggingface_hub import login

login('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') # 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

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid.
Your token has been saved to /root/.cache/huggingface/token
Login successful


Then you need to install Git-LFS. Uncomment the following instructions:

In [5]:
# !apt install git-lfs

Make sure your version of Transformers is at least 4.11.0 since the functionality was introduced in that version:

In [6]:
import transformers

print(transformers.__version__)

4.26.0


You can find a script version of this notebook to fine-tune your model in a distributed fashion using multiple GPUs or TPUs [here](https://github.com/huggingface/transformers/tree/master/examples/seq2seq).

# Fine-tuning a model on a summarization task

In this notebook, we will see how to fine-tune one of the [🤗 Transformers](https://github.com/huggingface/transformers) model for a summarization task. We will use the [XSum dataset](https://arxiv.org/pdf/1808.08745.pdf) (for extreme summarization) which contains BBC articles accompanied with single-sentence summaries.

![Widget inference on a summarization task](images/summarization.png)

We will see how to easily load the dataset for this task using 🤗 Datasets and how to fine-tune a model on it using the `Trainer` API.

In [1]:
model_checkpoint = "paust/pko-t5-small"

This notebook is built to run  with any model checkpoint from the [Model Hub](https://huggingface.co/models) as long as that model has a sequence-to-sequence version in the Transformers library. Here we picked the [`t5-small`](https://huggingface.co/t5-small) checkpoint. 

## Loading the dataset

We will use the [🤗 Datasets](https://github.com/huggingface/datasets) library to download the data and get the metric we need to use for evaluation (to compare our model to the benchmark). This can be easily done with the functions `load_dataset` and `load_metric`.  

In [8]:
from datasets import load_dataset, load_metric

raw_datasets = load_dataset('KETI-AIR/aihub_paper_summarization', data_dir='data').filter(lambda example: example["summary_type"] == 'section')
#raw_datasets['train'] = raw_datasets['train'].shard(num_shards=3, index=0)
metric = load_metric("rouge")

Downloading builder script:   0%|          | 0.00/11.4k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/28.0 [00:00<?, ?B/s]



Downloading and preparing dataset aihub_paper_summarization/default to /root/.cache/huggingface/datasets/KETI-AIR___aihub_paper_summarization/default-data_dir=data/0.0.0/b70439030637fcd143bbefc3f5c8cc9fd6e577b74d342b300f4fc50df4709e1e...


Generating train split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Dataset aihub_paper_summarization downloaded and prepared to /root/.cache/huggingface/datasets/KETI-AIR___aihub_paper_summarization/default-data_dir=data/0.0.0/b70439030637fcd143bbefc3f5c8cc9fd6e577b74d342b300f4fc50df4709e1e. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/566 [00:00<?, ?ba/s]

  0%|          | 0/73 [00:00<?, ?ba/s]

  metric = load_metric("rouge")


Downloading builder script:   0%|          | 0.00/2.16k [00:00<?, ?B/s]

The `dataset` object itself is [`DatasetDict`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasetdict), which contains one key for the training, validation and test set:

In [9]:
raw_datasets

DatasetDict({
    train: Dataset({
        features: ['doc_id', 'summary_type', 'original_text', 'summary_text'],
        num_rows: 282580
    })
    validation: Dataset({
        features: ['doc_id', 'summary_type', 'original_text', 'summary_text'],
        num_rows: 36061
    })
})

To access an actual element, you need to select a split first, then give an index:

In [10]:
raw_datasets["train"][0]

{'doc_id': 'A201008176694',
 'summary_type': 'section',
 'original_text': '한국교총은 ‘교사가 된 것을 후회한다.’는 교사 비율이 우리의 경우 20.1%로 조사대상국 중 가장 높다고 지적하면서 교사의 사기를 진작할 특단의 대책을 마련할 것을 촉구하였다(한국교총, 2015a). 허주 외 연구(2015: 131-132)도 TALIS 2013결과를 해석하면서 상대적으로 높은 교사 후회 비율을 근거로 교사의 직무만족도가 매우 낮은 수준이라고 진단하였다. 한국교총은 1995년 5.31교육개혁을 비롯하여 학생인권조례 제정, 학부모 민원 등 교권 추락 가속화 등이 작용한 결과라고 보고 기존 교원 정책에 대한 비판적 관점을 취하였다(한국교총, 2015a). 한국교총이 지적한 대로 20%를 상회하는 교사가 교직 선택을 후회하면서 심리적 고통을 느끼는 감정 상태에 있다면(Landman, 1993: 4참조), 현재와 미래에 교사의 직무 전념과 매진에 문제가 있을 것으로 예상할 수 있다. 감정으로서 후회는 앞으로 전개될 행동의 안내자로서 과거와 미래를 연결하는 다리가 되기 때문이다(Zeelenberg & Pieters, 2007: 4).',
 'summary_text': '한국교총은 교사의 사기를 진작할 특단의 대책을 마련할 것을 촉구하였다. 한국교총은 학생인권조례 제정, 학부모 민원 등 교권 추락 가속화 등이 작용한 결과라고 보고 기존 교원 정책에 대한 비판적 관점을 취하였다.'}

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset.

In [11]:
import datasets
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=5):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, datasets.ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

In [12]:
show_random_elements(raw_datasets["train"])

Unnamed: 0,doc_id,summary_type,original_text,summary_text
0,A201008176744,section,"토론학습은 학습자들의 의사소통능력, 협업능력, 사고력 등을 향상시킬 수 있는 효과적인 교수 - 학습 방법으로 널리 사용되고 있다. 토론학습은 온라인 학습환경에서 보다 교육적으로 효과적일 수 있다. 온라인이라는 환경의 특성상 시공간의 물리적 제약을 넘어 학습자들이 자유롭게 상호작용할 수 있는 기회를 높여주기 때문이다. 하지만 온라인 토론활동이 효과적으로 이루어지기 위해서는 학습자들의 적극척인 참여와 학습자 간의 활발한 상호작용이 필요하다(이석남, 양용칠, 2009). 대부분의 온라인 토론활동은 게시판에 작성되는 글이 순차적으로 쌓이는 방식으로 이루어지기 때문에 학습자가 자신의 토론과정을 성찰하고 교수자가 학습자들의 토론활동을 관리하기 위해 필요한 정보를 직관적으로 얻기 어려운 단점이 있다(진성희, 유미나, 김태현, 2015). 온라인 토론환경의 제약점을 극복하고 온라인 토론활동을 지원하기 위해서 학습분석을 기반으로 한 대시보드를 제공하는 방안들이 논의되고 있다. 온라인 토론활동을 지원하는 대시보드는 학습자가 작성한 글과 다른 학습자의 글에 작성한 댓글과 답글 등 학습자들이 생성한 방대한 데이터를 유의미한 시각적인 형태로 가공하여 제시하는 것이다. 이러한 대시보드는 학습자가 스스로 토론활동에 대해 성찰함으로써 참여와 상호작용을 촉진하는 데 도움을 제공할 수 있다(조영환, 박현정, 김정연, 석유미, 이신혜, 2015; Pallotta & Delmonte, 2011; Teplovs, 2008).","온라인 토론환경의 제약점을 극복하고 지원하기 위해서 학습분석을 기반으로 한 대시보드를 활용하면 학습자가 작성한 글, 댓글과 답글 등 학습자들이 생성한 방대한 데이터를 시각적으로 가공하여 제시하는 방식이다."
1,A201008161352,section,"전기드릴에 장착하여 사용되는 홀쏘장치는 주로 전등과 스피커 및 화재감지기 등 각종 장치를 천장과 같은 평판에 매설하여 설치하기 위하여 천장과 같은 평판에 소정 크기의 구멍을 뚫어줄 때에 사용되고 있다.종래의 홀쏘장치로서는 국내의 실용신안 공고번호 제20-1990-10985호와 특허 공고번호 제10-1994-10892호 및 공개특허 공개번호 제10-2004-74943호와 등록특허 제10-0473035호 등이 알려져 있다.이들 종래의 홀쏘장치들을 첨부된 도면 도 1을 참조하여 설명한다.종래홀쏘장치(10-1)는 전기드릴(11)의 척(구체적으로 도시하지 아니함)에 장착되는 드라이브샤프트(12)의 선단에 노우즈볼트부(16)와 노우즈플라이휠(18)이 일체로 형성되어 있고, 노우즈플라이휠(18)의 하단에서 드라이브샤프트(2)에는 플라이휠너트(19)가 나사 결합되어 있으며, 노우즈플라이휠(18)에는 하단이 플라이휠너트(19)의 전면에 억류되는 복수 개의 결속봉(19-1)이 일정한 간격으로 끼워져 있다.상기 노우즈볼트부(16)의 전면 중앙에는 센터드릴(21)이 장착되고, 노우즈볼트부(16)의 외측에는 홀쏘본체(20-1)의 중앙의 형성된 결속너트봉에 의해 나사 결합되어 있다.원뿔형헤드(17)의 하측에서 드라이브샤프트(12)에는 먼지비산방지캡(25)이 지지부(26)에 지지링(27)이 끼워진 상태에서 홀쏘본체(20-1)의 외측으로 감싸도록 설치(장착)되어 있다.이와 같이 형성된 종래홀쏘장치(10-1)를 이용하여 천장(1)에 구멍을 뚫어줄 때에 센터드릴(21)을 소정 위치에 고정시킨 상태에서 전기드릴(11)을 작동시켜 홀쏘본체(20-1)를 회전시켜 줌으로서 소정의 크기(지름)로 된 기존구멍(2)을 뚫어줄 수 있게 된다.그러나, 상기와 같이 형성되고 사용되는 종래홀쏘장치(10-1)를 이용하여 기종구멍(2)보다 큰 지름의 확장예정구멍(3)을 뚫어주고자 할 때에는 다음과 같은 문제가 단점으로 지적된다.천장(1)에 뚫어진 기존구멍(2)을 통하여 각목(5)을 천장(1)의 내부(상측)으로 유입시키고, 천장(1)과 각목(5)을 장볼트스크루(6)와 같은 고정수단을 이용하여 고정시키며, 기존의 지름이 작은 홀쏘본체(20-1)를 대신하여 지름이 큰 홀쏘본체(20)로 교체하여 장착시켜 준다.상기와 같이 천장(1)과 각목(5)을 고정수단(장볼트스크루(6))에 의해 일체형으로 고정시킨 상태에서 기존구멍(21)을 통해 센터드릴(21)을 삽입하고, 전기드릴(11)을 작동시켜 센터드릴(21)과 홀쏘본체(20)를 동시에 작동(회전)시켜 센터드릴(21)로 각목(5)을 뚫어줌과 동시에 홀쏘본체(20)에 의해 확장예정구멍(3)을 뚫어주어야 한다. 따라서, 종래홀쏘장치(10-1)를 이용하여 천장(1)에 지름이 큰 확장예정구멍(3)을 뚫어주기 위해서는 각목(5)을 천장(1)의 내부(상측)으로 유입시킨 상태에서 천장(1)과 각목(5)을 장볼트스크루(6)와 같은 고정수단을 이용하여 고정시켜야 하는 번거로움이 있고 시간도 많이 소요되는 문제가 있다.또, 센터드릴(21)로 각목(5)을 뚫어주고 동시에 홀쏘본체(20)에 의해 확장예정구멍(3)을 뚫어 줄 때에 종래홀쏘장치(10-1)를 견실하게 잡아주지 않으면 전기드릴(11)을 포함하여 종래홀쏘장치(10-1)가 흔들리게 되어 확장예정구멍(3)을 용이하고 정확하게 뚫어줄 수 없게 되며, 센터드릴(21)이 각목(5)에 결합(나사 결합)될 때에 위치에 따라 확장예정구멍(3)이 편향되게 뚫어지게되고, 따라서 확장예정구멍(3)을 정확한 위치에 꿇어줄 수 없는 폐단이 있다.","본 발명은 전기드릴에 장착하여 천장과 같은 평판에 소정 크기의 구멍을 관통할 때에 사용되는 홀쏘장치를 개선하여 천장 등에 이미 뚫어져 있는 구멍의 크기(지름)를 더 크게 뚫어줄 때에 사용되는 구멍확개형 홀소장치에 관한 것이다.이를 좀 더 상세히 설명하면, 전기드릴의 척에 장착되는 드라이브샤프트의 선단부에 노우즈볼트부와 노우즈플라이휠을 일체로 형성하고, 노우즈플라이휠의 하측에서 드라이브샤프트에는 플라이휠너트를 나사 결합시키며, 노우즈플라이휠에는 하단이 플라이휠너트의 전면에 억류되도록 복수 개의 결속봉을 일정한 간격으로 유지시켜 끼우며, 노우즈볼트부의 외측에는 홀쏘본체를 나사 결합/분리에 의해 착탈하며, 상기 노우즈볼트부의 하단에 일체로 형성된 드라이브샤프트에 코일스프링과 먼지비산방지캡을 차례로 결합하되, 상기 홀쏘본체를 착탈할 수 있도록 된 노우즈볼트부의 상단 중앙에는 상단에 나사부가 형성된 원뿔형결착구장전봉을 일체로 형성하고, 상기 홀쏘본체의 상측에서 원뿔형결착구장전봉에는 원뿔형결착구탄발용 코일스프링과 원뿔형결착구를 끼워 결합시키며, 원뿔형결착구의 상측으로 돌출되는 원뿔형결착구장전봉의 나사부에 나비너트를 나사 결합시켜서 된 구멍확개형 홀쏘장치를 제공하려는 것이다."
2,A200928012423,section,"최근 스마트폰이 급속도로 확산되면서 생활 환경이 모바일 기반으로 변화되어 가고 있다. 대부분의 사람들이 스마트폰을 휴대하고 생활하기 때문에 내가 원하지 않더라도 해킹 등을 통해 촬영, 녹음, 자료 송ㆍ수신 등이 일어날 수 있다는 우려가 발생하고 있다. 특히, 군사비밀이나 산업기술을 보호하기 위해 軍ㆍ기관 및 기업들에서는 스마트폰을 통제하기 위해 물리적 분리를 포함한 다양한 수단을 사용하고 있지만, 이동성ㆍ개방성을 갖추고도 더욱 안전한 모바일 서비스에 대한 요구가 계속 발생하고 있기 때문에 향후 중요성은 더욱 더 증가될 것으로 전망된다. 한편 정부출연연구소의 업무환경에도 이동통신과 스마트폰 기술의 도입을 통해 새로운 업무나 임무모델과 가치를 창출하려는 소요가 제기되고 있다. 하지만 이동통신 및 스마트폰 기술발전이 급격히 이루어짐에 따라 그 특징을 반영한 보안규정 마련이 아직 미흡한 것이 사실이다. 정부출연연구소 중 국방과학연구소(Agency for Defense Development : ADD)는 軍에서 활용할 무기체계를 연구개발하는 기관으로서 다수의 군사비밀을 보유하고 있는데다 현재 개발중인 최신 국방과학기술이 敵과 외부에 노출되지 않도록 보호해야 하는 연구소의 특성에 따라 국방보안업무훈령에 따른 보안정책을 수립하고 있으며, 자체 인트라넷망과 외부 인터넷망을 차단하는 보안시스템을 구축하고 있다.","스마트폰이 확산되면서 생활 환경이 모바일 기반으로 변화되어 간다. 군사비밀이나 산업기술을 보호하려고 軍ㆍ기관 및 기업들에서는 스마트폰을 통제하기 위해 다양한 수단을 사용하지만, 이동성ㆍ개방성을 갖추고도 안전한 모바일 서비스에 대한 요구가 계속 발생한다. 정부출연연구소의 업무환경에도 이동통신과 스마트폰 기술의 도입을 통해 새로운 업무나 임무모델과 가치를 창출하려는 소요가 제기되고 있다."
3,A220223590039,section,"2013년 10월, 소풍날 아침에 거짓말을 한다는 이유로 수차례의 폭행을 당해 아동이 사망한 ‘울산계모 아동학대 사건’은 우리사회에 큰 반향을 불러일으켰다. 이는 당시 피해아동이 경험한 학대의 강도뿐만이 아니라, 그러한 학대가 우연한 사고 혹은 훈육행동으로 위장되어 몇 년간 반복되어 왔다는 점에서 더욱 충격적인 것이었다. 이에 동년 12월에 ‘아동학대범죄의 처벌 등에 관한 특례법이 제정되었고, 이듬해 9월부터 시행되어 왔다. 아동학대처벌법은 종전 아동보호서비스 개입과 지원업무 전반에 많은 변화를 가져왔다. 대표적인 것이 해당 법으로 인해 아동학대 대응 혹은 학대아동보호에 실효성과 강제성이 부여되었다는 점이다. 종전 아동보호서비스는 아동보호전문기관 중심의 전개가 대부분이었지만, 동법 시행 이후부터는 경찰과 법원의 개입이 병행되며 공공성을 확보하고 있다. 일례로 현재 학대 신고 이후의 현장조사에는 아동보호 전문기관의 상담원과 경찰이 동행하며, 즉각적인 학대행위의 제지, 행위자 격리, 피해 아동의 보호 및 의료시설로의 인도에서부터 퇴거, 접근금지, 친권 및 후견인 제한과 정지 등의 추후조치 등을 결정한다.","아동학대처벌법은 종전 아동보호서비스 개입과 지원업무 전반에 많은 변화를 가져왔다. 대표적으로 아동학대 대응 혹은 학대아동보호에 실효성과 강제성이 부여되었다는 점이다. 종전 아동보호서비스는 아동보호전문기관 중심이었지만, 동법 시행 이후부터는 경찰과 법원의 개입이 병행되며 공공성을 확보하고 있다."
4,A201007152972,section,"정보화 사회가 발전함에 따라 화상을 표시하기 위한 표시장치에 대한 요구가 다양한 형태로 증가하고 있으며, 근래에는 액정표시장치(LCD : liquid crystal display), 플라즈마표시장치(PDP : plasma display panel), 유기발광소자 (OLED : organic light emitting diode)와 같은 여러가지 평판표시장치(flat display device)가 활용되고 있다.이들 평판표시장치 중에서, 액정표시장치는 소형화, 경량화, 박형화, 저전력 구동의 장점을 가지고 있어 현재 널리 사용되고 있다.일반적으로 액정표시장치(Liquid Crystal Display; LCD)는 전계를 이용하여 유전 이방성을 갖는 액정의 광투과율을 조절함으로써 화상을 표시한다. 이러한 액정표시장치는 크게 컬러필터(color filter) 기판과 어레이(array) 기판 및 상기 컬러필터 기판과 어레이 기판 사이에 형성된 액정층(liquid crystal layer)으로 구성된다.이하, 도 1을 참조하여 일반적인 액정표시장치의 구조에 대해서 상세히 설명한다.도 1은 종래 어레이 기판을 나타내는 평면도이다.도 1에 도시된 바와 같이, 어레이 기판(10)은 종횡으로 배열되어 복수 개의 화소 영역을 정의하는 복수 개의 게이트 라인(12)과 데이터 라인(16), 게이트 라인(12)과 데이터 라인(16)의 교차영역에 형성된 스위칭 소자인 박막 트랜지스터(TFT) 및 화소 영역 위에 형성된 화소 전극(17)으로 이루어진다.또한, 어레이 기판(10) 상에는 게이트 전극(12a)이 형성되어 있으며, 게이트 전극(12a) 위에는 게이트 절연막(미도시)이 형성되어 있다. 게이트 절연막 위에는 액티브층(14)이 형성되어 있으며, 액티브층(14) 위에는 소스 및 드레인 전극(16a, 16b)이 형성되어 있다. 드레인 전극(16b) 위에는 평판 형태의 화소전극(17)이 형성되어 있고, 화소 전극(17) 위에는 보호막(미도시)이 형성되어 있으며, 보호막 위에는 일정 간격을 갖는 다수의 핑거 패턴(finger pattern, 19a)을 포함하는 공통 전극(19)이 형성되어 있다.도면에 도시되지 않았으나, 어레이 기판(10)과 대향 배치되는 컬러필터 기판은 적(Red; R), 녹(Green; G) 및 청(Blue; B)의 색상을 구현하는 다수의 서브-컬러필터로 구성된 컬러필터(미도시)와 서브-컬러필터 사이를 구분하고 액정층(미도시)을 투과하는 광을 차단하는 블랙매트릭스(black matrix)(미도시), 그리고 액정층에 전압을 인가하는 투명한 공통전극(미도시)으로 이루어져 있다.도 1의 A에서와 같이, 다수의 핑거 패턴(19a)으로 형성된 공통 전극(19)의 상단과 하단의 끝부분에 화소 전극(17)이 형성되어 있어 핑거 패턴(19a)의 중앙 부분은 x축과 z축 방향의 전계(electric field)가 발생하게 되고, 핑거 패턴(19a)의 상단과 하단의 끝부분에서는 x축과 z축 방향 및 y축과 z축 방향의 전계도 작용하게 된다. 이에 따라 공통 전극(19)의 중앙 부분과 상단과 하단의 끝부분에서 액정 분자들이 응답하는 방향에 차이가 생기게 되고, 불연속적인 도메인을 형성하게 되며, 도메인의 경계에서 빛의 누설이 생기게 된다. 이로 인해 역틸트(reverse tilt)가 생겨 디스클리네이션이 발생하게 되는 문제점이 있다.","본 발명은 액정표시장치 및 이의 제조방법에 관한 것으로, 보다 상세하게는 공통 전극의 상단과 하단의 끝부분에서 디스클리네이션(disclination)의 발생을 최소화 하여 개구부의 투과율을 개선할 수 있는 액정표시장치 및 이의 제조방법에 관한 것이다."


The metric is an instance of [`datasets.Metric`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasets.Metric):

In [13]:
metric

Metric(name: "rouge", features: {'predictions': Value(dtype='string', id='sequence'), 'references': Value(dtype='string', id='sequence')}, usage: """
Calculates average rouge scores for a list of hypotheses and references
Args:
    predictions: list of predictions to score. Each prediction
        should be a string with tokens separated by spaces.
    references: list of reference for each prediction. Each
        reference should be a string with tokens separated by spaces.
    rouge_types: A list of rouge types to calculate.
        Valid names:
        `"rouge{n}"` (e.g. `"rouge1"`, `"rouge2"`) where: {n} is the n-gram based scoring,
        `"rougeL"`: Longest common subsequence based scoring.
        `"rougeLSum"`: rougeLsum splits text using `"
"`.
        See details in https://github.com/huggingface/datasets/issues/617
    use_stemmer: Bool indicating whether Porter stemmer should be used to strip word suffixes.
    use_aggregator: Return aggregates if this is set to True
Retu

You can call its `compute` method with your predictions and labels, which need to be list of decoded strings:

In [14]:
fake_preds = ["hello there", "general kenobi"]
fake_labels = ["hello there", "general kenobi"]
metric.compute(predictions=fake_preds, references=fake_labels)

{'rouge1': AggregateScore(low=Score(precision=1.0, recall=1.0, fmeasure=1.0), mid=Score(precision=1.0, recall=1.0, fmeasure=1.0), high=Score(precision=1.0, recall=1.0, fmeasure=1.0)),
 'rouge2': AggregateScore(low=Score(precision=1.0, recall=1.0, fmeasure=1.0), mid=Score(precision=1.0, recall=1.0, fmeasure=1.0), high=Score(precision=1.0, recall=1.0, fmeasure=1.0)),
 'rougeL': AggregateScore(low=Score(precision=1.0, recall=1.0, fmeasure=1.0), mid=Score(precision=1.0, recall=1.0, fmeasure=1.0), high=Score(precision=1.0, recall=1.0, fmeasure=1.0)),
 'rougeLsum': AggregateScore(low=Score(precision=1.0, recall=1.0, fmeasure=1.0), mid=Score(precision=1.0, recall=1.0, fmeasure=1.0), high=Score(precision=1.0, recall=1.0, fmeasure=1.0))}

## Preprocessing the data

Before we can feed those texts to our model, we need to preprocess them. This is done by a 🤗 Transformers `Tokenizer` which will (as the name indicates) tokenize the inputs (including converting the tokens to their corresponding IDs in the pretrained vocabulary) and put it in a format the model expects, as well as generate the other inputs that the model requires.

To do all of this, we instantiate our tokenizer with the `AutoTokenizer.from_pretrained` method, which will ensure:

- we get a tokenizer that corresponds to the model architecture we want to use,
- we download the vocabulary used when pretraining this specific checkpoint.

That vocabulary will be cached, so it's not downloaded again the next time we run the cell.

In [15]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, padding='longest')

Downloading (…)okenizer_config.json:   0%|          | 0.00/1.95k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.92M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/1.79k [00:00<?, ?B/s]

By default, the call above will use one of the fast tokenizers (backed by Rust) from the 🤗 Tokenizers library.

You can directly call this tokenizer on one sentence or a pair of sentences:

In [16]:
tokenizer("Hello, this one sentence!")

{'input_ids': [41, 70, 26621, 13, 222, 12339, 222, 6300, 222, 84, 40681, 4464, 13001, 2, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Depending on the model you selected, you will see different keys in the dictionary returned by the cell above. They don't matter much for what we're doing here (just know they are required by the model we will instantiate later), you can learn more about them in [this tutorial](https://huggingface.co/transformers/preprocessing.html) if you're interested.

Instead of one sentence, we can pass along a list of sentences:

In [17]:
tokenizer(["Hello, this one sentence!", "This is another sentence."])

{'input_ids': [[41, 70, 26621, 13, 222, 12339, 222, 6300, 222, 84, 40681, 4464, 13001, 2, 1], [53, 73, 4502, 222, 4502, 222, 3415, 22754, 222, 84, 40681, 4464, 13001, 15, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

To prepare the targets for our model, we need to tokenize them inside the `as_target_tokenizer` context manager. This will make sure the tokenizer uses the special tokens corresponding to the targets:

In [18]:
with tokenizer.as_target_tokenizer():
    print(tokenizer(["Hello, this one sentence!", "This is another sentence."]))

{'input_ids': [[41, 70, 26621, 13, 222, 12339, 222, 6300, 222, 84, 40681, 4464, 13001, 2, 1], [53, 73, 4502, 222, 4502, 222, 3415, 22754, 222, 84, 40681, 4464, 13001, 15, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}




If you are using one of the five T5 checkpoints we have to prefix the inputs with "summarize:" (the model can also translate and it needs the prefix to know which task it has to perform).

In [2]:
if 't5' in model_checkpoint:
    prefix = "summarize: "
    print('t5')
else:
    prefix = ""

t5


We can then write the function that will preprocess our samples. We just feed them to the `tokenizer` with the argument `truncation=True`. This will ensure that an input longer that what the model selected can handle will be truncated to the maximum length accepted by the model. The padding will be dealt with later on (in a data collator) so we pad examples to the longest length in the batch and not the whole dataset.

In [20]:
max_input_length = 512
max_target_length = 256

def preprocess_function(examples):
    inputs = [prefix + doc for doc in examples["original_text"]]
    model_inputs = tokenizer(inputs, padding='longest', max_length=max_input_length, truncation=True)

    # Setup the tokenizer for targets
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(examples["summary_text"], padding='longest', max_length=max_target_length, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

This function works with one or several examples. In the case of several examples, the tokenizer will return a list of lists for each key:

In [21]:
preprocess_function(raw_datasets['train'][:2])

{'input_ids': [[7675, 78, 20359, 74, 26159, 27, 222, 831, 49895, 311, 222, 160, 224, 248, 3461, 278, 222, 538, 222, 398, 291, 222, 3998, 588, 15, 160, 224, 249, 274, 222, 3461, 222, 3427, 262, 222, 699, 302, 222, 774, 222, 2291, 15, 18, 6, 293, 222, 1526, 1168, 422, 222, 417, 222, 985, 222, 15016, 222, 2535, 1050, 222, 3461, 302, 222, 2716, 333, 222, 11474, 411, 222, 34715, 302, 222, 3010, 291, 222, 1896, 411, 222, 398, 291, 222, 6375, 2300, 9, 831, 49895, 13, 222, 2291, 3186, 66, 10, 15, 222, 865, 341, 222, 624, 222, 1271, 9, 2291, 3186, 27, 222, 3845, 18, 14, 3845, 19, 10, 301, 222, 53, 34, 45, 42, 52, 222, 2291, 3845, 1287, 333, 222, 3654, 1050, 222, 1682, 403, 373, 222, 1700, 222, 3461, 222, 3998, 222, 3427, 291, 222, 4148, 293, 222, 3461, 302, 222, 5970, 1655, 21528, 222, 1979, 222, 3776, 222, 1823, 893, 222, 3109, 2300, 15, 222, 831, 49895, 311, 222, 2365, 26, 22, 482, 222, 22, 15, 4406, 936, 4286, 291, 222, 15633, 222, 1310, 5257, 8263, 222, 8127, 13, 222, 6208, 222, 5612, 222, 

To apply this function on all the pairs of sentences in our dataset, we just use the `map` method of our `dataset` object we created earlier. This will apply the function on all the elements of all the splits in `dataset`, so our training, validation and testing data will be preprocessed in one single command.

In [22]:
tokenized_datasets = raw_datasets.map(preprocess_function, batched=True)

  0%|          | 0/283 [00:00<?, ?ba/s]

  0%|          | 0/37 [00:00<?, ?ba/s]

Even better, the results are automatically cached by the 🤗 Datasets library to avoid spending time on this step the next time you run your notebook. The 🤗 Datasets library is normally smart enough to detect when the function you pass to map has changed (and thus requires to not use the cache data). For instance, it will properly detect if you change the task in the first cell and rerun the notebook. 🤗 Datasets warns you when it uses cached files, you can pass `load_from_cache_file=False` in the call to `map` to not use the cached files and force the preprocessing to be applied again.

Note that we passed `batched=True` to encode the texts by batches together. This is to leverage the full benefit of the fast tokenizer we loaded earlier, which will use multi-threading to treat the texts in a batch concurrently.

## Fine-tuning the model

Now that our data is ready, we can download the pretrained model and fine-tune it. Since our task is of the sequence-to-sequence kind, we use the `AutoModelForSeq2SeqLM` class. Like with the tokenizer, the `from_pretrained` method will download and cache the model for us.

In [23]:
from transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainingArguments, Seq2SeqTrainer

model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)



Downloading (…)lve/main/config.json:   0%|          | 0.00/726 [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/383M [00:00<?, ?B/s]

Note that  we don't get a warning like in our classification example. This means we used all the weights of the pretrained model and there is no randomly initialized head in this case.

To instantiate a `Seq2SeqTrainer`, we will need to define three more things. The most important is the [`Seq2SeqTrainingArguments`](https://huggingface.co/transformers/main_classes/trainer.html#transformers.Seq2SeqTrainingArguments), which is a class that contains all the attributes to customize the training. It requires one folder name, which will be used to save the checkpoints of the model, and all other arguments are optional:

In [25]:
import random
batch_size = 8
model_name = model_checkpoint.split("/")[-1]
args = Seq2SeqTrainingArguments(
    f"{model_name}-finetuned-paper-{random.randint(0, 99999999)}",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=3,
    predict_with_generate=True,
    fp16=True,
    #gradient_checkpointing=True,
    gradient_accumulation_steps=4,
    push_to_hub=True,
    group_by_length=True
)

Here we set the evaluation to be done at the end of each epoch, tweak the learning rate, use the `batch_size` defined at the top of the cell and customize the weight decay. Since the `Seq2SeqTrainer` will save the model regularly and our dataset is quite large, we tell it to make three saves maximum. Lastly, we use the `predict_with_generate` option (to properly generate summaries) and activate mixed precision training (to go a bit faster).

The last argument to setup everything so we can push the model to the [Hub](https://huggingface.co/models) regularly during training. Remove it if you didn't follow the installation steps at the top of the notebook. If you want to save your model locally in a name that is different than the name of the repository it will be pushed, or if you want to push your model under an organization and not your name space, use the `hub_model_id` argument to set the repo name (it needs to be the full name, including your namespace: for instance `"sgugger/t5-finetuned-xsum"` or `"huggingface/t5-finetuned-xsum"`).

Then, we need a special kind of data collator, which will not only pad the inputs to the maximum length in the batch, but also the labels:

In [26]:
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

The last thing to define for our `Seq2SeqTrainer` is how to compute the metrics from the predictions. We need to define a function for this, which will just use the `metric` we loaded earlier, and we have to do a bit of pre-processing to decode the predictions into texts:

In [27]:
import nltk
import numpy as np

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    # Replace -100 in the labels as we can't decode them.
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    
    # Rouge expects a newline after each sentence
    decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
    
    result = metric.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
    # Extract a few results
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
    
    # Add mean generated length
    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)
    
    return {k: round(v, 4) for k, v in result.items()}

Then we just need to pass all of this along with our datasets to the `Seq2SeqTrainer`:

In [28]:
trainer = Seq2SeqTrainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

Cloning https://huggingface.co/alphahg/pko-t5-small-finetuned-paper-53292179 into local empty directory.


We can now finetune our model by just calling the `train` method:

In [None]:
trainer.train()

The following columns in the training set don't have a corresponding argument in `T5ForConditionalGeneration.forward` and have been ignored: summary_text, original_text, summary_type, doc_id. If summary_text, original_text, summary_type, doc_id are not expected by `T5ForConditionalGeneration.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 282580
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 32
  Gradient Accumulation steps = 4
  Total optimization steps = 26490
  Number of trainable parameters = 95628672
You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient c

Epoch,Training Loss,Validation Loss


[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
`use_cache=True` is incompatible with gr

You can now upload the result of the training to the Hub, just execute this instruction:

In [None]:
trainer.push_to_hub()

You can now share this model with all your friends, family, favorite pets: they can all load it with the identifier `"your-username/the-name-you-picked"` so for instance:

```python
from transformers import AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("sgugger/my-awesome-model")
```

In [None]:
trainer.evaluate()