# 문서요약 데이터셋

Train 데이터셋의 크기가 600MB 정도 되기 때문에 gitignore에 등록하여 github에는 올라가지 않도록 설정하였습니다. <br>
각자 아래 경로의 형태에 맞게 데이터셋을 위치시키면 됩니다.

- 코드 구조

```
kobart/
    └─ data/ # 이 부분을 직접 만들어야 함
        ├─ train.jsonl
        ├─ dev.jsonl
        └─ test.jsonl
    ├─ config.py
    ├─ dataset.py
    ├─ main.py
    ├─ trainer.py
    ├─ utils.py
    └─ data_sample.ipynb
    
```

## 1. 경로 설정

In [2]:
import os

root_pth = "./data"

train_pth = os.path.join(root_pth, "train.jsonl")
dev_pth = os.path.join(root_pth, "dev.jsonl")
test_pth = os.path.join(root_pth, "test.jsonl")

print(train_pth)
print(dev_pth)
print(test_pth)

./data/train.jsonl
./data/dev.jsonl
./data/test.jsonl


## 2. 파일 읽어오기

In [3]:
# train
with open(train_pth, "r", encoding="utf-8") as f:
    jsonl_train = list(f)

# dev
with open(dev_pth, "r", encoding="utf-8") as f:
    jsonl_dev = list(f)

# test
with open(test_pth, "r", encoding="utf-8") as f:
    jsonl_test = list(f)

print("데이터셋 수 (train / dev / test)")
print(len(jsonl_train), len(jsonl_dev), len(jsonl_test))

데이터셋 수 (train / dev / test)
260697 10000 10000


In [4]:
# 샘플 확인
jsonl_dev[0]

'{"media": "전북일보", "id": "344987770", "article_original": ["그룹 위키미키(Weki Meki)가 드디어 오늘(14일) 두 번째 싱글 앨범을 발표하며 컴백한다.", "지난해 10월 발매한 첫 번째 싱글 앨범 \'KISS, KICKS(키스, 킥스)\' 이후 약 7개월만에 발매되는 이번 앨범 \'LOCK END LOL(락앤롤)\'은 위키미키의 극대화 된 틴크러쉬 매력을 만나 볼 수 있다고 알려져 발매 전부터 팬들을 설레게 했다.", "이 가운데 위키미키가 컴백을 하루 앞둔 지난 13일 공식 SNS채널을 통해 두 번째 싱글 앨범의 타이틀 곡 \'Picky Picky(피키피키)\' 뮤직비디오 2차 티저 영상을 공개해 컴백에 대한 기대치를 최고로 끌어올렸다.", "해당 영상 속 위키미키는 앞서 공개된 뮤직비디오 티저에 이어 러블리 갱스터에서 스쿨걸로 변신, 학교에 잠입해 각자의 캐릭터에 몰입하고 있다.", "교실에서의 \'하이틴 크러쉬(HIGH TEEN-CRUSH)\' 매력이 넘치는 위키미키의 모습은 보는 이들의 시선을 사로잡는다.", "특히, 2차 티저 영상에는 타이틀곡 \'Picky Picky\' 안무와 함께 짧지만, 중독성 있는 멜로디의 일부가 공개되면서 신곡에 대한 기대감을 한층 높였다.", "위키미키의 타이틀곡 \'Picky Picky\'는 펑키한 트랙에 \'Picky Pikcy\'라는 중독성 있는 훅이 매력적인 곡이다.", "그뿐만 아니라 티저를 통해 공개된 \'Like it, don\'t like it. Luv it, don\'t want it. Weki Meki, I\'m so Picky\'라는 가사에서 보여주듯 호불호를 당당하게 표현하는 동시에 위키미키의 파워 넘치는 \'틴크러쉬\'의 완결을 보여줄 예정이다.", "위키미키는 오늘(14일) 오후 6시 두 번째 싱글 앨범 \'LOCK END LOL\'을 정식 발매한다.", "이번 앨범은 타이틀곡 \'Picky Picky\'를 비롯한 총 3곡이 수록되었으며 다채로

## 3. JSON 전처리

형식이 같기 때문에 dev data에 대해서만 수행하겠습니다.

In [5]:
import json

dev_data = [json.loads(json_str) for json_str in jsonl_dev]

In [6]:
# 샘플 확인
dev_data[0]

{'media': '전북일보',
 'id': '344987770',
 'article_original': ['그룹 위키미키(Weki Meki)가 드디어 오늘(14일) 두 번째 싱글 앨범을 발표하며 컴백한다.',
  "지난해 10월 발매한 첫 번째 싱글 앨범 'KISS, KICKS(키스, 킥스)' 이후 약 7개월만에 발매되는 이번 앨범 'LOCK END LOL(락앤롤)'은 위키미키의 극대화 된 틴크러쉬 매력을 만나 볼 수 있다고 알려져 발매 전부터 팬들을 설레게 했다.",
  "이 가운데 위키미키가 컴백을 하루 앞둔 지난 13일 공식 SNS채널을 통해 두 번째 싱글 앨범의 타이틀 곡 'Picky Picky(피키피키)' 뮤직비디오 2차 티저 영상을 공개해 컴백에 대한 기대치를 최고로 끌어올렸다.",
  '해당 영상 속 위키미키는 앞서 공개된 뮤직비디오 티저에 이어 러블리 갱스터에서 스쿨걸로 변신, 학교에 잠입해 각자의 캐릭터에 몰입하고 있다.',
  "교실에서의 '하이틴 크러쉬(HIGH TEEN-CRUSH)' 매력이 넘치는 위키미키의 모습은 보는 이들의 시선을 사로잡는다.",
  "특히, 2차 티저 영상에는 타이틀곡 'Picky Picky' 안무와 함께 짧지만, 중독성 있는 멜로디의 일부가 공개되면서 신곡에 대한 기대감을 한층 높였다.",
  "위키미키의 타이틀곡 'Picky Picky'는 펑키한 트랙에 'Picky Pikcy'라는 중독성 있는 훅이 매력적인 곡이다.",
  "그뿐만 아니라 티저를 통해 공개된 'Like it, don't like it. Luv it, don't want it. Weki Meki, I'm so Picky'라는 가사에서 보여주듯 호불호를 당당하게 표현하는 동시에 위키미키의 파워 넘치는 '틴크러쉬'의 완결을 보여줄 예정이다.",
  "위키미키는 오늘(14일) 오후 6시 두 번째 싱글 앨범 'LOCK END LOL'을 정식 발매한다.",
  "이번 앨범은 타이틀곡 'Picky Picky'를 비롯한 총 3곡이 수록되었으며 다채로운 위키미키

In [7]:
dev_data[0].keys()

dict_keys(['media', 'id', 'article_original', 'abstractive', 'extractive'])

우리가 여기서 사용할 key는 'article_original', 'abstractive' 입니다. <br>
따라서 source와 target을 아래와 같이 구성합니다.

In [8]:
src = [d["article_original"] for d in dev_data]
tgt = [d["abstractive"] for d in dev_data]
assert len(src) == len(tgt)

In [9]:
# 최종 source 샘플 확인
src[0]

['그룹 위키미키(Weki Meki)가 드디어 오늘(14일) 두 번째 싱글 앨범을 발표하며 컴백한다.',
 "지난해 10월 발매한 첫 번째 싱글 앨범 'KISS, KICKS(키스, 킥스)' 이후 약 7개월만에 발매되는 이번 앨범 'LOCK END LOL(락앤롤)'은 위키미키의 극대화 된 틴크러쉬 매력을 만나 볼 수 있다고 알려져 발매 전부터 팬들을 설레게 했다.",
 "이 가운데 위키미키가 컴백을 하루 앞둔 지난 13일 공식 SNS채널을 통해 두 번째 싱글 앨범의 타이틀 곡 'Picky Picky(피키피키)' 뮤직비디오 2차 티저 영상을 공개해 컴백에 대한 기대치를 최고로 끌어올렸다.",
 '해당 영상 속 위키미키는 앞서 공개된 뮤직비디오 티저에 이어 러블리 갱스터에서 스쿨걸로 변신, 학교에 잠입해 각자의 캐릭터에 몰입하고 있다.',
 "교실에서의 '하이틴 크러쉬(HIGH TEEN-CRUSH)' 매력이 넘치는 위키미키의 모습은 보는 이들의 시선을 사로잡는다.",
 "특히, 2차 티저 영상에는 타이틀곡 'Picky Picky' 안무와 함께 짧지만, 중독성 있는 멜로디의 일부가 공개되면서 신곡에 대한 기대감을 한층 높였다.",
 "위키미키의 타이틀곡 'Picky Picky'는 펑키한 트랙에 'Picky Pikcy'라는 중독성 있는 훅이 매력적인 곡이다.",
 "그뿐만 아니라 티저를 통해 공개된 'Like it, don't like it. Luv it, don't want it. Weki Meki, I'm so Picky'라는 가사에서 보여주듯 호불호를 당당하게 표현하는 동시에 위키미키의 파워 넘치는 '틴크러쉬'의 완결을 보여줄 예정이다.",
 "위키미키는 오늘(14일) 오후 6시 두 번째 싱글 앨범 'LOCK END LOL'을 정식 발매한다.",
 "이번 앨범은 타이틀곡 'Picky Picky'를 비롯한 총 3곡이 수록되었으며 다채로운 위키미키 멤버들의 모습을 만나 볼 수 있다.",
 '한편, 위키미키는 오늘 쇼케이스를 시작으로 본격적인 활동에 돌입한다.']

In [10]:
# 최종 target 샘플 확인
tgt[0]

"지난 13일 뮤직비디오 티저 영상을 통해 하이틴 크러쉬의 매력을 보여주며 기대치를 끌어올린 그룹 위키미키가 오늘(14일) 펑키한 트랙의 중독성 있는 훅을 가진 ' Picky Picky(피키피키)' 로 두번째 싱글 앨범을 발표하며 컴백한다."

> Raw 데이터 전처리가 완료되었습니다. 이제 이 데이터에 tokenizing, vocab 구축 등의 작업을 수행할 수 있습니다.