Skip to content

KorPatBART: A Korean Patent Pre-trained Model for Generating Text from Patent Documents with BART

Notifications You must be signed in to change notification settings

na2na8/KorPatBART

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KorPatBART: A Korean Patent Pre-trained Model for Generating Text from Patent Documents with BART

KorPatBART: 특허 문서 텍스트 생성을 위한 한국어 특허 도메인 사전학습 BART 모델

논문 : 한국정보과학회 2023 KSC(한국소프트웨어종합학술대회)

Abstract

특허 문서는 일반 문서와 사용하는 단어, 문법이 다르기 때문에 일반 도메인에서 학습 언어 모델은 특허 도메인의 자연어 처리 태스크를 수행하기 어렵다. KorPatELECTRA는 특허 도메인 문서로 사전학습하여 특허 도메인의 자연어 처리 태스크에서 우수한 성능을 달성하였다. 그러나 인코더 모델 기반 특성상 해당 모델로는 특허 문서 생성이 어렵다는 문제점이 있다. 본 연구에서는 이를 해결하기 위해 생성 성능이 뛰어난 인코더-디코더 기반 한국어 언어 모델인 KoBART를 특허명세서 데이터로 사전학습한 특허 도메인 자연어 처리 모델인 KorPatBART를 제안한다. 제안하는 방법은 특허 도메인에서 생성 태스크인 요약과 번역에서 우수한 성능을 보여주었다.

KorPatBART

KorPatBART는 특허 도메인에서의 문서 생성을 최적화하기 위해 한국어 BART 모델인 KoBART를 특허명세서 데이터로 사전학습한 언어모델이다.

Pre-training Dataset

2013년~2021년도 특허명세서 데이터 약 135만 건

image

Experiments

image

image

image

About

KorPatBART: A Korean Patent Pre-trained Model for Generating Text from Patent Documents with BART

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published