Skip to content

코퍼스

krikit edited this page Dec 29, 2018 · 1 revision

세종 코퍼스

세종 코퍼스는 국립국어원에서 1998년부터 2007년까지 10년간 진행한 "21세기 세종계획" 사업의 결과물 중 코퍼스 부분을 말합니다. 여기에는 다양한 코퍼스가 있지만 그중에서 형태 분석 말뭉치가 바로 khaiii의 학습 데이터입니다. 세종 코퍼스에 관한 자세한 내용은 황용주 님이 새국어생활에 2016년에 게재한 글을 참고하시기 바랍니다. [참고: 황용주 2016]

세종 결과물 배포 이후 이를 활용한 여러 논문이 발표되고, 여러 차례 시스템 경진대회의 개최와 오픈소스 바람으로 인해 세종 코퍼스와 품사 집합은 사실상 표준으로 자리 잡고 있습니다. 그러나 천만 어절이라는 방대한 양에 걸맞게 오류 또한 많이 포함하고 있습니다.

문종 프로젝트

저희 카카오에서는 이러한 오류 중 약 30만 개 이상의 어절을 수정하였고 여전히 발견되는 오류를 수정하고 있습니다. 내부적으로 저희는 "문종 프로젝트"라는 이름으로 진행하고 있습니다. 그리고 문종 프로젝트의 결과물을 공개하여 협력을 통해 발전해 가고자 제안을 드렸지만, 아쉽게도 저작권 문제로 그렇게 할 수 없게 되었습니다. [참고: 한경은 2017]

학습 코퍼스

세종 코퍼스를 수정한 천만 어절에 더해 저희가 자체적으로 구축한 6만 어절의 코퍼스를 합하여 학습에 사용했습니다. CNN 모델 문서에서 설명한 음절과 형태소의 정렬을 거치고 나면 최종적으로 약 85만 문장, 1,003만 어절이 전체 학습 코퍼스입니다. 이 중 1만 문장을 제외하고 학습을 하고, 1만 문장은 다시 5천 문장씩 나눠 각각 dev, test 코퍼스로 활용했습니다.

품사 집합

분류 품사 설명 분류 품사 설명
체언 NNG 일반 명사 의존 형태 EP 선어말 어미
체언 NNP 고유 명사 의존 형태 EF 종결 어미
체언 NNB 의존 명사 의존 형태 EC 연결 어미
체언 NP 대명사 의존 형태 ETN 명사형 전성 어미
체언 NR 수사 의존 형태 ETM 관형형 전성 어미
용언 VV 동사 의존 형태 XPN 체언 접두사
용언 VA 형용사 의존 형태 XSN 명사 파생 접미사
용언 VX 보조 용언 의존 형태 XSV 동사 파생 접미사
용언 VCP 긍정 지정사 의존 형태 XSA 형용사 파생 접미사
용언 VCN 부정 지정사 의존 형태 XR 어근
수식언 MM 관형사 기호 SF 마침표, 물음표, 느낌표
수식언 MAG 일반 부사 기호 SP 쉼표, 가운뎃점, 콜론, 빗금
수식언 MAJ 접속 부사 기호 SS 따옴표, 괄호표, 줄표
독립언 IC 감탄사 기호 SE 줄임표
관계언 JKS 주격 조사 기호 SO 붙임표(물결, 숨김, 빠짐)
관계언 JKC 보격 조사 기호 SL 외국어
관계언 JKG 관형격 조사 기호 SH 한자
관계언 JKO 목적격 조사 기호 SW 기타 기호(논리, 수학 기호, 화폐 기호 등)
관계언 JKB 부사격 조사 기호 SWK 한글 자소
관계언 JKV 호격 조사 기호 SN 숫자
관계언 JKQ 인용격 조사 추정 ZN 분석 불능(명사 추정)
관계언 JX 보조사 추정 ZV 분석 불능(용언 추정)
관계언 JC 접속 조사 추정 ZZ 분석 불능(기타)

세종 코퍼스의 품사 집합을 대부분 그대로 따르고 있지만, SWK, ZN, ZV, ZZ 4가지만 원본 품사 집합과 다릅니다. ZN, ZV, ZZ는 세종 품사 집합에서 각각 NF, NV, NA와 동일합니다. SWK의 경우 한글 자모만으로 이뤄진 형태소에 한해 사용했고 SW에 완전히 포함되는 하위 품사입니다.

NF, NV의 경우 품사는 정의되어 있지만 세종 코퍼스에 한 번도 나타나지 않습니다. 추정 범주에 해당하는 품사는 NA만 나타나고 있는데, 저희는 한글 자모가 나타나거나 띄어쓰기 오타에 한해 제한적으로 사용하였습니다. 아래는 그러한 예시들입니다.

어절 형태소 분석
생ㄱ가한다 생ㄱ가/ZN + 하/XSV + ㄴ다/EC
최그ㅓㄴ 최그ㅓㄴ/ZN
가운ㄷㅔ과거 가운ㄷㅔ/ZN + 과거/NNG
쓴ㄷ 쓴ㄷ/ZV
씃다 씃다/ZV
규모ㅂ니다 규모/NNG + ㅂ니다/ZZ
가ㄴㅡ데 가/VV + ㄴㅡ데/ZZ
증권가에서는ㄴ 증권가/NNG + 에서/JKB + 는/JX + ㄴ/SWK

참고 문헌

  • [황용주 2016] 21세기 세종 말뭉치 제대로 살펴보기
  • [한경은 2017] 공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법