Skip to content

위키백과에 있는 키워드를 분류 정리한 Repo 입니다.

Notifications You must be signed in to change notification settings

dreamyoungs/wiki-keywords

Repository files navigation

위키백과 키워드 JSONL 데이터셋

AI 기반 위키백과 사이트 오늘의AI위키 (https://wiki.onul.works/) 를 개발하고 있으며, 해당 사이트에서 사용될 위키백과 키워드 JSONL 데이터셋을 공유합니다.

오늘의AI위키 는 AI를 이용하여 위키백과를 직접 구성하는 것을 목표로 개발 중인 프로젝트입니다. 현재 개발이 진행 중이며, 일반 사용자에게도 공개되어 누구나 자유롭게 접근하고 이용할 수 있습니다. 많은 관심과 방문 부탁드립니다! 😊

본 저장소는 사이트 개발에 사용되는 핵심 데이터인 위키백과 키워드 데이터셋을 제공합니다. 데이터셋은 JSONL (JSON Lines) 형식으로 구성되어 있으며, 각 키워드는 한국어, 영어, 일본어 제목과 함께, 카테고리 정보(type) 및 LLM으로 생성된 간단한 요약 정보를 포함하고 있습니다.

데이터 포맷

데이터는 JSONL (JSON Lines) 형식으로 구성되어 있으며, 각 라인은 다음과 같은 JSON 객체 형태를 가집니다.

{
    "title":{
        "ko":"신세키역",
        "en":"Shinseki Station",
        "ja":"新関駅"
    },
    "type":"지명",
    "summary":"신세키역은 1954년 여객역으로 개업하여 2면 상대식 승강장과 1선 스루 배선 방식을 사용하며, 1987년 동일본 여객철도 관할이 되었고 2008년 Suica 사용이 가능해진 무인역이다."
}
  • title: 키워드의 제목을 다양한 언어로 제공합니다.
    • ko: 한국어 제목
    • en: 영어 제목
    • ja: 일본어 제목
  • type: 키워드의 카테고리를 나타냅니다. (예: 인물, 지명, 영화 등)
  • summary: 키워드에 대한 간략한 요약 설명입니다. 주의: 요약은 LLM(Large Language Model)을 통해 자동 생성되었으므로, 부정확하거나 일부 내용이 깨져 보이는 경우가 있을 수 있습니다. 이 점 참고하여 활용해 주시기 바랍니다.

카테고리 종류 및 포함 갯수

데이터셋은 다양한 카테고리의 키워드를 포함하고 있으며, 각 카테고리별 갯수는 다음과 같습니다.

카테고리 갯수
인물 132215
지명 72223
영화 31939
음악 22356
생물 17605
TV프로그램 14834
회사 13375
유적/문화재 13093
IT 관련 정보 10468
옛 지명 7334
스포츠팀 6286
음악 그룹 3728
전쟁 3130
음식 2962
경기장/극장 2445
화학 물질 2190
대학 2178
정부기관 2029
서적 2007
올림픽 종목 정보 1584
정당 1582
국제 축구 대회 정보 1577
철도 노선 1573
자동차 1433
선거구 정보 1397
상(Prize) 1395
옛 나라 1383
군대/부대 1233
성씨/가문 1232
가상 인물 1172
배(Ship) 772
의회 454
공원 363
연구소 84
중앙은행 79
대사관 47
우주센터 27
법원 25
정부 7
소방기관 6

기여 및 문의

저장소에 대한 기여나 문의사항은 언제든지 환영합니다. Issue를 통해 의견을 남겨주시거나, Pull Request를 보내주시면 감사하겠습니다.

About

위키백과에 있는 키워드를 분류 정리한 Repo 입니다.

Resources

Stars

Watchers

Forks

Contributors