AI 기반 위키백과 사이트 오늘의AI위키 (https://wiki.onul.works/) 를 개발하고 있으며, 해당 사이트에서 사용될 위키백과 키워드 JSONL 데이터셋을 공유합니다.
오늘의AI위키 는 AI를 이용하여 위키백과를 직접 구성하는 것을 목표로 개발 중인 프로젝트입니다. 현재 개발이 진행 중이며, 일반 사용자에게도 공개되어 누구나 자유롭게 접근하고 이용할 수 있습니다. 많은 관심과 방문 부탁드립니다! 😊
본 저장소는 사이트 개발에 사용되는 핵심 데이터인 위키백과 키워드 데이터셋을 제공합니다. 데이터셋은 JSONL (JSON Lines) 형식으로 구성되어 있으며, 각 키워드는 한국어, 영어, 일본어 제목과 함께, 카테고리 정보(type) 및 LLM으로 생성된 간단한 요약 정보를 포함하고 있습니다.
데이터는 JSONL (JSON Lines) 형식으로 구성되어 있으며, 각 라인은 다음과 같은 JSON 객체 형태를 가집니다.
{
"title":{
"ko":"신세키역",
"en":"Shinseki Station",
"ja":"新関駅"
},
"type":"지명",
"summary":"신세키역은 1954년 여객역으로 개업하여 2면 상대식 승강장과 1선 스루 배선 방식을 사용하며, 1987년 동일본 여객철도 관할이 되었고 2008년 Suica 사용이 가능해진 무인역이다."
}title: 키워드의 제목을 다양한 언어로 제공합니다.ko: 한국어 제목en: 영어 제목ja: 일본어 제목
type: 키워드의 카테고리를 나타냅니다. (예: 인물, 지명, 영화 등)summary: 키워드에 대한 간략한 요약 설명입니다. 주의: 요약은 LLM(Large Language Model)을 통해 자동 생성되었으므로, 부정확하거나 일부 내용이 깨져 보이는 경우가 있을 수 있습니다. 이 점 참고하여 활용해 주시기 바랍니다.
데이터셋은 다양한 카테고리의 키워드를 포함하고 있으며, 각 카테고리별 갯수는 다음과 같습니다.
| 카테고리 | 갯수 |
|---|---|
| 인물 | 132215 |
| 지명 | 72223 |
| 영화 | 31939 |
| 음악 | 22356 |
| 생물 | 17605 |
| TV프로그램 | 14834 |
| 회사 | 13375 |
| 유적/문화재 | 13093 |
| IT 관련 정보 | 10468 |
| 옛 지명 | 7334 |
| 스포츠팀 | 6286 |
| 음악 그룹 | 3728 |
| 전쟁 | 3130 |
| 음식 | 2962 |
| 경기장/극장 | 2445 |
| 화학 물질 | 2190 |
| 대학 | 2178 |
| 정부기관 | 2029 |
| 서적 | 2007 |
| 올림픽 종목 정보 | 1584 |
| 정당 | 1582 |
| 국제 축구 대회 정보 | 1577 |
| 철도 노선 | 1573 |
| 자동차 | 1433 |
| 선거구 정보 | 1397 |
| 상(Prize) | 1395 |
| 옛 나라 | 1383 |
| 군대/부대 | 1233 |
| 성씨/가문 | 1232 |
| 가상 인물 | 1172 |
| 배(Ship) | 772 |
| 의회 | 454 |
| 공원 | 363 |
| 연구소 | 84 |
| 중앙은행 | 79 |
| 대사관 | 47 |
| 우주센터 | 27 |
| 법원 | 25 |
| 정부 | 7 |
| 소방기관 | 6 |
기여 및 문의
저장소에 대한 기여나 문의사항은 언제든지 환영합니다. Issue를 통해 의견을 남겨주시거나, Pull Request를 보내주시면 감사하겠습니다.