기관별 / 년도별 / 구축기관 / 스타일
- HateScore : Human-in-the-Loop and Neutral Korean Multi-label Online Hate Speech Dataset (feat. SmilegateAI UnSmile Dataset)
- ('2018) 한국어 음성 - 다운로드
- 구축기관: AIHub_한국전자통신연구원
- 대화음성 1000시간: 조용한 환경, 2000명
- 두 사람이 다양한 주제(예: 일상, 쇼핑, 정치, 경제, 날씨, 취미 등)로 자유롭게 대화
- ('2020) <감성 대화 말뭉치> - 데이터설명서
- 구축기관: AIHub_미디어젠
- (크라우드 소싱) 일반인 1,500명 대상 / 음성 15,700문장 / 코퍼스 27만 문장 구축(ALBERT 엔진 학습용)
- 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반 수집 (60가지 감정 상태가 포함, 기본적으로 3턴의 대화를 기준)
- ('2020) <고객 응대 음성> - 데이터설명서
- 구축기관: AIHub_티맥스소프트
- 음성인식 학습용 3,000 시간(구매, 예약, 생활)의 남녀 1:1 비율의 고객 응대 음성 데이터셋
- 다양한 도메인에서 주문, 예약, 환불, 정보조회 등 / 다양한 매장과 공간의 키오스크 등에서 주문, 검색, 조작 및 고객 응대
- ('2020) 명령어 음성(일반남녀), 명령어 음성(노인남녀), 명령어 음성(소아, 유아)
- 구축기관: AIHub_비디 (미디어젠, 메트릭스리서치, 셀렉트스타)
- 음성 3,000시간 : AI 비서 / AI 로봇 / AI 키오스크
- 음성 3,000시간 - 노인용 AI 비서 / 노인용 AI 로봇 / 노인용 AI 키오스크
- 음성 3,000시간: 소아용 AI 비서 / 소아용 AI 로봇
- 데이터설명서-일반남녀
- ('2020) 자유대화 음성(일반남녀), 자유대화 음성(노인남녀), 자유대화 음성(소아, 유아)
- 구축기관: AIHub_NHN다이퀘스트 (크라우드웍스, NHN다이퀘스트, 셀바스AI)(원더풀플랫폼, NHN다이퀘스트, 셀바스AI)(잉글리시헌트, NHN다이퀘스트, 셀바스AI)
- 일반남녀(10대~50대): 2,000명 이상의 발화자를 대상으로 4,000여 시간 음성 데이터 수집(일상대화)
- 노인남녀(60세 이상): 1,000명 이상의 발화자를 대상으로 3,000여 시간 이상
- 소아남녀(3세~10세): 1,000명 이상의 발화자를 대상으로 3,000여 시간
- ('2020) 민원(콜센터) 질의-응답 - 데이터설명서
- 구축기관: AIHub_포티투마루 (피플앤드테크놀러지, 어빌리티시스템즈)
- 민원.콜센터 질의응답 데이터 110만쌍, 음성데이터 440시간 이상 / 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
- 민간기업 (K쇼핑, 금융보험) / 공공기관 (질병관리본부, 다산콜센터)
- ('2020) 상담 음성 - 데이터설명서
- 구축기관: AIHub_티맥스소프트 (아이스크림에듀, 나무기술)
- 3000시간: 교육, 금융, 통신판매 도메인
- ('2020) 차량 내 대화 및 명령어 음성
- 구축기관: AIHub_비디 (미디어젠)
- 음성 3,200시간(48kHz, 16bit, mono) : 차량 명령어, PBW
- ('2020) 한국어 강의 음성
- 구축기관: AIHub_티맥스소프트 (나무기술)
- 대분류(초,중,고,직업/자격증,기타 성인)에서 파생된 10여종의 콘텐츠 기반 / 주제별, 수준별 4,000시간 / 한국교육방송공사(EBS) TV/라디오 방송콘텐츠 및 온라인 강의 콘텐츠
- 강의음성, 강사정보(성별, 연령), 강의주제(과목, 학년), 강의정보(방송날짜, 발화장소) 등
- ('2020) 한국어 방언 발화 - (강원도), (경상도), (전라도), (제주도), (충청도)
- 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
- 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
- ('2020) 한국인 대화음성 (ver. 1.1)
- 구축기관: AIHub_솔루게이트
- 연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축
- 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함
- 원본 음성 데이터: 2,000H / 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
- ('2020) 한국인 외래어 발화
- 구축기관: AIHub_엔에이치엔 (잉글리시헌트, 크라우드웍스, 셀바스AI)
- 한국인 외래어에 대해 2,000명 이상의 한국인 화자를 대상으로 4,000여 시간
- ('2020) 회의 음성
- 구축기관: AIHub_티맥스소프트 (나무기술)
- 8가지 주제별 다양한 한국어 회의 음성으로부터 음성의 내용을 전사
- 3,000시간: 교육,문화예술,가족 / 교양,시사, 토크, 금융,IT
- KAIST 오디오북 데이터셋 - 음성합성 오디오북 제작
- 58,559개(wav 44.1kHz) / 총 72시간40분44초/화자수:13명(남7명, 여6명. 한국어11명, 영어남녀 각1명)
<텍스트>
- ('2018)한국어 대화
- 구축기관: AIHub_한국과학기술정보연구원
- 소상공인 및 공공민원 10개 분야에 대한 50만건 이상의 대화(Dialog) 데이터 구축
- AI 기반 감성 챗봇용 코퍼스 AI 데이터 (공개 예정)
- 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반한 감성 텍스트 언어 수집
- 일반인 1,500명 대상 / 음성 15,700 문장 및 코퍼스 27만 문장 구축(크라우드 소싱) / 우울증 환자 대상 WOZ 대화 수집
- 멀티모달 AI 데이터 - 다운로드
- 21시간 10분 분량 (총 클립수 : 1,943건/총 이미지: 158,383장/대화정보: 10,961 pair)
- 공공 인공지능 오픈 API·DATA 서비스 포털 - https://aiopen.etri.re.kr/
- 음성 학습데이터 / 분량(전체 발화수)
- 다채널 잡음처리 기술 개발 및 평가용 데이터 / 50명 * 100발화 * 8마이크 (40,208)
- 텔레매틱스 목적지 인식을 위한 음향모델 적응용 음성 데이터 / 50명 * 120발화 (6,000)
- 잡음처리 및 음성검출을 위한 스마트폰 환경 연속어 음성 데이터 / 50명 * 100발화 * 2환경 (10,000)
- 한국어 및 영어 음향모델 훈련용 음성 데이터 / 한/영 각 50명 * 100발화 (10,000)
- 음성인터페이스 개발을 위한 어린이 음성 데이터 / 50명 * 100발화 * 3환경 (16,200)
- 한국어 음성 감정 데이터셋(KESDy18) - 소개
- 헤드셋 마이크(Shure S35) 장치를 통해 수집한 음성데이터에 대한 데이터셋(2018.04~2018.09).
- 한국인 성우 총 30명 (남/여 각 15명) ~ Arousal : (이완) 1-2-3-4-5 (각성) / Valence : (부정) 1-2-3-4-5 (긍정)
- Zeroth-Korean - openSLR
- 51.6 hours transcribed Korean audio for training data (22,263 utterances, 105 people, 3000 sentences)
- 1.2 hours transcribed Korean audio for testing data (457 utterances, 10 people)
- KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition Paper
- 딥러닝 학습을 위한 국내외 데이터셋 현황 - 음성편 - webzine