Skip to content

Latest commit

 

History

History
102 lines (95 loc) · 9.51 KB

KoSpeechDB.md

File metadata and controls

102 lines (95 loc) · 9.51 KB

Korean Speech Database for ASR

기관별 / 년도별 / 구축기관 / 스타일

OPEN Site

AI Open Innovation Hub

  • ('2018) 한국어 음성 - 다운로드
    • 구축기관: AIHub_한국전자통신연구원
    • 대화음성 1000시간: 조용한 환경, 2000명
    • 두 사람이 다양한 주제(예: 일상, 쇼핑, 정치, 경제, 날씨, 취미 등)로 자유롭게 대화
  • ('2020) <감성 대화 말뭉치> - 데이터설명서
    • 구축기관: AIHub_미디어젠
    • (크라우드 소싱) 일반인 1,500명 대상 / 음성 15,700문장 / 코퍼스 27만 문장 구축(ALBERT 엔진 학습용)
    • 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반 수집 (60가지 감정 상태가 포함, 기본적으로 3턴의 대화를 기준)
  • ('2020) <고객 응대 음성> - 데이터설명서
    • 구축기관: AIHub_티맥스소프트
    • 음성인식 학습용 3,000 시간(구매, 예약, 생활)의 남녀 1:1 비율의 고객 응대 음성 데이터셋
    • 다양한 도메인에서 주문, 예약, 환불, 정보조회 등 / 다양한 매장과 공간의 키오스크 등에서 주문, 검색, 조작 및 고객 응대
  • ('2020) 명령어 음성(일반남녀), 명령어 음성(노인남녀), 명령어 음성(소아, 유아)
    • 구축기관: AIHub_비디 (미디어젠, 메트릭스리서치, 셀렉트스타)
    • 음성 3,000시간 : AI 비서 / AI 로봇 / AI 키오스크
    • 음성 3,000시간 - 노인용 AI 비서 / 노인용 AI 로봇 / 노인용 AI 키오스크
    • 음성 3,000시간: 소아용 AI 비서 / 소아용 AI 로봇
    • 데이터설명서-일반남녀
  • ('2020) 자유대화 음성(일반남녀), 자유대화 음성(노인남녀), 자유대화 음성(소아, 유아)
    • 구축기관: AIHub_NHN다이퀘스트 (크라우드웍스, NHN다이퀘스트, 셀바스AI)(원더풀플랫폼, NHN다이퀘스트, 셀바스AI)(잉글리시헌트, NHN다이퀘스트, 셀바스AI)
    • 일반남녀(10대~50대): 2,000명 이상의 발화자를 대상으로 4,000여 시간 음성 데이터 수집(일상대화)
    • 노인남녀(60세 이상): 1,000명 이상의 발화자를 대상으로 3,000여 시간 이상
    • 소아남녀(3세~10세): 1,000명 이상의 발화자를 대상으로 3,000여 시간
  • ('2020) 민원(콜센터) 질의-응답 - 데이터설명서
    • 구축기관: AIHub_포티투마루 (피플앤드테크놀러지, 어빌리티시스템즈)
    • 민원.콜센터 질의응답 데이터 110만쌍, 음성데이터 440시간 이상 / 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
    • 민간기업 (K쇼핑, 금융보험) / 공공기관 (질병관리본부, 다산콜센터)
  • ('2020) 상담 음성 - 데이터설명서
    • 구축기관: AIHub_티맥스소프트 (아이스크림에듀, 나무기술)
    • 3000시간: 교육, 금융, 통신판매 도메인
  • ('2020) 차량 내 대화 및 명령어 음성
    • 구축기관: AIHub_비디 (미디어젠)
    • 음성 3,200시간(48kHz, 16bit, mono) : 차량 명령어, PBW
  • ('2020) 한국어 강의 음성
    • 구축기관: AIHub_티맥스소프트 (나무기술)
    • 대분류(초,중,고,직업/자격증,기타 성인)에서 파생된 10여종의 콘텐츠 기반 / 주제별, 수준별 4,000시간 / 한국교육방송공사(EBS) TV/라디오 방송콘텐츠 및 온라인 강의 콘텐츠
    • 강의음성, 강사정보(성별, 연령), 강의주제(과목, 학년), 강의정보(방송날짜, 발화장소) 등
  • ('2020) 한국어 방언 발화 - (강원도), (경상도), (전라도), (제주도), (충청도)
    • 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
    • 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
  • ('2020) 한국인 대화음성 (ver. 1.1)
    • 구축기관: AIHub_솔루게이트
    • 연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축
    • 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함
      • 원본 음성 데이터: 2,000H / 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
  • ('2020) 한국인 외래어 발화
    • 구축기관: AIHub_엔에이치엔 (잉글리시헌트, 크라우드웍스, 셀바스AI)
    • 한국인 외래어에 대해 2,000명 이상의 한국인 화자를 대상으로 4,000여 시간
  • ('2020) 회의 음성
    • 구축기관: AIHub_티맥스소프트 (나무기술)
    • 8가지 주제별 다양한 한국어 회의 음성으로부터 음성의 내용을 전사
    • 3,000시간: 교육,문화예술,가족 / 교양,시사, 토크, 금융,IT

  • KAIST 오디오북 데이터셋 - 음성합성 오디오북 제작
    • 58,559개(wav 44.1kHz) / 총 72시간40분44초/화자수:13명(남7명, 여6명. 한국어11명, 영어남녀 각1명)

<텍스트>

  • ('2018)한국어 대화
    • 구축기관: AIHub_한국과학기술정보연구원
    • 소상공인 및 공공민원 10개 분야에 대한 50만건 이상의 대화(Dialog) 데이터 구축
  • AI 기반 감성 챗봇용 코퍼스 AI 데이터 (공개 예정)
    • 우울증 관련 언어 의미 구조화 및 대화 응답 시나리오 동반한 감성 텍스트 언어 수집
    • 일반인 1,500명 대상 / 음성 15,700 문장 및 코퍼스 27만 문장 구축(크라우드 소싱) / 우울증 환자 대상 WOZ 대화 수집
  • 멀티모달 AI 데이터 - 다운로드
    • 21시간 10분 분량 (총 클립수 : 1,943건/총 이미지: 158,383장/대화정보: 10,961 pair)

ETRI

  • 공공 인공지능 오픈 API·DATA 서비스 포털 - https://aiopen.etri.re.kr/
    • 음성 학습데이터 / 분량(전체 발화수)
    • 다채널 잡음처리 기술 개발 및 평가용 데이터 / 50명 * 100발화 * 8마이크 (40,208)
    • 텔레매틱스 목적지 인식을 위한 음향모델 적응용 음성 데이터 / 50명 * 120발화 (6,000)
    • 잡음처리 및 음성검출을 위한 스마트폰 환경 연속어 음성 데이터 / 50명 * 100발화 * 2환경 (10,000)
    • 한국어 및 영어 음향모델 훈련용 음성 데이터 / 한/영 각 50명 * 100발화 (10,000)
    • 음성인터페이스 개발을 위한 어린이 음성 데이터 / 50명 * 100발화 * 3환경 (16,200)
  • 한국어 음성 감정 데이터셋(KESDy18) - 소개
    • 헤드셋 마이크(Shure S35) 장치를 통해 수집한 음성데이터에 대한 데이터셋(2018.04~2018.09).
    • 한국인 성우 총 30명 (남/여 각 15명) ~ Arousal : (이완) 1-2-3-4-5 (각성) / Valence : (부정) 1-2-3-4-5 (긍정)

SiTEC


ETC.

  • Zeroth-Korean - openSLR
    • 51.6 hours transcribed Korean audio for training data (22,263 utterances, 105 people, 3000 sentences)
    • 1.2 hours transcribed Korean audio for testing data (457 utterances, 10 people)
  • KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition Paper

  • 딥러닝 학습을 위한 국내외 데이터셋 현황 - 음성편 - webzine