# JSUT 음성 및 라벨 데이터 다운로드
JSUT 코퍼스의 음성 데이터와 라벨 데이터를 다운로드 및 압축 해제하는 코드로 구성

JUST 코퍼스 = 일본어 음성 데이터 (음성 데이터 + 라벨 데이터)

관련 논문 링크 https://arxiv.org/abs/1711.00354

In [1]:
from urllib.request import urlretrieve
import zipfile
import os

In [2]:
# 데이터 저장 위치를 정의하고 디렉토리를 생성
data_dir = '../data/original'
os.makedirs(data_dir, exist_ok=True)

In [4]:
# JSUT 음성 파일 (zip 형식)을 다운로드 (시간 오래 걸림)
data_archive = os.path.join(data_dir, 'jsut-data.zip')
print('download jsut-data start')
urlretrieve('http://ss-takashi.sakura.ne.jp/corpus/jsut_ver1.1.zip', data_archive)
print('download jsut-data finished')

download jsut-data start
download jsut-data finished


In [5]:
# 다운로드한 음성 데이터를 압축 해제한 후 zip 파일을 삭제합니다.
print('extract jsut-data start')
with zipfile.ZipFile(data_archive) as data_zip:
    data_zip.extractall(data_dir)
print('extract jsut-data finished')
os.remove(data_archive)

extract jsut-data start
extract jsut-data finished


In [3]:
# JSUT 코퍼스의 라벨 데이터를 다운로드합니다.
label_archive = os.path.join(data_dir, 'jsut-label.zip')
print('download jsut-label start')
urlretrieve('https://github.com/sarulab-speech/jsut-label/archive/master.zip', label_archive)
print('download jsut-label finished')

download jsut-label start
download jsut-label finished


In [4]:
# 다운로드한 라벨 데이터를 압축 해제한 후 zip 파일을 삭제합니다.
print('extract jsut-label start')
with zipfile.ZipFile(label_archive) as label_zip:
    label_zip.extractall(data_dir)
print('extract jsut-label finished')
os.remove(label_archive)

extract jsut-label start
extract jsut-label finished
