<a href="https://colab.research.google.com/github/hyunjungC/data-structure-with-python/blob/main/2_voice_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 대표적인 공개 음성 데이터셋 상세 비교

| 데이터셋                          | 언어/특성            | 구성                                          | 주요 활용                   | 라이선스          |
| ----------------------------- | ---------------- | ------------------------------------------- | ----------------------- | ------------- |
| **1. LibriSpeech**            | 영어 (오디오북 기반)     | 약 1000시간, `.flac`, `.txt`, `train/dev/test` | 음성 인식 모델 학습 (ASR)       | CC BY 4.0     |
| **2. Common Voice**           | 다국어 (80+개 언어)    | `.mp3`, `validated.tsv`, 성별/나이/악센트 정보 포함    | 다국어 ASR, 음성 다양성 분석      | CC0 (퍼블릭 도메인) |
| **3. TED-LIUM 3**             | 영어 (TED 강연 기반)   | 약 450시간, `.sph` + `.stm`, `transcripts`     | 긴 문장 기반 음성 인식, 문장 구조 분석 | LGPL          |
| **4. VoxCeleb 1&2**           | 영어 (인터뷰, 실제 녹음)  | 1000명 이상, `.wav`, `ID`, `metadata`          | 화자 인식, 화자 검증, 화자 분리     | 비상업적 연구 목적    |
| **5. Google Speech Commands** | 영어 (짧은 명령어, 키워드) | 105만개, `.wav`, 1초 단어 ("yes", "no", etc.)    | 키워드 인식, IoT 음성 명령       | CC BY 4.0     |
| **6. AISHELL-1**              | 중국어              | 150시간, `.wav`, `transcript.txt`, 성별 정보 포함   | 중국어 음성 인식, 음소 분류        | CC BY-NC-SA   |


# 🎧 WAV 파일 형식 개요
`WAV`는 Windows의 표준 오디오 포맷으로, 비압축 PCM 데이터를 기본으로 사용합니다.

## 📦 WAV 파일 주요 속성
- **확장자**: `.wav`
- **비압축 PCM** 또는 압축 가능
- **플랫폼 호환성**: Windows, Linux, macOS 전부 지원
- **구조**: RIFF + fmt chunk + data chunk

## 🎵 WAV의 기술적 특징
| 속성 | 설명 |
|------|------|
| 샘플링 레이트 | 초당 샘플 수. 예: 16000Hz, 44100Hz |
| 비트 깊이 | 샘플당 비트 수: 8bit / 16bit / 32bit float 등 |
| 채널 수 | 모노(1), 스테레오(2), 그 이상도 가능 |
| 압축 여부 | 대부분 비압축 (압축은 거의 안 씀) |

###📦 .sph 포맷 개요

| 항목     | 설명                                                       |
| ------ | -------------------------------------------------------- |
| 확장자    | `.sph` (Sphere 파일)                                       |
| 형식     | 바이너리 + ASCII 헤더                                          |
| 용도     | 음성 데이터 저장 (전화 통화, TED 강연 등)                              |
| 제작     | 미국 NIST (National Institute of Standards and Technology) |
| 샘플 데이터 | **Switchboard, TED-LIUM, CALLHOME** 등                    |


🧠 주요 특징
1. NIST 헤더 포함
파일 시작 부분에 ASCII 텍스트로 된 메타데이터 포함

예시:
NIST_1A
1024
sample_rate -i 16000
channel_count -i 1
sample_n_bytes -i 2
sample_coding -s2 pcm

2. Raw PCM 데이터 포함
헤더 이후에는 16-bit 또는 8-bit PCM 오디오 데이터가 이어짐

.wav와는 달리 직접 재생하려면 헤더를 해석하고 나머지를 디코딩해야 함

### 📁 사용 사례
| 데이터셋        | 설명                     |
| ----------- | ---------------------- |
| TED-LIUM    | TED 강연 음성, `.sph`로 저장됨 |
| Switchboard | 전화 음성 대화 데이터셋          |
| CALLHOME    | 미국 전화통화 녹음             |


.flac은 Free Lossless Audio Codec의 약자로, 무손실 압축 오디오 포맷입니다.
WAV와 마찬가지로 음질 손실이 없으면서도, WAV보다 파일 크기가 작아 널리 사용됩니다.

### 📦 .flac 포맷 개요

| 항목       | 설명                                  |
| -------- | ----------------------------------- |
| 확장자      | `.flac`                             |
| MIME 타입  | `audio/flac`                        |
| 압축 여부    | ✅ 무손실 압축 (lossless)                 |
| 음질 손실 여부 | ❌ 없음                                |
| 지원 플랫폼   | Windows, Linux, macOS, Android      |
| 주 용도     | 음악 보관, 음성 데이터셋 저장, 아카이빙             |
| 대표 사용처   | LibriSpeech, Mozilla Common Voice 등 |


### 🧠 주요 특징

| 특징           | 설명                                            |
| ------------ | --------------------------------------------- |
| **무손실 압축**   | 오리지널 오디오 품질 유지하면서 파일 크기 줄임 (WAV 대비 약 30\~60%) |
| **메타데이터 포함** | 아티스트, 앨범명, 날짜 등의 태그 저장 가능                     |
| **오픈소스**     | 완전 무료, 특허 없음                                  |
| **빠른 디코딩**   | 실시간 재생에 적합 (모바일에서도 빠름)                        |


### 🎵 사용 예시: 음성 데이터셋에서 활용

| 데이터셋             | 설명                             |
| ---------------- | ------------------------------ |
| **LibriSpeech**  | 오디오북 기반 음성 인식 데이터셋, `.flac` 사용 |
| **Common Voice** | Mozilla 공개 음성, `.flac` 저장      |
| **OpenSLR 계열**   | 대부분의 음성 인식용 코퍼스에서 활용됨          |


### ✅ .flac vs .wav 비교
| 항목     | `.wav` | `.flac`         |
| ------ | ------ | --------------- |
| 압축     | 없음     | 있음 (무손실)        |
| 용량     | 큼      | 작음 (보통 40\~70%) |
| 음질     | 동일     | 동일              |
| 실시간 재생 | 빠름     | 빠름              |
| 메타데이터  | 제한적    | 풍부              |


📌 데이터셋별 특징 요약
1. LibriSpeech
- 📘 오디오북 기반, 선명한 발음

- 고품질, 텍스트 정렬 완비

- 학습/검증/시험 세트로 분리

- ASR 벤치마크용으로 널리 사용

2. Common Voice (Mozilla)
- 🗣️ 사용자가 직접 기여한 다양한 음성

- 성별, 연령, 악센트 등의 민감 특성 포함

- 다국어 학습/공정성 평가에 최적

3. TED-LIUM
- 🎤 실제 강연 (TED)에서 수집

- 연설체, 자연스러운 억양과 끊김 포함

- 긴 문장 인식 및 문맥 인식 연구용 추천

4. VoxCeleb
- 📺 TV 인터뷰, 다중 화자

- 화자 식별, 인증 모델 개발에 최적

- 음질 다양 (마이크 환경 포함)

5. Google Speech Commands
- 📲 "yes", "no", "up", "down" 같은 단일 단어

- 키워드 인식(KWS), 스마트 홈 기기 제어 실습에 활용

- 소형 모델 훈련 연습에 적합

6. AISHELL-1
- 🇨🇳 중국어 음성 데이터 (표준어 기준)

- 성별/지역별 발화자 정보 포함

- 중국어 ASR 연구에 널리 사용

### 추천 실습 조합 예시

| 목적          | 추천 데이터셋                             |
| ----------- | ----------------------------------- |
| ASR 기초 실습   | Google Speech Commands, LibriSpeech |
| 화자 인식       | VoxCeleb                            |
| 다국어 인식 실험   | Common Voice                        |
| 긴 문장 인식, 억양 | TED-LIUM                            |
| 중국어 인식      | AISHELL-1                           |


### 대표 공개 음성 데이터셋 다운로드 + 로딩 코드

✅ 1. LibriSpeech


📁 영어 오디오북 기반, .flac 파일 제공

In [None]:
# 다운로드 및 압축 해제
!wget https://www.openslr.org/resources/12/train-clean-100.tar.gz
!tar -xzf train-clean-100.tar.gz

--2025-05-08 10:25:32--  https://www.openslr.org/resources/12/train-clean-100.tar.gz
Resolving www.openslr.org (www.openslr.org)... 46.101.158.64
Connecting to www.openslr.org (www.openslr.org)|46.101.158.64|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://openslr.elda.org/resources/12/train-clean-100.tar.gz [following]
--2025-05-08 10:25:32--  https://openslr.elda.org/resources/12/train-clean-100.tar.gz
Resolving openslr.elda.org (openslr.elda.org)... 141.94.109.138, 2001:41d0:203:ad8a::
Connecting to openslr.elda.org (openslr.elda.org)|141.94.109.138|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6387309499 (5.9G) [application/x-gzip]
Saving to: ‘train-clean-100.tar.gz.1’


2025-05-08 10:39:44 (7.16 MB/s) - ‘train-clean-100.tar.gz.1’ saved [6387309499/6387309499]



In [None]:
# 파일 로딩 및 재생
import librosa
import IPython.display as ipd

sample_path = '/content/LibriSpeech/train-clean-100/19/198/19-198-0001.flac'
y, sr = librosa.load(sample_path, sr=16000)
ipd.Audio(y, rate=sr)


✅ 2. Common Voice (Mozilla)


📁 사용자 음성 다양성, .mp3 + .tsv

Common Voice는 wget으로 직접 다운로드할 수 있는 파일 링크를 제공하지 않음.
수동으로 다운로드하고 업로드하는 방식이 기본

1. [공식 링크로 이동](https://commonvoice.mozilla.org/ko/datasets)

2. 원하는 언어 (예: 한국어) 선택 후 ZIP 다운로드

3. Colab에서 파일을 업로드:

In [None]:
from google.colab import files
uploaded = files.upload()  # ZIP 파일 업로드

KeyboardInterrupt: 

4. 압축 해제

In [None]:
class Hello:
    def __enter__(self):
        # 사용할 자원을 가져오거나 만든다(핸들러 등)
        print('enter...')
        return self # 반환값이 있어야 VARIABLE를 블록내에서 사용할 수 있다

    def sayHello(self, name):
        # 자원을 사용한다. ex) 인사한다
        print('hello ' + name)

    def __exit__(self, exc_type, exc_val, exc_tb):
        # 마지막 처리를 한다(자원반납 등)
        print('exit...')

# h = Hello()

with Hello() as h:
   h.sayHello('obama')

enter...
hello obama
exit...


In [None]:
# 1. 압축 해제: .tar.gz 파일을 .tar로 풀고, 다시 폴더로 압축 해제

import tarfile

# 파일 경로 지정

tar_path = '/content/cv-corpus-21.0-2025-03-14-ko.tar.gz'
extract_path = '/content/common_voice_ko'

# 압축 해제
with tarfile.open(tar_path, 'r:gz') as tar:
    tar.extractall(path=extract_path)

print("✅ 압축 해제 완료:", extract_path)

✅ 압축 해제 완료: /content/common_voice_ko


/content/common_voice_ko/cv-corpus-21.0-2025-03-14/ko/


├── clips/                    # 오디오 파일들 (mp3)

├── validated.tsv             # 검증된 발화 메타데이터

├── train.tsv / dev.tsv       # 학습/검증용 메타

└── other_metadata.json       # 언어, 발화자 정보 등


#### 오디오 재생 샘플

In [None]:
import pandas as pd
import librosa
import IPython.display as ipd

# 1. 메타데이터 로딩
meta_path = extract_path + '/cv-corpus-21.0-2025-03-14/ko/validated.tsv'
df = pd.read_csv(meta_path, sep='\t')
df.head()

# 2. 첫 번째 샘플 경로 생성
audio_file = extract_path + '/cv-corpus-21.0-2025-03-14/ko/clips/' + df.iloc[0]['path']
audio_file

# 3. 재생
# y, sr = librosa.load(audio_file, sr=16000)
# ipd.Audio(y, rate=sr)
print(df.iloc[0]['sentence'])


그러면 땅도 파보고 농부들과 함께 아무것이라도 배워 가면서 할 것 같았다.


✅ 3. TED-LIUM 3

📁 TED 강연 기반, .sph 포맷 사용

In [None]:
# 1. 필수 도구 설치
!apt-get install sox libsox-fmt-all -y

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libsox-fmt-all is already the newest version (14.4.2+git20190427-2+deb11u2ubuntu0.22.04.1).
sox is already the newest version (14.4.2+git20190427-2+deb11u2ubuntu0.22.04.1).
0 upgraded, 0 newly installed, 0 to remove and 34 not upgraded.


In [None]:
# 2. TED-LIUM dataset 다운로드
# !wget https://openslr.trmal.net/resources/19/TEDLIUM_release2.tar.gz
!wget https://openslr.trmal.net/resources/1/waves_yesno.tar.gz

--2025-05-08 11:31:01--  https://openslr.trmal.net/resources/1/waves_yesno.tar.gz
Resolving openslr.trmal.net (openslr.trmal.net)... 136.243.171.4, 2a01:4f8:171:2012::2
Connecting to openslr.trmal.net (openslr.trmal.net)|136.243.171.4|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4703754 (4.5M) [application/x-gzip]
Saving to: ‘waves_yesno.tar.gz.2’


2025-05-08 11:31:02 (4.73 MB/s) - ‘waves_yesno.tar.gz.2’ saved [4703754/4703754]



In [None]:
# 3. 압축 해제 및 .wav 추출 (1개만 예시로 추출)
!mkdir -p tedlium && tar -xzf waves_yesno.tar.gz -C tedlium
!find tedlium -name "*.wav" | head -n 3

tedlium/waves_yesno/1_0_0_0_0_0_0_1.wav
tedlium/waves_yesno/1_0_1_0_1_0_0_1.wav
tedlium/waves_yesno/0_0_1_1_0_1_1_0.wav


In [None]:
# 3. 재생
y, sr = librosa.load('tedlium/waves_yesno/1_0_0_0_0_0_0_1.wav', sr=16000)
ipd.Audio(y, rate=sr)