In [1]:
# 한국인 강의음성 전처리 및 csv 파일 생성
# https://aihub.or.kr/aidata/30708/download

# 압축을 풀고 "한국어 강의 음성" 폴더의 이름을 KlecSpeech로 변경한다.
# 추가 히스토리
# 2022-06-15 array 추가
# 2022-06-17 정규식 교체 

In [19]:
import re

def preprocessing(text):
    # 괄호(문자)/(발음) 일 때, 발음만 살리는 코드
    """
    괄호 및 괄호 안에 있는 문장을 모두 벗겨내기
    \([^\)]*\)\/|\(|\)

    조건 1: (문장)/ 을 삭제한다. 
    \([^\)]*\)    (사과)/(배) (1000원)/(천원)
    \/            뒤에 /를 추가하면 뒤에 /가 없는 (배) 와 (천원)은 조건 탈락

    |             조건 1과 조건 2를 OR로 검출

    조건 2 :  ( 과 )를 검출
    \(|\)  
    """  
    re_text = re.sub(r'[+?!]', '', text)
    re_text = re.sub(r'o/', '', re_text)
    re_text = re.sub(r"u/","<unk>",  re_text)
    re_text = re.sub(r"b/","<b>",  re_text)
    re_text = re.sub(r"n/","<n>",  re_text)
    re_text = re.sub(r"l/","<|>",  re_text)
    re_text = re.sub(r'\([^\)]*\)\/|\(|\)', '', re_text)
    re_text = re.sub(r'[/]', '', re_text)

    return re_text

test_text = "la/ l/ 와/ 와// b/ 안녕하세요. n/ na/ l/ (사과)/(배)는 (1000원)/(천원) 입니다?!+ u/ o/"
test_ret = preprocessing(test_text)
print(test_ret)

la <|> 와 와 <b> 안녕하세요. <n> na <|> 배는 천원 입니다 <unk> 


## 오디오 데이터 추가

In [14]:
import json
import os
import glob
import pandas as pd
from tqdm import tqdm
from pathlib import Path
import librosa

In [15]:
text_dict = {'filename':[],'text':[],'array':[]}

path='./dataset/KlecSpeech/Validation/'

# path = Path('./한국어 강의 음성/Validation/')

# wav 파일 기준으로 text 파일이름이 동일, 확장자는 wav, txt로 각각 다름
files = [f for f in glob.glob(path + "**/*.wav", recursive=True)]

# 테스트 코드
# files = files[0:3]
# print(files)
import time

start = time.time()
print("This time is being calculated")

for i in tqdm(range(len(files))):
    txt_file = files[i].replace(".wav", ".txt")
    files[i] = files[i].replace("\\", "/")

#     print(txt_file)
    if not os.path.exists(txt_file):
        print("The file does not exist", txt_file)
    
    with open(txt_file ,'r',encoding='utf8') as f:
        text = f.read()
        
        # 텍스트 전처리
        text = preprocessing(text)

        # 항목들 값을 저장 \
        text_dict['filename'].append(files[i]) # filename
        text_dict['text'].append(text)
        
        # 각 wav파일을 16000으로 나눠서 저장
        array,_ = librosa.load(files[i],sr=16000)
        text_dict['array'].append(list(array))

    if i%500==499:
        n=i//500
        df = pd.DataFrame(text_dict)
        df.to_csv(f'klecspeech_ko_500_{n:03d}.csv',index=False,sep='\t')
        print(f'{n:03d} complete')

        # text_dict을 초기화
        text_dict = {'filename':[],'text':[],'array':[]}
        
# df = pd.DataFrame(text_dict)
# df.head()

print(time.time() - start)

This time is being calculated


  2%|█▏                                                                          | 508/32971 [00:33<7:14:58,  1.24it/s]

000 complete


  3%|██▎                                                                        | 1007/32971 [01:09<8:37:32,  1.03it/s]

001 complete


  5%|███▍                                                                       | 1513/32971 [01:46<5:58:57,  1.46it/s]

002 complete


  6%|████▌                                                                     | 2008/32971 [02:33<11:05:04,  1.29s/it]

003 complete


  8%|█████▌                                                                    | 2506/32971 [03:12<11:59:18,  1.42s/it]

004 complete


  9%|██████▊                                                                    | 3008/32971 [03:50<6:51:57,  1.21it/s]

005 complete


 11%|███████▉                                                                   | 3507/32971 [04:26<9:14:45,  1.13s/it]

006 complete


 12%|████████▉                                                                 | 4005/32971 [05:15<14:47:29,  1.84s/it]

007 complete


 14%|██████████▎                                                                | 4508/32971 [05:52<6:21:27,  1.24it/s]

008 complete


 15%|███████████▍                                                               | 5016/32971 [06:14<2:20:12,  3.32it/s]

009 complete


 17%|████████████▌                                                              | 5506/32971 [06:33<2:59:53,  2.54it/s]

010 complete


 18%|█████████████▋                                                             | 6014/32971 [07:12<5:13:06,  1.43it/s]

011 complete


 20%|██████████████▊                                                            | 6509/32971 [07:42<4:56:05,  1.49it/s]

012 complete


 21%|███████████████▉                                                           | 7008/32971 [08:00<2:25:16,  2.98it/s]

013 complete


 23%|█████████████████                                                          | 7513/32971 [08:38<4:51:04,  1.46it/s]

014 complete


 24%|██████████████████▏                                                        | 8008/32971 [09:12<5:49:34,  1.19it/s]

015 complete


 26%|███████████████████▎                                                       | 8506/32971 [09:40<5:04:41,  1.34it/s]

016 complete


 27%|████████████████████▍                                                      | 9006/32971 [10:18<6:15:48,  1.06it/s]

017 complete


 29%|█████████████████████▋                                                     | 9507/32971 [10:54<6:24:18,  1.02it/s]

018 complete


 30%|██████████████████████▏                                                  | 10006/32971 [11:39<10:01:59,  1.57s/it]

019 complete


 32%|███████████████████████▌                                                  | 10507/32971 [12:26<8:28:54,  1.36s/it]

020 complete


 33%|████████████████████████▋                                                 | 11014/32971 [12:59<3:10:28,  1.92it/s]

021 complete


 35%|█████████████████████████▊                                                | 11507/32971 [13:34<5:22:43,  1.11it/s]

022 complete


 36%|██████████████████████████▉                                               | 12006/32971 [14:10<5:41:53,  1.02it/s]

023 complete


 38%|████████████████████████████                                              | 12508/32971 [14:47<4:46:50,  1.19it/s]

024 complete


 39%|████████████████████████████▊                                            | 13004/32971 [15:45<11:32:18,  2.08s/it]

025 complete


 41%|██████████████████████████████▎                                           | 13508/32971 [16:33<6:39:47,  1.23s/it]

026 complete


 42%|███████████████████████████████▍                                          | 14009/32971 [17:09<4:21:11,  1.21it/s]

027 complete


 44%|████████████████████████████████▌                                         | 14506/32971 [17:50<5:59:31,  1.17s/it]

028 complete


 46%|█████████████████████████████████▏                                       | 15002/32971 [18:44<11:47:53,  2.36s/it]

029 complete


 47%|██████████████████████████████████▊                                       | 15508/32971 [19:22<4:31:43,  1.07it/s]

030 complete


 49%|███████████████████████████████████▉                                      | 16016/32971 [19:52<2:12:57,  2.13it/s]

031 complete


 50%|█████████████████████████████████████                                     | 16506/32971 [20:23<3:52:40,  1.18it/s]

032 complete


 52%|██████████████████████████████████████▏                                   | 17007/32971 [20:53<3:41:11,  1.20it/s]

033 complete


 53%|███████████████████████████████████████▎                                  | 17506/32971 [21:25<3:19:20,  1.29it/s]

034 complete


 55%|████████████████████████████████████████▍                                 | 18006/32971 [21:52<2:34:33,  1.61it/s]

035 complete


 56%|█████████████████████████████████████████▌                                | 18506/32971 [22:26<3:39:38,  1.10it/s]

036 complete


 58%|██████████████████████████████████████████▋                               | 19005/32971 [23:07<5:14:36,  1.35s/it]

037 complete


 59%|███████████████████████████████████████████▊                              | 19506/32971 [23:53<4:59:15,  1.33s/it]

038 complete


 61%|████████████████████████████████████████████▉                             | 20006/32971 [24:37<4:50:46,  1.35s/it]

039 complete


 62%|██████████████████████████████████████████████                            | 20514/32971 [25:12<2:03:41,  1.68it/s]

040 complete


 64%|███████████████████████████████████████████████▏                          | 21014/32971 [25:41<1:36:55,  2.06it/s]

041 complete


 65%|████████████████████████████████████████████████▎                         | 21507/32971 [26:09<2:05:43,  1.52it/s]

042 complete


 67%|█████████████████████████████████████████████████▍                        | 22008/32971 [26:36<1:53:33,  1.61it/s]

043 complete


 68%|██████████████████████████████████████████████████▌                       | 22515/32971 [27:02<1:05:54,  2.64it/s]

044 complete


 70%|███████████████████████████████████████████████████▋                      | 23008/32971 [27:30<1:46:57,  1.55it/s]

045 complete


 71%|████████████████████████████████████████████████████▊                     | 23506/32971 [27:59<1:38:21,  1.60it/s]

046 complete


 73%|█████████████████████████████████████████████████████▉                    | 24008/32971 [28:30<1:50:20,  1.35it/s]

047 complete


 74%|███████████████████████████████████████████████████████                   | 24515/32971 [29:03<1:19:06,  1.78it/s]

048 complete


 76%|████████████████████████████████████████████████████████▏                 | 25011/32971 [29:44<1:56:17,  1.14it/s]

049 complete


 77%|█████████████████████████████████████████████████████████▎                | 25512/32971 [30:27<2:05:40,  1.01s/it]

050 complete


 79%|██████████████████████████████████████████████████████████▎               | 26007/32971 [31:08<2:26:25,  1.26s/it]

051 complete


 80%|███████████████████████████████████████████████████████████▍              | 26507/32971 [31:43<1:27:52,  1.23it/s]

052 complete


 82%|████████████████████████████████████████████████████████████▌             | 27007/32971 [32:18<1:33:01,  1.07it/s]

053 complete


 83%|█████████████████████████████████████████████████████████████▋            | 27508/32971 [32:53<1:19:03,  1.15it/s]

054 complete


 85%|██████████████████████████████████████████████████████████████▊           | 28006/32971 [33:34<1:54:41,  1.39s/it]

055 complete


 86%|█████████████████████████████████████████████████████████████████▋          | 28510/32971 [33:59<34:13,  2.17it/s]

056 complete


 88%|██████████████████████████████████████████████████████████████████▊         | 29010/32971 [34:16<16:36,  3.98it/s]

057 complete


 90%|████████████████████████████████████████████████████████████████████        | 29511/32971 [34:40<27:05,  2.13it/s]

058 complete


 91%|█████████████████████████████████████████████████████████████████████▏      | 30006/32971 [35:06<33:19,  1.48it/s]

059 complete


 93%|██████████████████████████████████████████████████████████████████████▎     | 30507/32971 [35:31<28:37,  1.43it/s]

060 complete


 94%|███████████████████████████████████████████████████████████████████████▍    | 31007/32971 [35:55<16:27,  1.99it/s]

061 complete


 96%|████████████████████████████████████████████████████████████████████████▋   | 31508/32971 [36:20<13:13,  1.84it/s]

062 complete


 97%|█████████████████████████████████████████████████████████████████████████▊  | 32008/32971 [36:47<09:11,  1.75it/s]

063 complete


 99%|██████████████████████████████████████████████████████████████████████████▉ | 32515/32971 [37:10<03:08,  2.42it/s]

064 complete


100%|████████████████████████████████████████████████████████████████████████████| 32971/32971 [37:17<00:00, 14.74it/s]

2237.371967315674





In [None]:
csv_df = pd.read_csv('klecspeech_ko_000.csv',sep='\t')
csv_df.head()

In [None]:
for i in range(100):
    print(text_dict['src'][i], text_dict['text'][i])

In [None]:
df.to_csv('order_speech_ko.csv')

In [None]:
df['text'].unique()
# df.read_csv('order_speech_ko.csv')
# result = [i for i in my_list if i]

In [None]:
df.info()

In [None]:
df.describe()

## 텍스트 누락 확인

In [None]:
df['text'].min()

In [None]:
df['text_len'] = df['text'].map(len)

df[['text_len']].idxmin()

In [None]:
df[['text_len']].idxmin()

In [None]:
df['text'][22410]

In [None]:
print(df['src'][22410])

In [None]:
# 찾아보면 #NAME이라고 되어 있음.